课程简介
本课程围绕金融领域大模型的数据准备工作展开,系统介绍从数据需求分析到预训练数据构建的全流程。课程内容包括大模型数据的特征与要求、金融文本的类型与质量规范、数据安全与合规处理等关键环节。通过实际案例讲解通用数据与金融专业数据的获取、清洗、标准化及脱敏方法,帮助学员掌握构建高质量、合规金融大模型数据集的核心技能,为金融AI应用的开发与优化奠定坚实的数据基础。
目标收益
1,掌握金融大模型数据需求分析的方法与工具;
2,理解金融领域数据的类型、特征与质量要求;
3,学会数据清洗、标准化和结构化处理的关键技术;
培训对象
课程内容
1. 大模型数据需求分析(1天)
1.1 大模型数据概述
预训练数据特征与要求
领域微调数据规格
指令微调数据设计
对齐数据构造方法
1.2 金融领域数据特点
1. 金融文本数据类型与特征
研究报告、公告文件
监管政策文件
市场评论分析
金融新闻资讯
金融数据质量要求
数据时效性要求
数据准确性标准
数据合规性规范
数据安全与合规考量
数据分级分类
隐私数据处理
监管合规要求
2. 预训练数据构建(1天)
2.1 通用数据获取与处理
数据源识别与评估
开源数据集评估
互联网数据筛选
商业数据源评估
数据清洗技术
文本降噪方法
重复内容去除
格式统一化处理
数据结构化处理
文本分段与规范
元数据提取与标注
数据格式转换
2.2 金融领域数据构建
专业数据获取
金融数据库对接
交易数据采集
研报数据处理
数据标准化处理
金融术语规范化
数值数据标准化
时间序列处理
数据脱敏处理
敏感信息识别
近期公开课推荐