课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

本课程深入探讨大模型时代下数据架构的演进与融合路径,系统性解析从传统数据平台到智能数据体系的转型逻辑。内容涵盖数据技术发展历程、大模型与Agent核心技术、RAG增强架构及湖仓一体实践,并结合零售、金融、医疗等行业案例,展示Data+AI落地方法论。通过理论与实践结合,助力学员掌握智能数据平台构建、多模态处理、价值化运营等关键能力,应对“找数难、分析慢、决策滞后”等业务挑战,推动企业实现数据驱动向智能决策的跨越

目标收益

理解数据技术从大数据到数智融合的演进逻辑,把握未来数据架构发展方向。
掌握大模型、Agent、RAG等核心AI技术原理及其在数据场景中的应用方法。
学会设计湖仓一体、流批一体的智能数据平台架构,支持多模态数据处理与实时分析。
通过行业真实案例学习,获得AI在零售、金融、医疗等领域落地的实战经验。
具备构建可信数据查询系统与智能问答系统的实操能力,推动数据价值向业务智能化转型。

培训对象

数据工程师、数据科学家、机器学习工程师、数据分析师,及所有对 Data + AI 领域感兴趣的技术人员。

课程内容

第一天:基础认知与核心技术深度解析
上午:数据架构概述(2小时)
1. 课程导入:大模型重构数据分析行业(30分钟)
行业现状:数字经济规模达50.2万亿元,数据成为核心生产要素
技术变革:从传统BI到智能BI的演进(传统BI→敏捷BI→智能BI)
核心价值:大模型如何解决"找数难、分析慢、决策滞后"的行业痛点
学习目标:掌握数据技术演进逻辑、核心技术原理、落地应用方法
2. 数据技术发展历程:从大数据到数智融合(30分钟)
三个关键阶段拆解
a.数字化时代(2003年前):关系型数据库主导,聚焦结构化数据存储与查询,代表技术如MySQL、Oracle,核心目标是"数据可存可用"
b.大数据时代(2003-2016):三大论文(MapReduce、BigTable、GFS)奠定基础,分布式计算崛起,Hadoop、Spark成为核心工具,移动互联网爆发推动个性化服务,主旋律是"极致成本、高性能、高效率"
c.数智融合时代(2017至今):2017年"Attention is All You Need"论文开启生成式AI,大模型成为核心引擎,数据与智能深度融合,目标是"全方位智能服务"
技术演进核心逻辑:数据规模从GB级到ZB级、数据类型从结构化到全模态、技术重心从"存储计算"到"价值创造"
3. 数据体系的核心转变(30分钟)
数据形态转变:从结构化到非结构化的延展
¢现状:2027年全球非结构化数据占比将达86.8%,规模达246.9ZB,涵盖文本、图像、音频、视频等
¢挑战:传统处理框架难以应对多源异构数据,需解决"结构化质量→内容质量→表达质量"的三层优化
¢处理流程:数据引入→清洗(异常检测、缺失值填充)→处理(多模态融合)→挖掘(内容理解)→审核(专业校验)→智能应用
数据服务对象转变:从面向用户到面向机器与智能体
¢应用形态:从传统UI交互应用→多智能体协作的智能助理、具身智能
¢交互方式:从图形交互→生成式智能渲染、自然语言交互、Agent间语义交互
¢服务模式:从"人找数据"→"数据找机器"→"智能体主动提供服务"
4. 数据价值化的转型路径(30分钟)
价值化四阶段模型
a.1.0数据结果:文件/关系型数据库存储,核心是"记录数据"(如财务年收支报表)
b.2.0查询统计:数据仓库支持应用级查询分析,核心是"提取信息"(如销售数据汇总)
c.3.0数字化洞察:大数据分析/ANI实现业务洞察,核心是"转化知识"(如用户行为分析)
d.4.0业务智能化:AGI驱动决策,核心是"创造价值"(如实时定价、智能推荐)
价值化核心转变
¢技术关注点:从延迟/吞吐量→数据规模/质量
¢核心逻辑:从成本效率导向→价值创造导向
¢体系构建:涵盖数据生产、加工、服务全链路,实现数据与智能的深度关联
下午:核心技术原理与架构设计(4小时)
1. 大模型核心原理(70分钟)
基础概念:模型本质是"概率游戏",通过参数调节(亿级至万亿级)实现对数据规律的学习
Transformer架构深度解析
¢核心创新:自注意力机制(Self-Attention),解决RNN并行计算不足、CNN长程依赖捕捉弱的问题
¢架构组成:Encoder(语义理解,如BERT)、Decoder(文本生成,如GPT)、Positional Encoding(位置编码)
¢工作流程:输入嵌入→多头注意力→前馈网络→归一化,实现对文本、图像等数据的深层理解
预训练与微调技术
¢预训练:基于海量通用数据训练基础模型,掌握语言规律与基础常识
¢微调方法:LoRA(旁路降维升维,仅训练少量参数)、Prompt Tuning(添加任务专属嵌入)、RLHF(基于人类反馈的强化学习)
¢关键区别:Zero-Shot(零样本)、One-Shot(单样本)、Few-Shot(少样本)学习的适用场景
2. Agent技术原理(60分钟)
定义:具备"记忆+规划+工具使用+反馈学习"能力的智能体,是连接大模型与实际场景的核心载体
核心组成模块
¢记忆系统:短期记忆(会话上下文)、长期记忆(领域知识、历史交互)
¢规划能力:任务拆解(复杂问题→子任务)、逻辑推理(多步骤因果推断)
¢工具调用:支持SQL生成、API调用、数据查询、图表绘制等外部工具集成
¢反馈机制:基于结果自动优化决策路径,提升任务完成准确率
工作流程:接收需求→意图识别→任务规划→工具执行→结果整合→反馈优化
典型应用:虚拟旅游顾问(整合天气、景点、交通数据)、智能客服(分析客户情绪与问题类型)
3. RAG技术深度解析(60分钟)
核心痛点:解决大模型"知识过时、幻觉、领域适配差"的三大问题
技术原理:检索增强生成(Retrieval-Augmented Generation),先检索相关知识再生成答案
关键流程
a.知识库构建:数据切分(按语义/固定长度)→向量化(Embedding)→存储(向量数据库如Milvus)
b.检索过程:用户 query→向量化→相似性匹配→多路召回(关键词+语义检索)→重排优化
c.生成增强:检索结果作为上下文→输入大模型→生成答案(附带来源追溯)
进阶优化技术
¢GraphRAG:构建知识图谱,捕捉实体关联,提升复杂问题推理能力
¢DeepSearcher:多步骤检索、多源验证,解决深度研究类需求
¢常见问题:如何提升检索准确率(优化Embedding模型、细化数据切分)、如何降低幻觉(增加事实校验环节)
4. 智能数据平台架构(60分钟)
核心架构:湖仓一体+流批一体的混合架构
¢湖仓一体:融合数据湖(原始数据存储)与数据仓库(结构化分析)优势,支持多模态数据、ACID事务、行级更新,代表技术如Iceberg、Hudi、Delta Lake
¢流批一体:统一流处理与批处理的计算引擎(Flink为核心)、存储介质,实现"一套代码、两种计算模式",解决数据一致性、资源浪费问题
关键组件
a.数据接入层:支持数据库、日志、IoT设备、社交媒体等多源数据实时/离线接入
b.数据加工层:智能清洗、特征工程自动化、多模态融合处理
c.存储层:结构化数据(MySQL)、半结构化数据(MongoDB)、非结构化数据(对象存储)、向量数据(Milvus)统一存储
d.计算层:大模型推理、分布式计算、实时OLAP分析
e.应用层:ChatBI、智能报表、AI Agent、API服务
技术优势:支持实时分析(T+0)、多模态处理、高并发查询、灵活扩展
第一天总结与课后任务(20分钟)
核心知识点回顾:数据技术演进三阶段、大模型/Agent/RAG核心原理、智能数据平台架构
课后任务:
a.梳理所在行业的"数据痛点",思考大模型能解决的核心问题
b.预习第二天案例中的技术实现细节,准备课堂讨论
c.安装基础工具(如Python、Milvus向量数据库),为实操演练做准备
第二天:案例实践与应用落地实战
上午:行业标杆案例深度拆解(3.5小时)
1.LLM+Agent驱动的智能数据分析平台(60分钟)
业务背景:解决视频等产品"数据分析门槛高、响应慢"的问题
技术架构拆解
¢核心层:大模型(DeepSeek)+多任务对话系统+面向ABI的工具箱
¢能力模块:意图识别、Query改写、text2SQL、智能绘图、数据解读、归因分析
¢关键技术:元数据检索增强(MetaRAG)、拟人思维Agent、SQL纠错与优化
功能实现
¢对话式查询:支持自然语言多轮追问,自动识别指标、维度、时间范围
¢text2SQL生成:支持复杂查询(多表join、子查询、聚合计算),准确率超84%
¢智能可视化:自动推荐图表类型(柱状图、折线图等),支持一键生成仪表盘
落地效果:分析工作处理时长减少80%,非技术人员使用率提升300%
2. 行业案例深度解析(60分钟)
零售领域:精准运营解决方案
¢技术方案:Transformer时序模型+联邦学习,融合天气、节假日等外部变量
¢核心功能:区域级商品需求预测、动态补货策略、客户偏好推荐
¢业务价值:预测误差率降低15%,缺货率下降20%,仓储成本降低12%
金融领域:智能风控系统
¢技术方案:多模态图神经网络+动态对抗训练,整合财务数据、社交媒体言论、行业新闻
¢核心功能:企业信用风险评估、欺诈检测、异常交易识别
¢业务价值:年损失减少亿元级,风险识别准确率提升25%
医疗领域:影像辅助诊断
¢技术方案:MoE架构+多模态对齐,融合医学影像(X光、CT)、病历文本、症状描述
¢核心功能:早期癌症检出、病灶定位、辅助诊断建议
¢业务价值:早期癌症检出率提升18%,诊断效率提升30%
3. 可信数据查询与落地实践(45分钟)
核心定位:以"数据可信"为核心,实现自然语言到数据洞察的全链路自动化
关键技术突破
¢自研NL2SQL大模型:基于模型微调,准确率优于GPT4,支持中文口语化查询
¢物化视图技术:将复杂join关系物化成单表,查询性能提升3-5倍
¢权限精细化管理:基于RBAC模型,实现指标级、行列级数据权限控制
落地场景:企业经营分析、营销复盘、日常取数,取数周期从3天缩短至1分钟
下午:技术挑战、解决方案与未来趋势(3.5小时)
1. 数据应用新范式的核心挑战(60分钟)
挑战一:混合检索技术突破
¢问题:标量数据(结构化)与向量数据(非结构化)的混合查询,需平衡成本、性能、准确率
¢解决方案:多路召回排序(Inverted index+向量检索)、混合索引优化、检索结果重排
¢应用场景:新搜索、智能问答,支持关键词+相似性检索结合
挑战二:多模态数据融合
¢问题:文本、图像、音频、视频等多源数据的统一处理与关联分析
¢解决方案:跨模态Embedding、多模态Transformer模型、特征融合算法
¢应用场景:市场调研(分析社交媒体图文内容)、工业监测(融合传感器数据与监控视频)
挑战三:数据生态的开放与安全
¢问题:多方数据融合、价值发现、安全合规的平衡
¢解决方案:统一元数据管理、多方密态计算、数据权限管控与血缘追踪
¢合规要求:满足数据隐私保护、专数专用、安全审计等监管要求
2. 关键解决方案深度解析(45分钟)
实验迭代原生工程体系
a.数据质量评估:从结构质量(完整性、一致性)、内容质量(准确性、相关性)、表达质量(清晰度、规范性)三维评估
b.数据处理能力:支持数据选择、采样、混合配比、存量与增量更新、版本化管理
c.科学实验体系:控制变量法、双盲实验,探索数据对模型性能的影响
数据价值化流通机制
d.价值子集发现:自动识别高价值数据,超越人工筛选局限
e.价值度量与结算:建立数据应用效果的量化评估机制,实现价值公平分配
f.安全流通技术:隐私计算(联邦学习、同态加密)、数据脱敏、权限精细化管控
3. 实操演练:基于RAG构建智能问答系统(60分钟)
演练目标:搭建一个针对"智能数据分析"主题的智能问答系统
前置准备:安装Python、Milvus向量数据库、LangChain框架、DeepSeek模型
分步操作指南
a.数据准备:收集智能数据分析相关文档(核心技术、案例、FAQ),整理为TXT格式
b.知识库搭建:
数据切分:按语义分割文档为500字左右的片段
向量化处理:使用Embedding模型(如BGE)将文本片段转化为向量
存储配置:将向量数据导入Milvus,建立索引
c.检索配置:配置关键词检索+向量检索的多路召回策略,设置相似度阈值
d.模型调用:集成DeepSeek模型,将检索结果作为上下文传入,生成回答
e.效果测试:输入问题(如"大模型如何解决数据分析中的幻觉问题?"),验证回答准确性与相关性
问题排查:检索无结果、回答不准确、响应慢等常见问题的解决方法
4. 技术演进趋势与行业展望(45分钟)
三大核心趋势
a.通用智能与垂直场景融合:AGI提供通用认知能力,垂直领域大模型通过微调适配专业需求
b.数据与智能深度协同:数据湖2.0(支持多模态、实时更新)与大模型的无缝对接,实现"数据→模型→应用"的闭环
c.成本优化与效率提升:模型压缩(量化、蒸馏)、训练框架优化(FP8混合精度、DualPipe调度),降低落地门槛
行业发展预测
¢2025年:推理成本降低数十倍,"百模大战"转向"应用大战"
¢落地重点:从通用模型到行业解决方案,中小企业成为应用主力
¢能力突破:长上下文理解(支持100K+tokens)、多模态深度融合、因果推理能力提升
个人能力要求:数据分析人员需具备"业务理解+技术认知+工具应用"的复合能力
5. 课程总结与落地建议(20分钟)
核心知识点回顾:数据技术演进、大模型/Agent/RAG核心原理、案例落地逻辑、技术挑战解决方案
企业落地路径
a.基础层:构建湖仓一体数据平台,完善数据治理与质量保障
b.技术层:引入大模型与RAG框架,搭建智能数据分析底座
c.应用层:从单一场景(如智能取数)切入,逐步扩展至全流程分析
常见误区规避:过度追求大模型参数规模、忽视数据质量、缺乏落地场景规划

活动详情

提交需求