课程简介
理解实时数据分析的核心概念、架构和优势。
掌握主流流计算引擎(Apache Flink、Apache Kafka Streams)的使用方法。
掌握 StarRocks 实时数据库的设计和应用。
学习使用窗口函数和复杂事件处理(CEP)技术进行高级实时分析。
了解实时数据分析的应用场景和最佳实践。
能够构建自己的实时数据分析原型系统。
目标收益
培训对象
数据工程师、流计算工程师、数据分析师、数据科学家、以及对实时数据处理感兴趣的技术人员。
课程大纲
第一天:实时数据分析基础与流计算引擎 模块 1:实时数据分析概述 (上午) |
实时数据的定义、特点和应用场景 传统数据分析与实时数据分析的对比 实时数据分析的价值与挑战 实时数据分析的架构与核心组件:数据源、流计算引擎、存储系统、可视化工具 |
模块 2:流计算引擎基础 (上午) |
流计算引擎的定义与特点 有状态计算与无状态计算 Exactly-Once语义与容错机制 窗口函数 (Windowing) 的概念与类型:滚动窗口、滑动窗口、会话窗口 水印 (Watermark) 的作用:处理乱序数据和延迟数据 |
模块 3:Apache Flink技术详解 (下午) |
Apache Flink的架构与核心组件:DataStream API, Table API, CEP Flink的数据模型:Stream, DataSet, Table Flink的窗口函数:Time-based Windows, Count-based Windows, Session Windows Flink的容错机制:Checkpoint, Savepoint 动手实践:使用Flink DataStream API构建简单的流式数据处理程序 |
模块 4:Apache Kafka Streams技术详解 (下午) |
Apache Kafka Streams的架构与核心组件:Topology, Processor, State Store Kafka Streams的数据模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函数:Time Windows, Session Windows, Hopping Windows Kafka Streams的容错机制:Changelog Topic 动手实践:使用Kafka Streams构建简单的流式数据处理程序 |
第二天:StarRocks 实时数据库与高级分析技术 模块 5:StarRocks技术详解 (上午) |
StarRocks的架构与核心组件:FE, BE StarRocks的数据模型:Table, Partition, Segment StarRocks的查询语言:SQL StarRocks的索引技术:Bitmap Index, Inverted Index, Prefix Index StarRocks的存储引擎:列式存储引擎 动手实践:使用StarRocks存储和查询实时数据 |
模块 6:StarRocks的性能优化与管理 (上午) |
StarRocks的数据导入方式:Stream Load, Broker Load, Routine Load StarRocks的查询优化:查询重写, 索引选择, 执行计划 StarRocks的集群管理:扩容, 缩容, 故障恢复 StarRocks的监控与报警 动手实践:对StarRocks进行性能调优 |
模块 7:复杂事件处理 (CEP) 技术 (下午) |
CEP的定义与应用场景 CEP的模式语言:定义事件模式、条件、时间约束 CEP的常用引擎:Apache Flink CEP, Esper CEP的应用案例:欺诈检测、异常监控、智能推荐 动手实践:使用Flink CEP分析数据并进行复杂事件处理 |
模块 8:StarRocks 与 Flink 的集成 (下午) |
使用 Flink CDC 实时同步数据库数据到 StarRocks 使用 Flink 连接器将 Flink 计算结果写入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的计算结果查询 动手实践:配置 Flink CDC 同步数据到 StarRocks |
第三天:实时数据分析应用与最佳实践 模块 9:实时数据分析的应用场景 (上午) |
实时监控与报警:系统监控、安全监控、业务监控 实时推荐:个性化推荐、内容推送、广告投放 实时欺诈检测:信用卡欺诈、网络攻击、交易风险 实时数据可视化:仪表盘、报表、大屏展示 实时决策:智能定价、库存优化、供应链管理 |
模块 10:构建实时数据分析系统的最佳实践 (上午) |
选择合适的流计算引擎和实时数据库 设计高效的数据模型和查询模式 优化数据摄取和处理性能 保障数据质量和数据安全 实施监控和报警机制 |
模块 11:实时数据分析的架构模式 (下午) |
Lambda架构:结合批处理和流处理 Kappa架构:简化架构,只依赖流处理 流式数据湖架构:利用数据湖的低成本存储和灵活分析能力 选择合适的架构模式:根据业务需求和技术栈 |
模块 12:实时数据分析的未来趋势 (下午) |
AI驱动的实时数据分析:利用机器学习进行智能异常检测和预测 云原生实时数据分析:基于云平台构建弹性伸缩的实时分析系统 Serverless实时数据分析:利用Serverless计算降低成本和运维复杂性 开放讨论:学员分享对实时数据分析未来发展的看法 |
可选模块 (根据客户需求调整) |
高级流计算技术: Exactly-Once语义、状态管理、窗口函数优化 StarRocks高级技术: 数据分片、索引优化、查询优化 特定行业实时数据分析案例: 金融、零售、电商、物联网 |
工具与技术: |
流计算引擎:Apache Flink, Apache Kafka Streams 实时数据库: StarRocks 消息队列:Apache Kafka, RabbitMQ 数据可视化:Tableau, Power BI, Grafana 云平台:AWS, Azure, Google Cloud |
第一天:实时数据分析基础与流计算引擎 模块 1:实时数据分析概述 (上午) 实时数据的定义、特点和应用场景 传统数据分析与实时数据分析的对比 实时数据分析的价值与挑战 实时数据分析的架构与核心组件:数据源、流计算引擎、存储系统、可视化工具 |
模块 2:流计算引擎基础 (上午) 流计算引擎的定义与特点 有状态计算与无状态计算 Exactly-Once语义与容错机制 窗口函数 (Windowing) 的概念与类型:滚动窗口、滑动窗口、会话窗口 水印 (Watermark) 的作用:处理乱序数据和延迟数据 |
模块 3:Apache Flink技术详解 (下午) Apache Flink的架构与核心组件:DataStream API, Table API, CEP Flink的数据模型:Stream, DataSet, Table Flink的窗口函数:Time-based Windows, Count-based Windows, Session Windows Flink的容错机制:Checkpoint, Savepoint 动手实践:使用Flink DataStream API构建简单的流式数据处理程序 |
模块 4:Apache Kafka Streams技术详解 (下午) Apache Kafka Streams的架构与核心组件:Topology, Processor, State Store Kafka Streams的数据模型:KStream, KTable, GlobalKTable Kafka Streams的窗口函数:Time Windows, Session Windows, Hopping Windows Kafka Streams的容错机制:Changelog Topic 动手实践:使用Kafka Streams构建简单的流式数据处理程序 |
第二天:StarRocks 实时数据库与高级分析技术 模块 5:StarRocks技术详解 (上午) StarRocks的架构与核心组件:FE, BE StarRocks的数据模型:Table, Partition, Segment StarRocks的查询语言:SQL StarRocks的索引技术:Bitmap Index, Inverted Index, Prefix Index StarRocks的存储引擎:列式存储引擎 动手实践:使用StarRocks存储和查询实时数据 |
模块 6:StarRocks的性能优化与管理 (上午) StarRocks的数据导入方式:Stream Load, Broker Load, Routine Load StarRocks的查询优化:查询重写, 索引选择, 执行计划 StarRocks的集群管理:扩容, 缩容, 故障恢复 StarRocks的监控与报警 动手实践:对StarRocks进行性能调优 |
模块 7:复杂事件处理 (CEP) 技术 (下午) CEP的定义与应用场景 CEP的模式语言:定义事件模式、条件、时间约束 CEP的常用引擎:Apache Flink CEP, Esper CEP的应用案例:欺诈检测、异常监控、智能推荐 动手实践:使用Flink CEP分析数据并进行复杂事件处理 |
模块 8:StarRocks 与 Flink 的集成 (下午) 使用 Flink CDC 实时同步数据库数据到 StarRocks 使用 Flink 连接器将 Flink 计算结果写入 StarRocks 利用 StarRocks 的高性能分析能力加速 Flink 的计算结果查询 动手实践:配置 Flink CDC 同步数据到 StarRocks |
第三天:实时数据分析应用与最佳实践 模块 9:实时数据分析的应用场景 (上午) 实时监控与报警:系统监控、安全监控、业务监控 实时推荐:个性化推荐、内容推送、广告投放 实时欺诈检测:信用卡欺诈、网络攻击、交易风险 实时数据可视化:仪表盘、报表、大屏展示 实时决策:智能定价、库存优化、供应链管理 |
模块 10:构建实时数据分析系统的最佳实践 (上午) 选择合适的流计算引擎和实时数据库 设计高效的数据模型和查询模式 优化数据摄取和处理性能 保障数据质量和数据安全 实施监控和报警机制 |
模块 11:实时数据分析的架构模式 (下午) Lambda架构:结合批处理和流处理 Kappa架构:简化架构,只依赖流处理 流式数据湖架构:利用数据湖的低成本存储和灵活分析能力 选择合适的架构模式:根据业务需求和技术栈 |
模块 12:实时数据分析的未来趋势 (下午) AI驱动的实时数据分析:利用机器学习进行智能异常检测和预测 云原生实时数据分析:基于云平台构建弹性伸缩的实时分析系统 Serverless实时数据分析:利用Serverless计算降低成本和运维复杂性 开放讨论:学员分享对实时数据分析未来发展的看法 |
可选模块 (根据客户需求调整) 高级流计算技术: Exactly-Once语义、状态管理、窗口函数优化 StarRocks高级技术: 数据分片、索引优化、查询优化 特定行业实时数据分析案例: 金融、零售、电商、物联网 |
工具与技术: 流计算引擎:Apache Flink, Apache Kafka Streams 实时数据库: StarRocks 消息队列:Apache Kafka, RabbitMQ 数据可视化:Tableau, Power BI, Grafana 云平台:AWS, Azure, Google Cloud |