课程简介
本课程的大纲设置,注重的是Flink基础和核心技术的梳理和掌握,之后会对其中几个重要的技术点做深入分析。针对企业内训的需求,我们对大纲的设置,特别增加了学以致用的实战环节,让企业学员能够在学习完Flink技术知识后,具备将Flink应用到实际生产环境中的能力,通过短时间的技术学习,为公司创造价值和提高技术生产的效率。
本课程理论和实战相结合,能够通过实践学习Flink的核心知识点和应用场景
本课程的最大亮点是“Flink实时数据仓库项目实战”模块,通过真实的实时数仓项目,帮助学员能够快速进入Flink项目的开发。
目标收益
-深入了解流批一体数据摄取、整合、处理和应用的解决方案和技术体系架构
-了解Flink的典型应用场景和Flink在大型互联网的典型应用
-深入了解Flink技术栈的功能和应用场景,对流批一体的解决方案和落地有深入的理解,并且能够落地
-深入了解Flink编程模型及核心原理、DataSet API编程、DataStream API编程、Flink Table API&SQL编程、Time及Window操作、Flink 常用Connectors介绍、Flink监控和调优
-Flink实时数据仓库项目实战,了解实时数据仓库的技术架构、从数据摄取到数据展示的全链路数据实时处理的过程
-学员能够自主独立的使用Flink进行实时数仓平台的开发工作
培训对象
-大数据平台架构师
-一线大数据开发人员
-对Flink流批一体数据平台感兴趣的人员
课程大纲
第一天 流批一体架构案例分享 |
离线数仓技术架构和技术栈介绍 实时数仓架构架构和技术栈介绍 流批一体架构的优点 流批一体架构解决方案 流批一体架构技术栈详解 流批一体数据架构的设计 流批一体数据摄取、整合、处理和应用的解决方案 流批一体平台架构在互联的实战 美团流批一体平台架构分享 |
基于Flink流批一体数仓案例实战 |
滴滴基于Flink实现复杂事件处理的案例分享 —Flink+CEP —Flink状态管理 —Flink运维和优化 —Flink容错机制 —Flink反压机制 —Flink任务的双链路备用 阿里巴巴基于Flink实时统计案例分享 —阿里双十一实时架构分享 —双流数据Join处理 —Flink流失实仓架构详解 Flink CEP实时规则引擎详解 |
Flink 技术栈介绍 |
Flink Table API介绍 Flink SQL介绍 Flink CDC Connect介绍 Flink CEP复杂事件处理 Flink Gelly图计算应用 Flink ML机器学习应用 PyFlink数据分析和挖掘介绍 Flink Metrics 与监控 |
Flink on yarn原理 |
Flink的运行模式介绍 Flink on standalone运行模式介绍 Flink on yarn运行模式 —Session mode模式介绍和实战 —Per-job mode模式介绍和实战 —Application mode模式和实战 三种模式的优缺点比较 |
Flink有状态的计算、状态管理和容错 |
什么是有状态计算 有状态计算中的数据一致性挑战 理解state状态 Operator State 的使用及Redistribute Keyed State的使用与Redistribute Broadcast State的使用 Checkpoint核心原理剖析 Checkpoint使用条件及使用步骤 Checkpoint相关配置及重启策略 Savepoint的触发、Job恢复及删除 |
Flink DataStream API原理和实战 |
DataStream API介绍与使用 DataStream编程模型 DataStream类型与转换 Pipeline与StreamGraph转换 Transformation 时间概念与Watermark Windows窗口计算和多流合并 作业链和资源组 Asynchronous I/O异步API Asynchronous I/O异步原理 |
Flink DataSet API介绍和实战 |
DataSet API,Transformation 迭代计算 广播变量与分布式缓存 语义注解 DataSetUtils工具类 |
第二天 Flink Table API & SQL实战 |
Flink table API原理和使用 Flink SQL原理和使用 TableEnviroment原理和使用 Table Connector注册机制和使用 TimeStamp与Watermark原理和实战 Temporal Tables原理实战 多表关联实战 与Hive的集成实战 自定义TableSource、Table Sink和Table Factory实战 Flink SQL Catalog原理 项目实战:基于Flink SQL实现数据统计分析 |
Flink Connector介绍和实战 |
Flink Connector数据源 FlinkKafkaSource序列化、消费模式 FlinkKafkaSource容错、动态分区及topic FlinkKafkaSink序列化、配置、分区与容错 自定义Source和Sink |
Flink CDC介绍 |
传统CDC工具介绍 CDC工具介绍和比较 Flink CDC支持的功能 基于日志CDC的数据同步流程 ETL—传统CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 数据宽表 Flink SQL如何集成CDC Flink CDC 作为数据采集层的优势 |
项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 |
RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 |
Flink监控和优化 |
Flink Metric使用介绍 Flink RestAPI介绍和使用 Backpressure监控与优化 Checkpointing监控与优化 Flink内存管理和优化 窗口和事件事件调试 HistoryServer服务介绍 |
第一天 流批一体架构案例分享 离线数仓技术架构和技术栈介绍 实时数仓架构架构和技术栈介绍 流批一体架构的优点 流批一体架构解决方案 流批一体架构技术栈详解 流批一体数据架构的设计 流批一体数据摄取、整合、处理和应用的解决方案 流批一体平台架构在互联的实战 美团流批一体平台架构分享 |
基于Flink流批一体数仓案例实战 滴滴基于Flink实现复杂事件处理的案例分享 —Flink+CEP —Flink状态管理 —Flink运维和优化 —Flink容错机制 —Flink反压机制 —Flink任务的双链路备用 阿里巴巴基于Flink实时统计案例分享 —阿里双十一实时架构分享 —双流数据Join处理 —Flink流失实仓架构详解 Flink CEP实时规则引擎详解 |
Flink 技术栈介绍 Flink Table API介绍 Flink SQL介绍 Flink CDC Connect介绍 Flink CEP复杂事件处理 Flink Gelly图计算应用 Flink ML机器学习应用 PyFlink数据分析和挖掘介绍 Flink Metrics 与监控 |
Flink on yarn原理 Flink的运行模式介绍 Flink on standalone运行模式介绍 Flink on yarn运行模式 —Session mode模式介绍和实战 —Per-job mode模式介绍和实战 —Application mode模式和实战 三种模式的优缺点比较 |
Flink有状态的计算、状态管理和容错 什么是有状态计算 有状态计算中的数据一致性挑战 理解state状态 Operator State 的使用及Redistribute Keyed State的使用与Redistribute Broadcast State的使用 Checkpoint核心原理剖析 Checkpoint使用条件及使用步骤 Checkpoint相关配置及重启策略 Savepoint的触发、Job恢复及删除 |
Flink DataStream API原理和实战 DataStream API介绍与使用 DataStream编程模型 DataStream类型与转换 Pipeline与StreamGraph转换 Transformation 时间概念与Watermark Windows窗口计算和多流合并 作业链和资源组 Asynchronous I/O异步API Asynchronous I/O异步原理 |
Flink DataSet API介绍和实战 DataSet API,Transformation 迭代计算 广播变量与分布式缓存 语义注解 DataSetUtils工具类 |
第二天 Flink Table API & SQL实战 Flink table API原理和使用 Flink SQL原理和使用 TableEnviroment原理和使用 Table Connector注册机制和使用 TimeStamp与Watermark原理和实战 Temporal Tables原理实战 多表关联实战 与Hive的集成实战 自定义TableSource、Table Sink和Table Factory实战 Flink SQL Catalog原理 项目实战:基于Flink SQL实现数据统计分析 |
Flink Connector介绍和实战 Flink Connector数据源 FlinkKafkaSource序列化、消费模式 FlinkKafkaSource容错、动态分区及topic FlinkKafkaSink序列化、配置、分区与容错 自定义Source和Sink |
Flink CDC介绍 传统CDC工具介绍 CDC工具介绍和比较 Flink CDC支持的功能 基于日志CDC的数据同步流程 ETL—传统CDC ETL分析 ETL—基于Flink CDC 聚合分析 Flink CDC 数据宽表 Flink SQL如何集成CDC Flink CDC 作为数据采集层的优势 |
项目实战RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战: Docker演示环境介绍 Flink CDC mysql实战 Flink CDC postgres实战 Flink CDC Kafka实战 Flink CDC ES实现 Kibana结果展示 RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战 |
Flink监控和优化 Flink Metric使用介绍 Flink RestAPI介绍和使用 Backpressure监控与优化 Checkpointing监控与优化 Flink内存管理和优化 窗口和事件事件调试 HistoryServer服务介绍 |