课程简介
通过介绍大数据的核心计算和存储组件,以及整个完整的大数据平台架构,结合具体的数据分析和机器学习案例分析,让大家了解和掌握大数据平台、机器学习和数据分析相关知识、最新的发展趋势和如何应用到实际项目实践中。
目标收益
通过介绍大数据的核心计算和存储组件,以及整个完整的大数据平台架构,结合具体的数据分析和机器学习案例分析,让大家了解和掌握大数据平台、数据分析和机器学习相关知识、最新的发展趋势,以及如何应用到实际项目实践中。
培训对象
课程大纲
大数据和大数据平台概念 |
1. 大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践; 2. 数据平台的基本概念和架构:数据平台的组成部分,功能和作用:包括数据存储、计算、传输(输入/输出)、任务调度系统、开发者平台、数据质量监控系统等。以某知名互联网公司数据平台架构为例进行分享,节点2000+,存储50PB 3. 大数据在企业运营中的应用 |
Hadoop分布式存储HDFS介绍 |
1. Hadoop大数据存储系统HDFS的技术原理及应用实战,以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势 2. HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展 |
MapReduce计算执行框架 |
1. 大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构,以及MapReduce技术的发展趋势 2. Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践 |
资源调度框架YARN介绍 |
1. YARN 集群的架构 2. 资源分配和故障恢复 3. 使用 YARN Web 用户界面 4. 管理正在运行的作业 5. 配置公平调度器 6. 实现多租户架构 |
Hadoop集群的高级特性、集群建设和运维实践 |
1. Namenode\DataNode节点硬件以及网络选择 2. 集群高可用配置 3. 集群机房实际部署拓扑推荐——PB级别容量集群的实际配置方案 4. 集群监控和自动化运维实践 5. 常见的 Hadoop Clusters 的故障排除 |
数据仓库和数据分析实践 |
1. Hive基本介绍和Hive在数据仓库中的使用 2. Hive的配置和使用 3. Hive的HQL扩展开发 数据仓库建设经验分享——以知名互联网公司仓库建设实践经验:表数量2万+、分析师200+、模型和任务数量2万+ |
Spark分享和实践 |
1. Spark的基础概念 2. Spark安装和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介绍 5. Spark Streaming开发实践 Spark SQL和Hive在数据分析中的整合实践 |
实时和流计算 |
1. 介绍Flink相关概念和基础知识,以及如何使用Flink等。 2. 以流量实时化和实时推荐为例,介绍实时系统的使用场景、系统架构和最佳实践 3. Spark相关介绍和基础知识 4. Spark/Spark SQL/Spark Streaming的使用场景和特点 5. 在流处理方向Spark Stream和Flink的区别和使用特点 案例分享:实时和离线融合在互联网公司的实践 |
机器学习和深度学习知识原理 |
1. 机器学习知识与人工智能、深度学习关系; 2. 机器学习应用场景是什么; 3. 机器学习分类和算法基本介绍:监督学习算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 机器学习分类和算法基本介绍:无监督学习算法(K-Means、PCA、LDA等); 5. 机器学习评估指标; 6. 机器学习常用数学知识; |
特征工程和模型训练 |
1. 特征工程(特征提取,特征离散化,特征交叉等); 2. 3.如何大规模实时&离线训练模型(训练集、测试集、验证集/评估指标AUC、ABTest 等) |
大规模机器学习平台 |
1. 模型开发(如何支持Python、Spark ML、R、TensorFlow、PyTorch等机器学习和深度学习框架开发) 2. 数据存储:实时特征+离线历史数据 3. 大规模分布式计算:CPU + GPU 4. 模型发布和上线 5. 我们的大规模机器学习平台分享(支持200+ 算法和模型开发人员) |
用户画像在个性化性化推荐系统领域 |
案例简介:用户画像数据体系建设,以及基于用户画像数据、用户实时行为数据的个性化推荐系统介绍 1. 用户画像体系介绍 2. 用户特征抽取 3. 用户特征存储和应用 4. 个性化推荐系统和用户画像的结合 |
推荐系统实践 |
案例简介:我们的推荐系统如何支持每天上亿用户访问;以及亿级别的销售额提升 1. 推荐系统整体架构 2. 算法和模型支持 3. 算法评估和灰度 4. ABT效果检验 |
知名互联网公司的数据驱动精准化营销实践 |
案例简介:结合用户画像数据,给不同用户人群发送PUSH(短信)的营销效果分析 1. 用户宽表建设 2. 根据特征选择用户群体 3. PUSH系统和用户数据整合 4. PUSH效果分析(根据用户行为数据分析营销效果、用户留存以及活动ROI) |
实时数据看板分享(双十一大屏) |
案例简介:双十一大促销售额、转化率、UV、漏斗等核心数据实时大屏展示 1. 订单和用户行为数据实时接入 2. 使用Flink(Spark)做实时数据计算 3. HBase存储计算指标 4. 数据Service提供访问接口 5. 前端大屏动态秒级更新数据 |
数据运营平台介绍 |
数据运营平台支持商务、运营等对公司日常销售、转换率、用户访问、品牌等的售卖详细情况分析;分为固定产品、自助分析系统等,挖掘深层次的商业机会 1. 运营看板实例分享 2. 自助分析系统建设经验分享 |
大数据和大数据平台概念 1. 大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践; 2. 数据平台的基本概念和架构:数据平台的组成部分,功能和作用:包括数据存储、计算、传输(输入/输出)、任务调度系统、开发者平台、数据质量监控系统等。以某知名互联网公司数据平台架构为例进行分享,节点2000+,存储50PB 3. 大数据在企业运营中的应用 |
Hadoop分布式存储HDFS介绍 1. Hadoop大数据存储系统HDFS的技术原理及应用实战,以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势 2. HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展 |
MapReduce计算执行框架 1. 大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构,以及MapReduce技术的发展趋势 2. Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践 |
资源调度框架YARN介绍 1. YARN 集群的架构 2. 资源分配和故障恢复 3. 使用 YARN Web 用户界面 4. 管理正在运行的作业 5. 配置公平调度器 6. 实现多租户架构 |
Hadoop集群的高级特性、集群建设和运维实践 1. Namenode\DataNode节点硬件以及网络选择 2. 集群高可用配置 3. 集群机房实际部署拓扑推荐——PB级别容量集群的实际配置方案 4. 集群监控和自动化运维实践 5. 常见的 Hadoop Clusters 的故障排除 |
数据仓库和数据分析实践 1. Hive基本介绍和Hive在数据仓库中的使用 2. Hive的配置和使用 3. Hive的HQL扩展开发 数据仓库建设经验分享——以知名互联网公司仓库建设实践经验:表数量2万+、分析师200+、模型和任务数量2万+ |
Spark分享和实践 1. Spark的基础概念 2. Spark安装和配置 3. RDD 基本概念 4. Spark SQL和DataFrames介绍 5. Spark Streaming开发实践 Spark SQL和Hive在数据分析中的整合实践 |
实时和流计算 1. 介绍Flink相关概念和基础知识,以及如何使用Flink等。 2. 以流量实时化和实时推荐为例,介绍实时系统的使用场景、系统架构和最佳实践 3. Spark相关介绍和基础知识 4. Spark/Spark SQL/Spark Streaming的使用场景和特点 5. 在流处理方向Spark Stream和Flink的区别和使用特点 案例分享:实时和离线融合在互联网公司的实践 |
机器学习和深度学习知识原理 1. 机器学习知识与人工智能、深度学习关系; 2. 机器学习应用场景是什么; 3. 机器学习分类和算法基本介绍:监督学习算法(Nave Bayes、LR、GBDT、FM、FFM、DeepFM、FTRL、Deep & Wide等); 4. 机器学习分类和算法基本介绍:无监督学习算法(K-Means、PCA、LDA等); 5. 机器学习评估指标; 6. 机器学习常用数学知识; |
特征工程和模型训练 1. 特征工程(特征提取,特征离散化,特征交叉等); 2. 3.如何大规模实时&离线训练模型(训练集、测试集、验证集/评估指标AUC、ABTest 等) |
大规模机器学习平台 1. 模型开发(如何支持Python、Spark ML、R、TensorFlow、PyTorch等机器学习和深度学习框架开发) 2. 数据存储:实时特征+离线历史数据 3. 大规模分布式计算:CPU + GPU 4. 模型发布和上线 5. 我们的大规模机器学习平台分享(支持200+ 算法和模型开发人员) |
用户画像在个性化性化推荐系统领域 案例简介:用户画像数据体系建设,以及基于用户画像数据、用户实时行为数据的个性化推荐系统介绍 1. 用户画像体系介绍 2. 用户特征抽取 3. 用户特征存储和应用 4. 个性化推荐系统和用户画像的结合 |
推荐系统实践 案例简介:我们的推荐系统如何支持每天上亿用户访问;以及亿级别的销售额提升 1. 推荐系统整体架构 2. 算法和模型支持 3. 算法评估和灰度 4. ABT效果检验 |
知名互联网公司的数据驱动精准化营销实践 案例简介:结合用户画像数据,给不同用户人群发送PUSH(短信)的营销效果分析 1. 用户宽表建设 2. 根据特征选择用户群体 3. PUSH系统和用户数据整合 4. PUSH效果分析(根据用户行为数据分析营销效果、用户留存以及活动ROI) |
实时数据看板分享(双十一大屏) 案例简介:双十一大促销售额、转化率、UV、漏斗等核心数据实时大屏展示 1. 订单和用户行为数据实时接入 2. 使用Flink(Spark)做实时数据计算 3. HBase存储计算指标 4. 数据Service提供访问接口 5. 前端大屏动态秒级更新数据 |
数据运营平台介绍 数据运营平台支持商务、运营等对公司日常销售、转换率、用户访问、品牌等的售卖详细情况分析;分为固定产品、自助分析系统等,挖掘深层次的商业机会 1. 运营看板实例分享 2. 自助分析系统建设经验分享 |