课程简介
大量大数据挖掘实践案例难点理论讲述浅显易懂数据挖掘算法讲述会超出传统教科书的讲解范畴,不会赘述具体经典算法,而是讲述经典课本上不会出现的适应大数据背景下数据挖掘的实用新技术
目标收益
本课程将围绕大数据最本质的特点—智能化为主线,从大数据的产品思维、数据分析重要工具、数据挖掘核心技术等层面,从浏览型互联网应用、社交网络型互联网应用等多角度多领域做实站案例讲解。
该课程使学员:理解大数据基本概率、理解大数据产品设计思维、理解大数据基础技术架构
掌握社交图谱挖掘的一到两个经典数据挖掘案例的解决方案
掌握社交好友推荐中一到两个经典案例的解决方案
掌握如何搭建一个实用的推荐引擎的方法;
掌握数据挖掘的经典方法论:数据挖掘过程、模型评估标准等
侧重掌握最普遍使用的分类预测技术的方法,轻松理解分类预测技术的重难点主题及一些新技术:模型优化的原理、Overfitting和Un
培训对象
数据挖掘工程师、数据分析师、大数据工程师、算法专家、项目经理、技术经理、数据产品经理以及其他具有一定数据挖掘经验的人员。
课程大纲
1.大数据时代概述 |
1.1 大数据解决的问题是什么? 1.2 大数据公司(部门)的都在做什么? 1.3 如何建立自己的大数据能力? |
2.数据挖掘基础及Weka 工具使用 |
2.1 数据挖掘过程与挖掘工具Weka使用实践 2.1.1 Weka介绍 2.1.2 数据格式 2.1.3 数据准备 2.1.4 选择算法 2.1.5 模型训练 2.1.6 模型评估 2.1.7 模型应用 2.1.8 使用命令行 2.1.9 Weka使用举例:金融服务中用户信誉评估 2.2 数据挖掘模型评估方法 2.2.1 Training–Testing 2.2.2 Cross Validation 2.2.3 基于用户和PM反馈的评估 2.2.4 如何选择合适的数据挖掘评估方法:案例讲解 2.3 数据挖掘的模型评估指标 2.3.1 Confusion Matrix 2.3.2 Accuracy和Error Rate 2.3.3 Precision和Recall 2.3.4 F-measure 2.3.5 Specificity、Sensitivity和G-mean 2.3.6 ROC和AUC 2.3.7 MSE和RMSE 2.3.8 如何选择合适的数据挖掘评估指标:案例讲解 |
3. 如何研发大数据算法:以数据分类挖掘新技术为例 |
3.1 工业界应用举例 3.1.1 计算广告 3.1.2 好友推荐系统 3.2 分类挖掘原理探索:经典的单模型方法 3.2.1 分类学习的根源问题及解决 3.2.2 Bias、Variance困境 3.2.3 均衡Overfitting和Under fitting 3.3 分类学习根源问题的更好解决方案:多模型方法 3.4 多模型重要算法汇总 3.4.1 Ensemble Selection 3.4.2 Bagging 3.4.3 Random Forest 3.4.4 Random Decision Tree(RDT) 3.4.5 Boosting 3.4.6 Meta-learning 3.4.7 Error-Correcting Output Codes(ECOC) 3.4.8 多模型与单模型方法的比较:Weka案例讲解 3.5 如何研发一个新的数据挖掘算法:案例讲解 3.5.1 创新一个新数据挖掘算法的过程 3.5.1.1 需求驱动的算法优化和创新 3.5.1.2 理论驱动的算法优化和创新 3.5.1.3 算法建模 3.5.1.4 算法实验验证 3.5.1.5 算法上线 3.5.2 Dynamic Data Mining(DDM):分而治之的多模型框架研发过程 3.5.2.1 理论驱动 3.5.2.2 DMM建模研发 3.5.2.3 算法验证及上线 |
4.以大数据挖掘为中心的推荐引擎实战 |
4.1 推荐引擎解决的问题 4.2 推荐系统历史 4.3 通用推荐引擎基础架构 4.3.1 统一展示逻辑 4.3.2 实验分流平台 4.3.3 推荐结果预处理 4.3.4 推荐结果召回 4.3.5 推荐过滤去重 4.3.6 推荐排序 4.3.7 推荐解释 4.3.8 实时数据统计分析平台 4.3.9 系统监控平台 4.3.10 数据挖掘和推荐算法管理 4.4 社会化推荐引擎 4.4.1 好友推荐使用场景举例 4.4.2 好友推荐主要挑战 4.4.3 好友推荐引擎架构 4.5 社会化推荐引擎算法案例讲解 4.5.1 Online Learning的特点和一般流程 4.5.1.1 在线挖掘数据特点 4.5.1.2 在线挖掘基本过程 4.5.2 二度好友模型:案例讲解 4.5.2.1 二度好友模型解决的问题 4.5.2.2 二度好友模型的建模过程 4.5.2.3 二度好友模型的效果评估 4.5.3 好友簇算法:案例讲解 4.5.3.1 好友簇算法解决的问题 4.5.3.2 聚类方法原理 4.5.3.3 好友簇算法的建模过程 4.5.3.4 好友簇算法的效果评估 4.5.4 加好友申请接受率预估模型:案例讲解 4.5.4.1 加好友申请接受率预估解决的问题 4.5.4.2 加好友申请接受率预估的建模过程 4.5.4.3 加好友申请接受率预估的效果评估 |
5.以大数据为中心的社交网络应用挖掘实战 |
5.1 社交图谱挖掘介绍 5.1.1 社交网络数据挑战 5.1.2 社交网络中的数据挖掘意义 5.1.3 社交图谱挖掘主要任务 5.1.4 社交图谱挖掘通用路标 5.2 社交图谱挖掘案例讲解:好友亲密度模型 5.2.1 好友亲密度模型的意义 5.2.2 经典用户行为分析建模方法简介 5.2.3 好友亲密度建模过程 5.2.4 好友亲密度模型效果分析 5.3 社交图谱挖掘案例讲解:好友自动分组 5.3.1 好友智能分组的意义 5.3.2 社区发现简介 5.3.3 好友自动分组建模过程 5.3.4 好友自动分组效果评估 |
6.以大数据为中心的浏览型和金融支付保险型互联网应用的数据挖掘实战 |
6.1 互联网应用的分类 6.2 流量型应用中的大数据应用实例 6.3.1 全局唯一用户识别GUID 6.3.2 用户及业务画像 6.3.3 CTR预估 |
7.学员问题解答 |
1.大数据时代概述 1.1 大数据解决的问题是什么? 1.2 大数据公司(部门)的都在做什么? 1.3 如何建立自己的大数据能力? |
2.数据挖掘基础及Weka 工具使用 2.1 数据挖掘过程与挖掘工具Weka使用实践 2.1.1 Weka介绍 2.1.2 数据格式 2.1.3 数据准备 2.1.4 选择算法 2.1.5 模型训练 2.1.6 模型评估 2.1.7 模型应用 2.1.8 使用命令行 2.1.9 Weka使用举例:金融服务中用户信誉评估 2.2 数据挖掘模型评估方法 2.2.1 Training–Testing 2.2.2 Cross Validation 2.2.3 基于用户和PM反馈的评估 2.2.4 如何选择合适的数据挖掘评估方法:案例讲解 2.3 数据挖掘的模型评估指标 2.3.1 Confusion Matrix 2.3.2 Accuracy和Error Rate 2.3.3 Precision和Recall 2.3.4 F-measure 2.3.5 Specificity、Sensitivity和G-mean 2.3.6 ROC和AUC 2.3.7 MSE和RMSE 2.3.8 如何选择合适的数据挖掘评估指标:案例讲解 |
3. 如何研发大数据算法:以数据分类挖掘新技术为例 3.1 工业界应用举例 3.1.1 计算广告 3.1.2 好友推荐系统 3.2 分类挖掘原理探索:经典的单模型方法 3.2.1 分类学习的根源问题及解决 3.2.2 Bias、Variance困境 3.2.3 均衡Overfitting和Under fitting 3.3 分类学习根源问题的更好解决方案:多模型方法 3.4 多模型重要算法汇总 3.4.1 Ensemble Selection 3.4.2 Bagging 3.4.3 Random Forest 3.4.4 Random Decision Tree(RDT) 3.4.5 Boosting 3.4.6 Meta-learning 3.4.7 Error-Correcting Output Codes(ECOC) 3.4.8 多模型与单模型方法的比较:Weka案例讲解 3.5 如何研发一个新的数据挖掘算法:案例讲解 3.5.1 创新一个新数据挖掘算法的过程 3.5.1.1 需求驱动的算法优化和创新 3.5.1.2 理论驱动的算法优化和创新 3.5.1.3 算法建模 3.5.1.4 算法实验验证 3.5.1.5 算法上线 3.5.2 Dynamic Data Mining(DDM):分而治之的多模型框架研发过程 3.5.2.1 理论驱动 3.5.2.2 DMM建模研发 3.5.2.3 算法验证及上线 |
4.以大数据挖掘为中心的推荐引擎实战 4.1 推荐引擎解决的问题 4.2 推荐系统历史 4.3 通用推荐引擎基础架构 4.3.1 统一展示逻辑 4.3.2 实验分流平台 4.3.3 推荐结果预处理 4.3.4 推荐结果召回 4.3.5 推荐过滤去重 4.3.6 推荐排序 4.3.7 推荐解释 4.3.8 实时数据统计分析平台 4.3.9 系统监控平台 4.3.10 数据挖掘和推荐算法管理 4.4 社会化推荐引擎 4.4.1 好友推荐使用场景举例 4.4.2 好友推荐主要挑战 4.4.3 好友推荐引擎架构 4.5 社会化推荐引擎算法案例讲解 4.5.1 Online Learning的特点和一般流程 4.5.1.1 在线挖掘数据特点 4.5.1.2 在线挖掘基本过程 4.5.2 二度好友模型:案例讲解 4.5.2.1 二度好友模型解决的问题 4.5.2.2 二度好友模型的建模过程 4.5.2.3 二度好友模型的效果评估 4.5.3 好友簇算法:案例讲解 4.5.3.1 好友簇算法解决的问题 4.5.3.2 聚类方法原理 4.5.3.3 好友簇算法的建模过程 4.5.3.4 好友簇算法的效果评估 4.5.4 加好友申请接受率预估模型:案例讲解 4.5.4.1 加好友申请接受率预估解决的问题 4.5.4.2 加好友申请接受率预估的建模过程 4.5.4.3 加好友申请接受率预估的效果评估 |
5.以大数据为中心的社交网络应用挖掘实战 5.1 社交图谱挖掘介绍 5.1.1 社交网络数据挑战 5.1.2 社交网络中的数据挖掘意义 5.1.3 社交图谱挖掘主要任务 5.1.4 社交图谱挖掘通用路标 5.2 社交图谱挖掘案例讲解:好友亲密度模型 5.2.1 好友亲密度模型的意义 5.2.2 经典用户行为分析建模方法简介 5.2.3 好友亲密度建模过程 5.2.4 好友亲密度模型效果分析 5.3 社交图谱挖掘案例讲解:好友自动分组 5.3.1 好友智能分组的意义 5.3.2 社区发现简介 5.3.3 好友自动分组建模过程 5.3.4 好友自动分组效果评估 |
6.以大数据为中心的浏览型和金融支付保险型互联网应用的数据挖掘实战 6.1 互联网应用的分类 6.2 流量型应用中的大数据应用实例 6.3.1 全局唯一用户识别GUID 6.3.2 用户及业务画像 6.3.3 CTR预估 |
7.学员问题解答 |