课程简介
理解数据挖掘的基本算法,比如决策树,聚类算法,逻辑回归,关联规则。在这个基础上理解机器学习更加深入的内容:bagging&boosting,概率图模型(LDA,PLSA),树模型(GBDT,MART) ,对于深度学习有一定的认知(word2vetcor,表征学习).不单单介绍算法的应用场景,更进一步从最优化理论的高度解释为何这些数据挖掘的算法要这样设计。
目标收益
课程中的理论和经验来自于对初级,中级数据挖掘工程经常遇问题的归纳、分析与总结,有针对性的给出解决方法,课程将重现这些问题的例讲解,并对应到学员的实际工作问题,使学员能够把传授的经验和自己的问题结合起来,有效的启发思路、激发兴趣、提供解决问题需要的新思经典案例,通过实路新方法。
学员的收获总结起来有3点:
1:了解实际的事例结合说基本算法的各种变体,开阔思路
2:将一次培训深化为深入了解一个细分领域的一个渠道,之后可以接收到培训内容中知识点对应的业界最新更新。
3:加入“数据挖掘”职业圈,学员可以有一个加入职业社交圈的机会,和业内人士相互交流,相互切磋。
培训对象
1:有一定的程序和数学基础,希望对于数据挖掘有个知识体系的梳理,同时深入了解在实际生产过程中数据挖掘的各种算法的应用的,希望从初级走向中级的,数据增值产业的从业者。尤其是想做数据挖掘但是效果不显著,希望在公司内部得到更多重视的团队,派出两三人参加这个课程,效果尤佳。
2:对于数据挖掘,商业智能感兴趣,希望从事类似的工作,但是又感到所谓“大数据”知识体系繁杂,无论是广度还是深度都很难开始的“迷茫”人士。
课程大纲
广义线性分类的原理和应用 |
内容:logistic Regression和计算广告学 n1.二分类问题的例子 n2.逻辑回归的数学原理 n3.传统广告,计算广告,广告实时交易平台 n4.数据预处理和维度提取 n5.LR在计算广告中的应用 n6.LR的效果测评,模型调优 n7.LR模型中理论与工程的折中 n8.LR和他的小伙伴们:广义线性模型 n9.新情况,基于移动端的广告实时交易平台,LR的各种变体 |
决策树,聚类和异常点检测 |
内容:决策树和异常点检测 n1.决策树的原理 n2.各种决策树的生成算法 n3.决策树在异常点检测中的应用 n4.决策树的剪枝 n5.其它异常点检测的应用小技巧 n6.聚类算法的原理 n7.聚类算法的常见问题:初始点选择 n8.聚类算法和决策树在异常点检测中的应用 n9.结合计算广告,谈两个异常点检测小例子 |
概率图模型 |
n1.贝叶斯网络(有向图模型) n2.马尔科夫网(无向图模型) n3.条件随机场(局部有向图模型) n4.LDA,PLSA |
Bagging & boosting |
n1.bagging n2.boosting n3.随机森林 n4.提升树 n5.GBDT |
分解因子机 |
n1.非负矩阵分解 n2.协同过滤 n3.分解因子机 |
巨型图挖掘 |
n1.复杂网络介绍 n2.当前巨型图应用场景 n3.随机图,自然图, n4.常用的图计算框架(google的bagel,graphlab的graphx) n5.巨型图上的算法实现原理 n6.常用的基于图的算法实现 n7.随机游走,pageRank基于图的实现 n8.svd介绍以及svd在图框架的实现 n9.图挖掘与推荐系统(qzone的广告系统广点通,twitter的内容推荐) |
深度学习初探 |
n1:word2vec n2:node2vec n3:CNN n4:DNN n5:lstm |
机器学习框架 |
n1:spark n2:参数服务器 n3:Tensorflow和其他深度学习框架 |
广义线性分类的原理和应用 内容:logistic Regression和计算广告学 n1.二分类问题的例子 n2.逻辑回归的数学原理 n3.传统广告,计算广告,广告实时交易平台 n4.数据预处理和维度提取 n5.LR在计算广告中的应用 n6.LR的效果测评,模型调优 n7.LR模型中理论与工程的折中 n8.LR和他的小伙伴们:广义线性模型 n9.新情况,基于移动端的广告实时交易平台,LR的各种变体 |
决策树,聚类和异常点检测 内容:决策树和异常点检测 n1.决策树的原理 n2.各种决策树的生成算法 n3.决策树在异常点检测中的应用 n4.决策树的剪枝 n5.其它异常点检测的应用小技巧 n6.聚类算法的原理 n7.聚类算法的常见问题:初始点选择 n8.聚类算法和决策树在异常点检测中的应用 n9.结合计算广告,谈两个异常点检测小例子 |
概率图模型 n1.贝叶斯网络(有向图模型) n2.马尔科夫网(无向图模型) n3.条件随机场(局部有向图模型) n4.LDA,PLSA |
Bagging & boosting n1.bagging n2.boosting n3.随机森林 n4.提升树 n5.GBDT |
分解因子机 n1.非负矩阵分解 n2.协同过滤 n3.分解因子机 |
巨型图挖掘 n1.复杂网络介绍 n2.当前巨型图应用场景 n3.随机图,自然图, n4.常用的图计算框架(google的bagel,graphlab的graphx) n5.巨型图上的算法实现原理 n6.常用的基于图的算法实现 n7.随机游走,pageRank基于图的实现 n8.svd介绍以及svd在图框架的实现 n9.图挖掘与推荐系统(qzone的广告系统广点通,twitter的内容推荐) |
深度学习初探 n1:word2vec n2:node2vec n3:CNN n4:DNN n5:lstm |
机器学习框架 n1:spark n2:参数服务器 n3:Tensorflow和其他深度学习框架 |