课程简介
数据挖掘和机器学习是属于大数据的核心技术之一,以科学严谨的数据依据帮助企业做分析决策,同时其高深的理论门槛也阻挡了广大工程师的学习上手,在大数据时代,如何进行基于海量数据在成百上千的机器进行分布式数据挖掘更是需要解决的难题,本课程从实战角度出发,基于企业实际需求,深入浅出的讲解数据挖掘最常用的算法和企业场景,让工程师通俗易懂的掌握,并且进行编程落地实践培训,让抽象的算法公式完全落地为工程化的程序为企业所用。
目标收益
培训对象
初中级基础的工程师,数据分析/挖掘/大数据技术人员,企业数据建模/决策人员等等
课程大纲
一、大数据分析挖掘技术介绍 |
1、map/reduce 2、mahout数据挖掘 3、sql on hadoop 4、spark生态体系 5、R语言 6、MPI并行计算 7、GPU并行计算(深度学习) 8、java并行计算框架 |
二、常用机器学习算法原理 |
1、决策树 2、随机森林 3、协同过滤推荐算法(余弦相似、修正余弦) 4、Jaccard算法 5、朴素贝叶斯算法 6、k-means聚类算法 7、pagerank算法 8、逻辑回归 9、图计算 |
三、大数据挖掘业务场景和生产平台 |
1、互联网金融业务—如何构建阿里金融系统 2、银行客户需求业务 3、大数据分析生产平台 4、推荐/广告系统的原理、架构、模型、验证等。 5、基于GBDT的组合模型架构 |
四、编程实践(动手) |
1、迭代类机器学习编程入门-求圆周率 2、pagerank的并行化实现(*) 3、逻辑回归算法的java实现 4、决策树c45,id3的java实现 5、随机森林和全树并行化实现 6、训练数据和结果模拟器 7、模型结果规则化处理 8、协同过滤java实现 9、基于图计算的推荐java实现 |
五、神经网络及深度学习 |
1、什么是神经网络算法 2、多层神经网络程序如何实现(java程序) 3、神经网络数学原理(误差函数、梯度下降求最小值、更新权重和截距) 4、推导需要的最小化数学知识(导数和偏导数、导数运算、梯度下降原理) 5、数学推导过程 6、什么是深度学习 7、深度学习的计算过程 8、深度学习如何训练 9、深度学习和神经网络的关系是什么 10、图像识别原理 |
一、大数据分析挖掘技术介绍 1、map/reduce 2、mahout数据挖掘 3、sql on hadoop 4、spark生态体系 5、R语言 6、MPI并行计算 7、GPU并行计算(深度学习) 8、java并行计算框架 |
二、常用机器学习算法原理 1、决策树 2、随机森林 3、协同过滤推荐算法(余弦相似、修正余弦) 4、Jaccard算法 5、朴素贝叶斯算法 6、k-means聚类算法 7、pagerank算法 8、逻辑回归 9、图计算 |
三、大数据挖掘业务场景和生产平台 1、互联网金融业务—如何构建阿里金融系统 2、银行客户需求业务 3、大数据分析生产平台 4、推荐/广告系统的原理、架构、模型、验证等。 5、基于GBDT的组合模型架构 |
四、编程实践(动手) 1、迭代类机器学习编程入门-求圆周率 2、pagerank的并行化实现(*) 3、逻辑回归算法的java实现 4、决策树c45,id3的java实现 5、随机森林和全树并行化实现 6、训练数据和结果模拟器 7、模型结果规则化处理 8、协同过滤java实现 9、基于图计算的推荐java实现 |
五、神经网络及深度学习 1、什么是神经网络算法 2、多层神经网络程序如何实现(java程序) 3、神经网络数学原理(误差函数、梯度下降求最小值、更新权重和截距) 4、推导需要的最小化数学知识(导数和偏导数、导数运算、梯度下降原理) 5、数学推导过程 6、什么是深度学习 7、深度学习的计算过程 8、深度学习如何训练 9、深度学习和神经网络的关系是什么 10、图像识别原理 |