课程简介:
Spark是一个开源集群运算框架,最初是由加州大学柏克利分校AMPLab所开发。Spark使用了内存内运算技术,在内存上的运算速度比Hadoop MapReduce的运算速度快上100倍,即便是在磁盘上运行也能快10倍。Spark允许将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。
目前,Spark成为了现在大数据领域最火的开源软件,Spark也被许多企业尤其是互联网企业广泛应用到商业项目中,在国内包括阿里、百度、腾讯、网易、搜狐等。
本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架;实现了常用的机器学习,如:聚类、分类、回归等算法。本课拒绝枯燥的讲述,将循序渐进从Spark的基础知识、矩阵向量的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。
通过该课程的学习,同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行MLlib的应用开发和定制开发。且该课程优异毕业生均可获得老师内推机会,职位:数据挖掘工程师,就职企业:久邦数码、唯品会、腾讯等。掌握技术,高薪就业,课程等待你的加入!
官方课程链接:http://www.dataguru.cn/article-9322-1.html
课程目录:
第一课 Spark MLlib基础入门
1、Spark介绍
2、Spark MLlib介绍
3、课程的基础环境
4、Spark RDD操作
5、RDD操作的代码实操
第二课 Spark MLlib矩阵向量
1、Spark MLlib矩阵向量
2、矩阵向量的代码实操
第三课 Spark MLlib线性回归算法
1、线性回归算法
2、源码分析
3、实例
4、实例的代码实操
第四课 Spark MLlib逻辑回归算法
1、逻辑回归算法
2、源码分析
3、实例
4、实例的代码实操
第五课 Spark MLlib贝叶斯分类算法
1、贝叶斯分类算法
2、源码分析
3、实例
4、实例的代码实操
第六课 Spark MLlib决策树算法
1、决策树算法
2、源码分析
3、实例
4、实例的代码实操
第七课 Spark MLlib KMeans聚类算法
1、KMeans聚类算法
2、源码分析
3、实例
4、实例的代码实操
第八课 Spark MLlib FPGrowth关联规则算法
1、FPGrowth关联规则算法
2、源码分析
3、实例
4、实例的代码实操
第九课 Spark MLlib协同过滤推荐算法
1、协同过滤推荐算法
2、源码分析
3、实例
4、实例的代码实操
第十课 Spark MLlib神经网络算法
1、神经网络算法
2、源码分析
3、实例
4、实例的代码实操