图书介绍
Spark大数据技术与应用PDF|Epub|txt|kindle电子书版本网盘下载
- 肖芳,张良均主编;汪作文,胡大威,樊哲副主编 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115464880
- 出版时间:2018
- 标注页数:272页
- 文件大小:46MB
- 文件页数:285页
- 主题词:数据处理软件-教材
PDF下载
下载说明
Spark大数据技术与应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章Spark概述1
任务1.1认识Spark1
1.1.1 Spark的发展1
1.1.2 Spark的特点2
1.1.3 Spark生态圈4
1.1.4 Spark的应用场景5
任务1.2搭建Spark环境5
1.2.1搭建单机版环境6
1.2.2搭建单机伪分布式环境6
1.2.3搭建完全分布式环境7
任务1.3了解Spark运行架构与原理10
1.3.1 Spark集群架构11
1.3.2 Spark作业运行流程11
1.3.3 Spark核心数据集RDD15
1.3.4 Spark核心原理17
小结19
第2章Scala基础20
任务2.1 Scala的简介与安装21
2.1.1 Scala简介21
2.1.2 Scala特性21
2.1.3 Scala的环境设置及安装21
2.1.4运行Scala23
任务2.2定义函数识别号码类型24
2.2.1数据类型24
2.2.2常量和变量25
2.2.3表达式26
2.2.4数组27
2.2.5函数29
2.2.6任务实现31
任务2.3统计广州号码段数量32
2.3.1 if判断32
2.3.2循环33
2.3.3任务实现34
任务2.4根据归属地对手机号码段分组34
2.4.1 List35
2.4.2 Set36
2.4.3 Map37
2.4.4元组38
2.4.5函数组合器38
2.4.6任务实现39
任务2.5编写手机号码归属地信息查询程序40
2.5.1 Scala类40
2.5.2 Scala object42
2.5.3 Scala模式匹配42
2.5.4 Scala读取文件44
2.5.5任务实现44
小结45
实训45
实训1编写函数过滤文本中的回文单词45
实训2使用Scala编程输出杨辉三角46
课后习题46
第3章Spark编程48
任务3.1以学生成绩数据创建RDD49
3.1.1从内存中已有数据创建RDD50
3.1.2从外部存储创建RDD51
3.1.3任务实现52
任务3.2查询学生成绩表中的前5名52
3.2.1使用map转换数据52
3.2.2使用sortBy()排序53
3.2.3使用collect()查询53
3.2.4使用flatMap转换数据54
3.2.5使用take()方式查询某几个值54
3.2.6任务实现55
任务3.3输出单科成绩为100分的学生ID55
3.3.1使用union()合并多个RDD56
3.3.2使用filter()进行过滤56
3.3.3使用distinct()进行去重56
3.3.4简单的集合操作57
3.3.5任务实现58
任务3.4输出每位学生所有科目的总成绩58
3.4.1键值对RDD简介59
3.4.2创建键值对RDD59
3.4.3转换操作keys与values59
3.4.4转换操作reduceByKey()60
3.4.5转换操作groupByKey()60
3.4.6任务实现60
任务3.5输出每位学生的平均成绩61
3.5.1使用join()连接两个RDD61
3.5.2使用zip组合两个RDD63
3.5.3使用combineByKey合并相同键的值63
3.5.4使用lookup查找指定键的值64
3.5.5任务实现64
任务3.6将汇总后的学生成绩存储为文本文件65
3.6.1 JSON文件的读取与存储65
3.6.2 CSV文件的读取与存储67
3.6.3 SquenceFile的读取与存储69
3.6.4文本文件的读取与存储70
3.6.5任务实现71
小结72
实训72
实训1统计文本中性别为“男”的用户数73
实训2单词计数73
课后习题74
第4章Spark编程进阶76
任务4.1搭建开发环境77
4.1.1下载与安装IntelliJ IDEA77
4.1.2 Scala插件安装与使用79
4.1.3配置Spark运行环境84
4.1.4运行Spark程序85
任务4.2使用移动平均预测股票涨跌92
4.2.1持久化(缓存)93
4.2.2数据分区94
4.2.3计算价格波动幅度98
4.2.4任务实现100
小结103
实训103
实训 竞赛网站访问日志分析104
课后习题104
第5章Spark SQL:结构化数据文件处理107
任务5.1认识Spark SQL108
5.1.1 Spark SQL简介108
5.1.2 Spark SQL CLI配置109
5.1.3 Spark SQL与Shell交互110
任务5.2掌握DataFrame基础操作111
5.2.1创建DataFrame对象111
5.2.2 DataFrame查看数据114
5.2.3 DataFrame查询操作117
5.2.4 DataFrame输出操作123
任务5.3探索分析法律服务网站数据125
5.3.1获取数据125
5.3.2网页类型分析126
5.3.3点击次数分析131
5.3.4网页排名分析133
小结135
实训135
实训1统计分析航空公司客户数据的空值以及异常值135
实训2统计分析某公司每年的产品销售量及销售额137
课后习题139
第6章Spark Streaming:实时计算框架141
任务6.1初探Spark Streaming142
6.1.1 Spark Streaming概述142
6.1.2 Spark Streaming运行原理142
6.1.3初步使用Spark Streaming143
任务6.2掌握DStream编程模型145
6.2.1 DStream简介146
6.2.2 DStream转换操作146
6.2.3 DStream窗口操作148
6.2.4 DStream输出操作151
任务6.3 Spark Streaming实时更新热门博文155
6.3.1 Spark Streaming输入数据源155
6.3.2 Spark Streaming计算网页热度158
6.3.3网页热度输出158
6.3.4任务实现159
小结161
实训161
实训1过滤打印包含单词error的记录162
实训2实时过滤歌曲播放次数超过100次的记录并存储在HDFS上162
课后习题162
第7章Spark GraphX:图计算框架165
任务7.1认识Spark GraphX166
7.1.1图的基本概念166
7.1.2图计算的应用167
7.1.3 GraphX的基础概念168
7.1.4 GraphX的发展168
任务7.2了解GraphX常用API169
7.2.1图的创建与存储169
7.2.2数据查询与数据转换174
7.2.3结构转换与关联聚合180
任务7.3构建信任网络并找出目标用户187
7.3.1构建网站信任网络188
7.3.2找出需要支付稿酬的用户188
7.3.3找出进入热门榜的用户189
小结191
实训191
实训1使用PageRank算法完成网页排名191
实训2利用二度关系完成商品推荐192
课后习题194
第8章Spark MLlib:功能强大的算法库196
任务8.1了解MLlib算法库197
8.1.1机器学习简介197
8.1.2 MLlib介绍198
任务8.2以Logistic回归实现用户分类212
8.2.1分析思路212
8.2.2数据处理213
8.2.3 MLlib实现Logistic回归215
8.2.4任务实现217
小结221
实训221
实训1通过KMeans定位商圈221
实训2朴素贝叶斯进行文本分类222
课后习题223
第9章 项目案例:餐饮平台菜品智能推荐226
任务9.1推荐方案设计227
9.1.1用户数据分析227
9.1.2常用推荐算法229
9.1.3推荐流程设计231
任务9.2数据预处理232
9.2.1原始数据探索分析233
9.2.2异常数据处理237
9.2.3数据变换处理237
9.2.4数据集分割239
任务9.3建立推荐模型240
9.3.1以基于用户的协同过滤算法建模240
9.3.2以基于物品的协同过滤算法建模243
9.3.3以基于Spark ALS的协同过滤算法建立模型246
9.3.4推荐模型的评测251
任务9.4使用模型进行菜品推荐262
9.4.1对某用户推荐10道新菜品262
9.4.2对所有用户进行新菜品推荐267
小结272