图书介绍

Spark大数据技术与应用PDF|Epub|txt|kindle电子书版本网盘下载

Spark大数据技术与应用
  • 肖芳,张良均主编;汪作文,胡大威,樊哲副主编 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115464880
  • 出版时间:2018
  • 标注页数:272页
  • 文件大小:46MB
  • 文件页数:285页
  • 主题词:数据处理软件-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark大数据技术与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章Spark概述1

任务1.1认识Spark1

1.1.1 Spark的发展1

1.1.2 Spark的特点2

1.1.3 Spark生态圈4

1.1.4 Spark的应用场景5

任务1.2搭建Spark环境5

1.2.1搭建单机版环境6

1.2.2搭建单机伪分布式环境6

1.2.3搭建完全分布式环境7

任务1.3了解Spark运行架构与原理10

1.3.1 Spark集群架构11

1.3.2 Spark作业运行流程11

1.3.3 Spark核心数据集RDD15

1.3.4 Spark核心原理17

小结19

第2章Scala基础20

任务2.1 Scala的简介与安装21

2.1.1 Scala简介21

2.1.2 Scala特性21

2.1.3 Scala的环境设置及安装21

2.1.4运行Scala23

任务2.2定义函数识别号码类型24

2.2.1数据类型24

2.2.2常量和变量25

2.2.3表达式26

2.2.4数组27

2.2.5函数29

2.2.6任务实现31

任务2.3统计广州号码段数量32

2.3.1 if判断32

2.3.2循环33

2.3.3任务实现34

任务2.4根据归属地对手机号码段分组34

2.4.1 List35

2.4.2 Set36

2.4.3 Map37

2.4.4元组38

2.4.5函数组合器38

2.4.6任务实现39

任务2.5编写手机号码归属地信息查询程序40

2.5.1 Scala类40

2.5.2 Scala object42

2.5.3 Scala模式匹配42

2.5.4 Scala读取文件44

2.5.5任务实现44

小结45

实训45

实训1编写函数过滤文本中的回文单词45

实训2使用Scala编程输出杨辉三角46

课后习题46

第3章Spark编程48

任务3.1以学生成绩数据创建RDD49

3.1.1从内存中已有数据创建RDD50

3.1.2从外部存储创建RDD51

3.1.3任务实现52

任务3.2查询学生成绩表中的前5名52

3.2.1使用map转换数据52

3.2.2使用sortBy()排序53

3.2.3使用collect()查询53

3.2.4使用flatMap转换数据54

3.2.5使用take()方式查询某几个值54

3.2.6任务实现55

任务3.3输出单科成绩为100分的学生ID55

3.3.1使用union()合并多个RDD56

3.3.2使用filter()进行过滤56

3.3.3使用distinct()进行去重56

3.3.4简单的集合操作57

3.3.5任务实现58

任务3.4输出每位学生所有科目的总成绩58

3.4.1键值对RDD简介59

3.4.2创建键值对RDD59

3.4.3转换操作keys与values59

3.4.4转换操作reduceByKey()60

3.4.5转换操作groupByKey()60

3.4.6任务实现60

任务3.5输出每位学生的平均成绩61

3.5.1使用join()连接两个RDD61

3.5.2使用zip组合两个RDD63

3.5.3使用combineByKey合并相同键的值63

3.5.4使用lookup查找指定键的值64

3.5.5任务实现64

任务3.6将汇总后的学生成绩存储为文本文件65

3.6.1 JSON文件的读取与存储65

3.6.2 CSV文件的读取与存储67

3.6.3 SquenceFile的读取与存储69

3.6.4文本文件的读取与存储70

3.6.5任务实现71

小结72

实训72

实训1统计文本中性别为“男”的用户数73

实训2单词计数73

课后习题74

第4章Spark编程进阶76

任务4.1搭建开发环境77

4.1.1下载与安装IntelliJ IDEA77

4.1.2 Scala插件安装与使用79

4.1.3配置Spark运行环境84

4.1.4运行Spark程序85

任务4.2使用移动平均预测股票涨跌92

4.2.1持久化(缓存)93

4.2.2数据分区94

4.2.3计算价格波动幅度98

4.2.4任务实现100

小结103

实训103

实训 竞赛网站访问日志分析104

课后习题104

第5章Spark SQL:结构化数据文件处理107

任务5.1认识Spark SQL108

5.1.1 Spark SQL简介108

5.1.2 Spark SQL CLI配置109

5.1.3 Spark SQL与Shell交互110

任务5.2掌握DataFrame基础操作111

5.2.1创建DataFrame对象111

5.2.2 DataFrame查看数据114

5.2.3 DataFrame查询操作117

5.2.4 DataFrame输出操作123

任务5.3探索分析法律服务网站数据125

5.3.1获取数据125

5.3.2网页类型分析126

5.3.3点击次数分析131

5.3.4网页排名分析133

小结135

实训135

实训1统计分析航空公司客户数据的空值以及异常值135

实训2统计分析某公司每年的产品销售量及销售额137

课后习题139

第6章Spark Streaming:实时计算框架141

任务6.1初探Spark Streaming142

6.1.1 Spark Streaming概述142

6.1.2 Spark Streaming运行原理142

6.1.3初步使用Spark Streaming143

任务6.2掌握DStream编程模型145

6.2.1 DStream简介146

6.2.2 DStream转换操作146

6.2.3 DStream窗口操作148

6.2.4 DStream输出操作151

任务6.3 Spark Streaming实时更新热门博文155

6.3.1 Spark Streaming输入数据源155

6.3.2 Spark Streaming计算网页热度158

6.3.3网页热度输出158

6.3.4任务实现159

小结161

实训161

实训1过滤打印包含单词error的记录162

实训2实时过滤歌曲播放次数超过100次的记录并存储在HDFS上162

课后习题162

第7章Spark GraphX:图计算框架165

任务7.1认识Spark GraphX166

7.1.1图的基本概念166

7.1.2图计算的应用167

7.1.3 GraphX的基础概念168

7.1.4 GraphX的发展168

任务7.2了解GraphX常用API169

7.2.1图的创建与存储169

7.2.2数据查询与数据转换174

7.2.3结构转换与关联聚合180

任务7.3构建信任网络并找出目标用户187

7.3.1构建网站信任网络188

7.3.2找出需要支付稿酬的用户188

7.3.3找出进入热门榜的用户189

小结191

实训191

实训1使用PageRank算法完成网页排名191

实训2利用二度关系完成商品推荐192

课后习题194

第8章Spark MLlib:功能强大的算法库196

任务8.1了解MLlib算法库197

8.1.1机器学习简介197

8.1.2 MLlib介绍198

任务8.2以Logistic回归实现用户分类212

8.2.1分析思路212

8.2.2数据处理213

8.2.3 MLlib实现Logistic回归215

8.2.4任务实现217

小结221

实训221

实训1通过KMeans定位商圈221

实训2朴素贝叶斯进行文本分类222

课后习题223

第9章 项目案例:餐饮平台菜品智能推荐226

任务9.1推荐方案设计227

9.1.1用户数据分析227

9.1.2常用推荐算法229

9.1.3推荐流程设计231

任务9.2数据预处理232

9.2.1原始数据探索分析233

9.2.2异常数据处理237

9.2.3数据变换处理237

9.2.4数据集分割239

任务9.3建立推荐模型240

9.3.1以基于用户的协同过滤算法建模240

9.3.2以基于物品的协同过滤算法建模243

9.3.3以基于Spark ALS的协同过滤算法建立模型246

9.3.4推荐模型的评测251

任务9.4使用模型进行菜品推荐262

9.4.1对某用户推荐10道新菜品262

9.4.2对所有用户进行新菜品推荐267

小结272

热门推荐