Spark与Hadoop大数据分析 (大数据技术丛书)(Word+PDF+ePub+PPT)
作者:文卡特·安卡姆(VenkatAnkam)(作者),吴今朝(译者)
出版:北京华章图文信息有限公司 图书简介 作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测、预测客户流失,或者在广泛的领域将数据转换为洞见。为此,我们有时需要处理大量的数据和复杂的计算。因此,我们一直对新的计算工具满怀期待,例如Spark,我们花费了很多时间来学习新工具。有很多可用的资料来学习这些新的工具,但这些资料大多都由计算机科学家编写,更多的是从计算角度来描述。 作者段落 "刘永川(Alex Liu)
(作者),
闫龙川
(译者),
高德荃
(译者),
李君婷
(译者)
&
1
更多" 图片名 5132BTLRLZL 结束
标题 Spark与Hadoop大数据分析 (大数据技术丛书) 纸质书价格 ¥45.53 电子书价格 ¥36.42 专题 大数据技术丛书 文件大小 27512 KB 纸书页数 出版社 机械工业出版社; 第1版 (2017年6月1日)
服务:人工校对0错代录+录完后精校排版
此为收费服务:会收取文档代录之人工费
预估录入后页数:(带目录书签跳转)
请支持正版图书,莫将本服务所得用于非法目的
✅文档录入及格式制作人工服务,非骗流量 ❤️
录入后格式:PDF、Word、PPT、ePub、TXT
本书讲解了Apache Spark和Hadoop的基础知识,以及如何通过简单的方式将它们与最常用的工具和技术集成在一起。所有Spark组件(Spark Core、Spark SQL、DataFrame、Dataset、Conventional Streaming、Structured Streaming、MLlib、GraphX和Hadoop核心组件)、HDFS、MapReduce和Yarn都在Spark+Hadoop集群的实现示例中进行了深入的探讨。大数据分析行业正在从MapReduce转向Spark。因此,本书深入讨论了Spark相比MapReduce的优势,从而揭示出它在内存计算速度方面的好处。我们还会讲解如何运用DataFrame API、Data Sources API,以及新的Dataset API来构建大数据分析应用程序。书中还讲解了如何使用Spark Streaming配合Apache Kafka和HBase进行实时数据分析,以帮助构建流式应用程序(streaming application)。新的结构化流(Structured Streaming)概念会通过物联网(Internet of Things,IOT)用例来解释。在本书中,机器学习技术会使用MLLib、机器学习流水线和SparkR来实现;图分析则会利用Spark的GraphX和GraphFrames组件包来进行。