Spark海量数据处理:技术详解与平台实战(异步图书)(Word+PDF+ePub+PPT)
编辑推荐:
Spark是一个被广泛使用的大数据平台。本书从技术出发,通过实例和一个完整项目对Spark进行了全面讲解,充分展示了作者过去几年在一流大数据公司的实战经验,值得所有学习Spark的人阅读。 ——李祥林,上海交通大学上海高级金融学院教授 如果将数据比作数字经济时代的“汽油”,那么Spark就是目前最强劲的“引擎”,相信读完本书,读者能够更好地挖掘出数据的价值与潜力。 ——张鹏,北京微星优财网络科技有限公司董事长 Spark诞生于学界,发展于业界,是目前最流行的大数据处理技术之一,在数据科学和数据工程领域都发挥了巨大作用。本书包含Spark基础原理、高阶内容和案例实战,内容丰富、层次清晰,相信读者会开卷有益。 ——陈利人,北京数知科技股份有限公司首席科学家 作者是一名大数据架构师。在与数据爱恨纠缠的工作过程中,作者积累了大量的实践经验,我很高兴并支持他将在实践中取得的经验系统性地总结出来,并写成本书。我相信本书会为学习Spark的读者带来很大的帮助。 ——袁先智博士,中山大学和苏州大学特聘教授,International Journal of Financial Engineering主编,成都数联铭品科技有限公司资深副总裁与首席风险官
作者介绍:
范东来,北京航空航天大学硕士,泛山科技联合创始人,Spark Contributor、SupersetContributor,架构师,技术图书作者和译者,著有《Hadoop海量数据处理》,译有《解读NoSQL》《NoSQL权威指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等,另译有畅销小说《巧克力时代:因为这是我的血脉》。
内容介绍:
本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。 本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
更多详情: