《Spark 数据算法:使用 PySpark 进行扩展的方法和设计模式》

作者:

日期:2022-01-01

出版:

  • 538
  • 0
  • 0

作品总结

《Spark 数据算法:使用 PySpark 进行扩展的方法和设计模式》


《Spark 数据算法:使用 PySpark 进行扩展的方法和设计模式》Apache Spark 的速度、易用性、复杂的分析和多语言支持使有关此集群计算框架的实用知识成为数据工程师和数据科学家的必备技能。通过本动手指南,任何想要了解 Spark 的人都将学习使用 PySpark 的实用算法和示例。

在每一章中,作者 Mahmoud Parsian 都会向您展示如何使用一组 Spark 转换和算法解决数据问题。您将学习如何解决涉及 ETL、设计模式、机器学习算法、数据分区和基因组学分析的问题。每个详细的秘诀都包括使用 PySpark 驱动程序和 shell 脚本的 PySpark 算法。

有了这本书,你将:

  • 了解如何为优化的解决方案选择 Spark 转换
  • 探索强大的转换和归约,包括 reduceByKey()、 combineByKey() 和 mapPartitions()
  • 了解优化查询的数据分区
  • 设计机器学习算法,包括朴素贝叶斯、线性回归和逻辑回归
  • 使用 PySpark 设计模式构建和应用模型
  • 将主题发现算法应用于图形数据
  • 使用 GraphFrames API 分析图数据
  • 将 PySpark 算法应用于临床和基因组数据(例如 DNA-Seq)

0条评论