作者:
日期:2022-10-30
出版:
帮助了解 PySpark 的功能及其在数据科学领域的应用。这份综合指南包含精心挑选的日常用例示例,将引导您使用最新的交易技术和技巧完成端到端的预测模型构建周期。
使用PySpark的应用数据科学分为六个部分,引导您学习完成本书。在第 1 节中,您将从 PySpark 的基础知识开始,重点介绍数据操作。我们让您熟悉该语言,然后在此基础上向您介绍现成的数学函数。在第 2 节中,您将深入了解变量选择的艺术,我们将演示 PySpark 中可用的各种选择技术。在第 3 节中,我们将带您了解机器学习算法、实现和微调技术。我们还将讨论不同的验证指标以及如何使用它们来选择最佳模型。第 4 节和第 5 节介绍了机器学习管道和各种可用于操作模型并通过 Docker/an API 为其提供服务的方法。在最后一节中,你将介绍可重用对象以便于试验,并学习一些可以帮助您优化程序和机器学习管道的技巧。
在本书的结尾,您将看到PySpark在数据科学应用中的灵活性和优势。本书推荐给那些希望通过同时使用大型数据集来释放并行计算力量的人。
通过本书您将学到:
本书适用于想要学习和使用 PySpark 对流数据进行实时分析的数据科学家、机器学习和深度学习工程师。
0条评论