《使用Spark扩展机器学习:使用 MLlib、TensorFlow 和 PyTorch的分布式机器学习》

作者:

日期:2023-02-24

出版:

  • 887
  • 0
  • 0

作品总结

《使用Spark扩展机器学习:使用 MLlib、TensorFlow 和 PyTorch的分布式机器学习》

快速了解 Apache Spark,这是用于大规模数据处理(包括机器学习和分析)的流行引擎。如果您希望使用 MLlib、分布式 PyTorch 和分布式 TensorFlow 扩展您的技能组合或在可扩展机器学习方面推进您的职业生涯,那么本实用指南适合您。

使用 Spark 作为主要数据处理平台,您将发现几种为丰富 Spark 的 ML 功能而设计和构建的开源技术。《Scaling Machine Learning with Spark(使用Spark扩展机器学习)》 研究了基于 Apache Spark 生态系统构建端到端分布式 ML 工作流的各种技术,包括 Spark MLlib、MLFlow、TensorFlow、PyTorch 和 Petastorm。

本书向您展示了何时使用每种技术以及为什么使用。如果你是一名使用机器学习的数据科学家,你将学习到如何: 

  • 构建实用的分布式机器学习工作流,包括特征工程和数据格式 
  • 通过桥接到分布式 TensorFlow 和 PyTorch 将深度学习功能扩展到 Spark 之外 
  • 使用 MLFlow 管理机器学习试验生命周期 
  • 使用 Petastorm 作为存储层,将数据从 Spark 桥接到 TensorFlow 和 PyTorch 
  • 使用机器学习术语来理解分布策略

0条评论