《Google Cloud 平台上的数据科学:实施端到端实时数据管道:从摄取到机器学习》
通过学习本书读者了解在使用 Google Cloud Platform (GCP) 进行构建时,将复杂的统计和机器学习方法应用于实际问题是多么容易。这本实践指南向数据工程师和数据科学家展示了如何使用 GCP 上的云原生工具实施端到端数据管道。在这本更新后的第二版书籍中,您将通过采用各种数据科学方法完成示例业务决策。接下来,在您自己的 GCP 项目中构建数据管道,并了解如何以变革性和更具协作性的方式解决数据科学问题。您将学习如何:
- 采用最佳实践在 Google Cloud 上构建高度可扩展的数据和 ML 管道
- 使用 Cloud Run 自动执行和计划数据摄取
- 在数据洞察中创建并填充仪表板
- 使用 Pub/Sub、Dataflow 和 BigQuery 构建实时分析管道
- 使用 BigQuery 进行交互式数据探索
- 使用 Spark on Cloud Dataproc 创建贝叶斯模型
- 预测时间序列并使用 BigQuery ML 进行异常检测
- 在时间窗口内聚合数据流
- 使用 Vertex AI 训练可解释的机器学习模型
- 使用 Vertex AI 管道操作 ML
这本书主要适合具有一定数据分析和软件开发经验的数据科学家、数据工程师和数据分析师阅读。书中介绍的技术和工具,需要读者有一定的数据处理和编程知识,并且熟悉常见的数据存储和处理方式。
读者可以从这本书中学习到如何在Google Cloud Platform(GCP)上构建端到端实时数据管道,从数据的采集、存储、处理、分析到机器学习模型的构建和部署。具体来说,本书重点介绍了如何使用Google Cloud上的工具和服务,例如Google Cloud Storage、Dataflow、Pub/Sub、BigQuery、Cloud SQL、TensorFlow等,进行数据的采集、传输、存储和分析。同时,还提供了实际案例,教你如何使用这些工具和服务构建实际的数据处理和分析应用。
总的来说,《Data Science on the Google Cloud Platform》是一本详细介绍如何利用Google Cloud平台进行数据处理和机器学习的实用指南,对于想要更深入了解云计算和大数据分析的读者来说是一本很好的参考书。
0条评论