《使用 Apache Beam 构建大数据管道:使用单个编程模型进行批处理和流数据处理(Building Big Data Pipelines with Apache Beam: Use a single programming model for both batch and stream data processing)》

作者:

日期:2022-12-16

出版:

  • 117
  • 0
  • 0

作品总结

《使用 Apache Beam 构建大数据管道:使用单个编程模型进行批处理和流数据处理(Building Big Data Pipelines with Apache Beam: Use a single programming model for both batch and stream data processing)》

使用 Apache Beam 实施、运行、操作和测试数据处理管道

主要特点

  • 了解如何在实施梁管道时提高可用性和生产力
  • 了解如何使用 Apache Beam 使用有状态处理来实现复杂的用例
  • 借助专家提示和技术实施、测试和运行 Apache Beam 管道

书籍简介

Apache Beam 是一个开源统一编程模型,用于实现和执行数据处理管道,包括提取、转换和加载 (ETL)、批处理和流处理。

本书将帮助您自信地使用 Apache Beam 构建数据处理管道。您将从 Apache Beam 的概述开始,并了解如何使用它来实现基本管道。您还将学习如何有效地测试和运行管道。随着您的进步,您将探索如何构建代码以实现可重用性,并使用各种域特定语言 (DSL)。后面的章节将介绍如何使用架构并使用(流式处理)SQL 查询数据。最后,您将了解高级 Apache Beam 概念,例如实现您自己的 I/O 连接器。

在本书结束时,您将对Apache Beam模型有深入的了解,并能够将其应用于解决问题。

你将学到什么

  • 了解Apache Beam的核心概念和架构
  • 实现无状态和有状态数据处理管道
  • 使用状态和计时器处理实时事件处理
  • 构建代码以实现可重用性
  • 使用流式处理 SQL 处理实时数据,以提高工作效率和数据可访问性
  • 使用可移植运行器运行管道,并使用Apache Beam Python SDK实现数据处理
  • 使用 Splittable DoFn API 实现 Apache Beam I/O 连接器

这本书是为谁写的

本书面向想要了解Apache Beam工作原理的数据工程师、数据科学家和数据分析师。假定具有Java编程语言的中级知识。

目录

  1. 使用 Apache Beam 进行数据处理简介
  2. 实现、测试和部署基本管道
  3. 使用有状态处理实现管道
  4. 构建可重用性代码
  5. 使用 SQL 进行管道实现
  6. 使用具有可移植性的首选语言
  7. 扩展 Apache Beam 的 I/O 连接器
  8. 了解运行程序如何执行管道


0条评论