《使用 Apache Beam 构建大数据管道:使用单个编程模型进行批处理和流数据处理(Building Big Data Pipelines with Apache Beam: Use a single programming model for both batch and stream data processing)》
使用 Apache Beam 实施、运行、操作和测试数据处理管道
主要特点
- 了解如何在实施梁管道时提高可用性和生产力
- 了解如何使用 Apache Beam 使用有状态处理来实现复杂的用例
- 借助专家提示和技术实施、测试和运行 Apache Beam 管道
书籍简介
Apache Beam 是一个开源统一编程模型,用于实现和执行数据处理管道,包括提取、转换和加载 (ETL)、批处理和流处理。
本书将帮助您自信地使用 Apache Beam 构建数据处理管道。您将从 Apache Beam 的概述开始,并了解如何使用它来实现基本管道。您还将学习如何有效地测试和运行管道。随着您的进步,您将探索如何构建代码以实现可重用性,并使用各种域特定语言 (DSL)。后面的章节将介绍如何使用架构并使用(流式处理)SQL 查询数据。最后,您将了解高级 Apache Beam 概念,例如实现您自己的 I/O 连接器。
在本书结束时,您将对Apache Beam模型有深入的了解,并能够将其应用于解决问题。
你将学到什么
- 了解Apache Beam的核心概念和架构
- 实现无状态和有状态数据处理管道
- 使用状态和计时器处理实时事件处理
- 构建代码以实现可重用性
- 使用流式处理 SQL 处理实时数据,以提高工作效率和数据可访问性
- 使用可移植运行器运行管道,并使用Apache Beam Python SDK实现数据处理
- 使用 Splittable DoFn API 实现 Apache Beam I/O 连接器
这本书是为谁写的
本书面向想要了解Apache Beam工作原理的数据工程师、数据科学家和数据分析师。假定具有Java编程语言的中级知识。
目录
- 使用 Apache Beam 进行数据处理简介
- 实现、测试和部署基本管道
- 使用有状态处理实现管道
- 构建可重用性代码
- 使用 SQL 进行管道实现
- 使用具有可移植性的首选语言
- 扩展 Apache Beam 的 I/O 连接器
- 了解运行程序如何执行管道
0条评论