《大数据:可扩展实时数据系统的原则和最佳实践(Big Data: Principles and best practices of scalable realtime data systems)》

作者:

日期:2022-10-11

出版:

  • 329
  • 0
  • 0

作品总结

《大数据:可扩展实时数据系统的原则和最佳实践(Big Data: Principles and best practices of scalable realtime data systems)》


本书的学习总结

大数据教您使用利用集群硬件以及专门设计用于捕获和分析 Web 级数据的新工具的架构来构建大数据系统。它描述了一种可扩展的、易于理解的大数据系统方法,可以由一个小团队构建和运行。本书以一个现实的例子为读者介绍大数据系统的理论,如何在实践中实现它们,以及如何在构建后部署和操作它们。

关于本书

社交网络、实时分析或电子商务网站等 Web 规模的应用程序处理大量数据,其数量和速度超过了传统数据库系统的极限。这些应用程序需要围绕机器集群构建的架构来存储和处理任何大小或速度的数据。幸运的是,规模和简单性并不相互排斥。

大数据教您使用专门设计用于捕获和分析 Web 级数据的体系结构来构建大数据系统。本书介绍了 Lambda 架构,这是一种可扩展、易于理解的方法,可以由一个小团队构建和运行。您将探索大数据系统的理论以及如何在实践中实现它们。除了发现处理大数据的通用框架外,您还将学习特定的技术,如Hadoop,Storm和NoSQL数据库。

本书不需要以前接触过大规模数据分析或NoSQL工具。熟悉传统数据库很有帮助。

本书里面有什么

  • 大数据系统简介
  • 实时处理网络级数据
  • 哈多普、卡桑德拉和斯托姆等工具
  • 传统数据库技能的扩展

关于作者

内森·马兹是阿帕奇风暴的创造者,也是大数据系统Lambda架构的创始人。詹姆斯·沃伦是一位分析架构师,拥有机器学习和科学计算的背景。

本书的目录

  1. 大数据的新范式
  2. 第 1 部分 批处理图层
  3. 大数据的数据模型
  4. 大数据的数据模型:图示
  5. 批处理图层上的数据存储
  6. 批处理层上的数据存储:图示
  7. 批处理图层
  8. 批处理图层:插图
  9. 批处理层示例:体系结构和算法
  10. 批处理层示例:实现
  11. 第 2 部分 服务层
  12. 服务层
  13. 服务层:插图
  14. 第 3 部分 速度层
  15. 实时视图
  16. 实时视图:插图
  17. 队列和流处理
  18. 队列和流处理:插图
  19. 微批处理流处理
  20. 微批处理流处理:插图
  21. 深度的 Lambda 架构


0条评论