作者:
日期:2022-11-28
出版:
海量的现代数据集使传统的数据结构和算法陷入停滞。这本有趣而实用的指南介绍了尖端技术,甚至可以可靠地处理最大的分布式数据集。
在海量数据集的算法和数据结构中,您将学习:
• 针对实际问题的概率草绘数据结构
• 为您的应用程序选择合适的数据库引擎
• 评估和设计高效的磁盘数据结构和算法
•了解大规模系统中涉及的算法权衡
• 从流数据中获取基本统计数据
• 正确采样流数据
• 以有限的空间资源计算百分位数
《海量数据集的算法和数据结构》揭示了非常适合处理现代大数据应用程序的新方法工具箱。您将探索支持Google,Facebook和其他处理真正海量数据的企业应用程序的新颖数据结构和算法。这些有效的技术可以应用于任何学科,从金融到文本分析。图形、插图和动手的行业示例使复杂的想法在您的项目中实现变得切实可行,并且没有数学证明可以解决。阅读这份独一无二的指南,您将找到在不牺牲数据准确性的情况下节省空间的最佳点。
关于技术
标准算法和数据结构在应用于大型分布式数据集时可能会变慢或完全失败。选择专为大数据设计的算法可以节省时间、提高准确性并降低处理成本。这本独特的书将前沿研究论文提炼成实用技术,用于在磁盘和云中绘制草图、流式传输和组织大量数据集。
关于《海量数据集的算法和数据结构》一书
介绍了大型分布式数据的处理和分析技术。这本友好的指南包含行业故事和有趣的插图,即使是复杂的概念也易于理解。在学习将强大的算法(如布隆过滤器、计数最小草图、HyperLogLog 和 LSM 树)映射到您自己的用例时,您将探索真实世界的示例。
0条评论