在 Python 中使用 Pandas 管理和自动化数据分析 如今,分析师必须管理具有非凡多样性、速度和数量特征的数据。使用开源的 Pandas 库,您可以使用 Python 快速自动化和执行几乎任何数据分析任务,无论任务有多大或多复杂。Pandas 可以帮助您确保数据的真实性,将其可视化以进行有效决策,并可靠地跨多个数据集重现分析。
《Pandas for Everyone,第2版》汇集了解决Pandas实际问题的实用知识和见解,即使您不熟悉Python数据分析。Daniel Y. Chen 通过简单但实用的示例介绍了关键概念,并逐步构建这些概念以解决更困难的现实世界数据科学问题,例如使用正则化来防止数据过度拟合,或者何时使用无监督机器学习方法来查找数据集中的底层结构。
本书第二版的新内容包括:
Chen为您提供了使用具有真实数据集的Pandas的快速入门,并涵盖了组合数据集,处理缺失数据以及构建数据集以便于分析和可视化。他演示了强大的数据清理技术,从基本的字符串操作到跨数据帧同时应用函数。
数据准备就绪后,Chen 将指导您完成用于预测、聚类、推理和探索的拟合模型。他提供了有关性能和可伸缩性的提示,并向您介绍了更广泛的Python数据分析生态系统。
0条评论