《适合所有人的Pandas:Python 数据分析》

作者:

日期:2023-02-27

出版:

  • 118
  • 0
  • 0

作品总结

《适合所有人的Pandas:Python 数据分析》

在 Python 中使用 Pandas 管理和自动化数据分析

如今,分析师必须管理具有非凡多样性、速度和数量特征的数据。使用开源的 Pandas 库,您可以使用 Python 快速自动化和执行几乎任何数据分析任务,无论任务有多大或多复杂。Pandas 可以帮助您确保数据的真实性,将其可视化以进行有效决策,并可靠地跨多个数据集重现分析。

《Pandas for Everyone,第2版》汇集了解决Pandas实际问题的实用知识和见解,即使您不熟悉Python数据分析。Daniel Y. Chen 通过简单但实用的示例介绍了关键概念,并逐步构建这些概念以解决更困难的现实世界数据科学问题,例如使用正则化来防止数据过度拟合,或者何时使用无监督机器学习方法来查找数据集中的底层结构。

本书第二版的新内容包括:

  • 扩展绘图和 seaborn 数据可视化库的覆盖范围
  • 扩展的示例和资源
  • 更新了Python 3.9代码和软件包覆盖范围,包括statsmodel和scikit-learn库
  • 关于地理熊猫、Dask 和使用 Altair 创建交互式图形的在线奖励材料


Chen为您提供了使用具有真实数据集的Pandas的快速入门,并涵盖了组合数据集,处理缺失数据以及构建数据集以便于分析和可视化。他演示了强大的数据清理技术,从基本的字符串操作到跨数据帧同时应用函数。

数据准备就绪后,Chen 将指导您完成用于预测、聚类、推理和探索的拟合模型。他提供了有关性能和可伸缩性的提示,并向您介绍了更广泛的Python数据分析生态系统。

  • 使用数据帧和系列,以及导入或导出数据
  • 使用matplotlib,seaborn和pandas创建绘图
  • 合并数据集并处理缺失的数据
  • 重塑、整理和清理数据集,使其更易于使用
  • 转换数据类型和操作文本字符串
  • 应用函数来扩展数据操作
  • 使用分组依据聚合、转换和筛选大型数据集
  • 利用熊猫的高级日期和时间功能
  • 使用统计模型和scikit-learn库拟合线性模型
  • 使用广义线性建模拟合具有不同响应变量的模型
  • 比较多个模型以选择“最佳”模型
  • 正则化以克服过度拟合并提高性能
  • 在无监督机器学习中使用聚类

0条评论