《适合所有人的Pandas：Python 数据分析》

作者：

日期：2023-02-27

出版：

作品总结

《适合所有人的Pandas：Python 数据分析》

在 Python 中使用 Pandas 管理和自动化数据分析

如今，分析师必须管理具有非凡多样性、速度和数量特征的数据。使用开源的 Pandas 库，您可以使用 Python 快速自动化和执行几乎任何数据分析任务，无论任务有多大或多复杂。Pandas 可以帮助您确保数据的真实性，将其可视化以进行有效决策，并可靠地跨多个数据集重现分析。

《Pandas for Everyone，第2版》汇集了解决Pandas实际问题的实用知识和见解，即使您不熟悉Python数据分析。Daniel Y. Chen 通过简单但实用的示例介绍了关键概念，并逐步构建这些概念以解决更困难的现实世界数据科学问题，例如使用正则化来防止数据过度拟合，或者何时使用无监督机器学习方法来查找数据集中的底层结构。

本书第二版的新内容包括：

扩展绘图和 seaborn 数据可视化库的覆盖范围
扩展的示例和资源
更新了Python 3.9代码和软件包覆盖范围，包括statsmodel和scikit-learn库
关于地理熊猫、Dask 和使用 Altair 创建交互式图形的在线奖励材料

Chen为您提供了使用具有真实数据集的Pandas的快速入门，并涵盖了组合数据集，处理缺失数据以及构建数据集以便于分析和可视化。他演示了强大的数据清理技术，从基本的字符串操作到跨数据帧同时应用函数。

数据准备就绪后，Chen 将指导您完成用于预测、聚类、推理和探索的拟合模型。他提供了有关性能和可伸缩性的提示，并向您介绍了更广泛的Python数据分析生态系统。

使用数据帧和系列，以及导入或导出数据
使用matplotlib，seaborn和pandas创建绘图
合并数据集并处理缺失的数据
重塑、整理和清理数据集，使其更易于使用
转换数据类型和操作文本字符串
应用函数来扩展数据操作
使用分组依据聚合、转换和筛选大型数据集
利用熊猫的高级日期和时间功能
使用统计模型和scikit-learn库拟合线性模型
使用广义线性建模拟合具有不同响应变量的模型
比较多个模型以选择“最佳”模型
正则化以克服过度拟合并提高性能
在无监督机器学习中使用聚类

0条评论

作品标签

客服咨询

400 093 7005

周一至周日：09:00AM-21:00PM

微信扫码关注

小程序扫码注册