《数据挖掘与探索:从传统统计学到现代数据科学(Data Mining and Exploration: From Traditional Statistics to Modern Data Science)》

作者:

日期:2022-12-13

出版:

  • 211
  • 0
  • 0

作品总结

《数据挖掘与探索:从传统统计学到现代数据科学(Data Mining and Exploration: From Traditional Statistics to Modern Data Science)》

本书介绍了前沿数据科学方法的概念和程序方面,如动态数据可视化、人工神经网络、集成方法和文本挖掘。至少有两个独特的元素可以使这本书从竞争对手中脱颖而出。

首先,大多数社会科学、工程和商业专业的学生在学习数据科学之前至少上过一门统计学入门课。然而,这些课程通常不讨论传统统计学和现代数据科学之间的异同;结果,学习者被这种看似剧烈的范式转变弄得迷失方向。作为回应,一些传统主义者完全拒绝数据科学,而一些初级数据分析师将数据挖掘工具用作“黑匣子”,没有全面了解传统和现代方法之间的基本差异(例如,二分思维与模式识别,确认与探索,单一方法与三角测量,单一样本与交叉验证等)。本书描述了经典方法和数据科学之间的过渡(例如,从p值到Log Worth,从重采样到集成方法,从内容分析到文本挖掘等)。其次,本书旨在通过涵盖大量的软件工具来拓宽学习者的视野。当技术人员有锤子时,每个问题似乎都是钉子。出于同样的原因,许多教科书只关注单个软件包,因此学习者倾向于使用该工具来解决问题,但相反。为了纠正这种情况,一个称职的分析师应该配备一个工具集,而不是一个单一的工具。例如,当分析师在高度监管的行业(如制药和银行)中处理关键数据时,商业软件模块(例如SAS)是必不可少的。对于中型和小型公司来说,像Python这样的开源包会派上用场。如果研究目标是快速创建执行摘要,那么合乎逻辑的选择是快速模型比较。如果分析师希望通过询问假设问题来探索数据,那么JMP Pro中的动态绘图是更好的选择。本书使用具体的例子来解释各种软件应用程序的优缺点。

0条评论