科罗拉多大学博尔德分校数据科学理学硕士学位统计推断课程介绍

作者:

日期:2022-11-26

通过攻读科罗拉多大学博尔德分校的完整数据科学理学硕士学位,学习宝贵的数据科学职业技能。

该硕士学位课程利用了统计学、数据科学、计算机科学、自然语言处理、信息科学等领域无与伦比的教师专业知识。您将获得广泛适用的基础技能,并发展适合特定职业道路的专业能力。数据科学家目前被 Glassdoor 和 Quanthub 评为美国排名第三的职位,数据科学理学硕士 毕业生将准备好利用对熟练数据人才的高需求来找到新工作或提升你的职业生涯。

数据科学基础:统计推断(Data Science Foundations: Statistical Inference)课程介绍

统计推断(Statistical Inference)是数据科学家用来从数据样本中得出更大结论的一种方法,是任何想在数据科学领域取得成功的人的必备技能。在本课程中,您将了解探索性数据分析、概率论、统计推断和数据建模,并涵盖离散和连续概率分布、期望、大数定律、中心极限定理、统计参数等关键主题估计、假设检验和回归分析。本课程将特别关注 R 编程语言中的应用程序。

数据科学基础:统计推断课程的参考学习书籍

《R中数据科学的回归模型:数据科学的统计推断(Regression Models for Data Science in R: Statistical inference for data science)》

《R中数据科学的回归模型:数据科学的统计推断》

本书的特别之处:本书的理想读者将是定量素养,并对统计概念和R编程有基本的了解。学生应该对统计推断有基本的了解,如“数据科学的统计推断”中所包含的。本书从实践的角度对回归模型的基本概念进行了严格的处理。阅读本书并观看相关视频后,学生将能够执行多变量回归模型并理解它们的解释。

《上下文中的统计假设检验:可重复性、推理和科学(Statistical Hypothesis Testing in Context: Reproducibility, Inference, and Science)》

《上下文中的统计假设检验:可重复性、推理和科学》

Fay和Brittain提出了统计假设检验和兼容置信区间,重点是应用和正确的解释。重点是为应用统计学家提供足够的工具——以及在其中选择的建议——为几乎任何问题找到合理的方法,并通过修改现有方法找到足够的理论来解决新问题。在涵盖了基本的数学理论和科学原理之后,针对特定类型的数据开发了测试和置信区间。涵盖了应用程序的基本方法,例如创建测试的一般程序(例如,似然比,自举,排列,模型测试),多重测试的调整,聚类,分层,因果关系,删失,缺失数据,组顺序测试和非劣效性测试。作者开发的新方法贯穿始终,例如用于比较两个样本的融合置信区间以及与Wilcoxon-Mann-Whitney检验和Kaplan-Meier估计相关的置信区间。本书包括支持实际使用的示例、练习和 R 软件包。

《统计推理基础:随机误差的含义是什么?(Fundamentals of Statistical Inference: What is the Meaning of Random Error?)》

《统计推理基础:随机误差的含义是什么?》

本书对有关统计推断的基本问题进行了连贯的描述,并展示了统计学如何帮助我们仅基于有限的数据集(例如从较大人群中抽取的随机样本)对更广泛的背景进行归纳推断。通过将这些基础知识与与p值和统计显著性检验相关的推理错误的方法论辩论联系起来,读者可以清楚地掌握统计推断的前提,以及它可以做什么和不能做什么。为了便于直觉,整本书的表述尽可能非技术性。


本书背后的核心灵感来自关于良好统计实践和复制危机的科学辩论。对统计改革的呼吁包括2016年美国统计协会前所未有的方法论警告,2019年《美国统计学家》特刊“21世纪的统计推断:超越p<0.05的世界”,以及2019年广泛支持的呼吁“退休统计意义”。


该书阐明了基于样本的推理的概率基础和潜力,包括随机数据生成、效应大小估计和随机误差引起的估计不确定性评估。基于对这些基础知识的透彻理解,它描述了p值概念和零假设显著性检验仪式,最后指出了随之而来的推理错误。这使读者有能力避免将来出现误导性的统计例行程序和对统计量的误解。

本书面向有兴趣了解统计推断作用的读者,在考虑随机误差引起的不确定性的情况下,对从特定数据集中获得的知识收益进行了审慎的评估。更具体地说,它为研究生以及具有统计学基础知识的统计从业人员提供了可访问的资源。最后但并非最不重要的是,本书针对的是对上述改革辩论具有真正方法论感兴趣的科学家。

《统计建模与推理简介(Introduction to Statistical Modelling and Inference)》

《统计建模与推理简介》

大规模数据集(“大数据”)的复杂性刺激了用于分析它们的先进计算方法的发展。有两种不同的方法可以帮助做到这一点。基于模型的方法使用概率模型和似然以及贝叶斯理论,而无模型方法不需要概率模型、似然或贝叶斯理论。这两种方法基于概率论的不同哲学原理,由著名统计学家罗纳德·费舍尔和耶日·内曼提出。
《统计建模和推理简介》涵盖简单的实验和调查设计,以及概率模型,包括广义线性(回归)模型及其一些扩展,包括有限混合物。本书还讨论和分析了来自不同应用领域的各种示例。除了广义线性模型的最大似然分析所需的软件外,没有使用任何特殊软件。学生应具有代数,坐标几何和微积分的基本数学背景。
本书的主要特征

  • 概率模型是从样本经验累积分布函数(cdf)的形状或其变换中开发的。
  • 总体累积分布函数值的边界是从经验 cdf 的每个点的 Beta 分布中获得的。
  • 贝叶斯定理是从罕见病症筛选测试的性质发展而来的。
  • 多项分布为任何随机采样数据提供了始终为真的模型。
  • 用于查找样本估计精度的无模型自举方法具有基于模型的平行 - 贝叶斯自举 - 基于始终为真的多项式分布。
  • 模型参数的贝叶斯后验分布可以从模型的最大似然分析中获得。

本书面向包括数据科学在内的广泛学科的学生。本书基于基于模型的理论,该理论被许多领域的科学家广泛使用,并将其与计算机科学,机器学习和官方调查分析中流行的无模型理论进行了比较,但不太详细。贝叶斯分析的最新发展加速了基于模型的理论的发展。

《统计推断和概率(Statistical Inference and Probability)》

《统计推断和概率》

John Macinnes是数据分析和统计领域经验丰富的作者,他撰写了这一本简洁易懂的书籍,用通俗易懂的语言和详细的示例分解了推论统计的复杂主题。本书涵盖了一系列主题,包括:

  • 概率和抽样分布
  • 推理和回归
  • 功效、效应大小和反概率

作为SAGE定量研究工具包的一部分,本书将为您提供在定量研究之旅中取得成功所需的专业知识和信心。