美国密歇根大学应用数据科学专业课程和参考学习书籍介绍

作者:

日期:2022-10-30

向美国排名第一的公立研究型大学学习,加入下一代数据科学家行列

密歇根大学信息学院的应用数据科学硕士 (MADS) 学位旨在让有抱负的数据科学家通过实践项目学习和应用技能。您将学习如何使用数据来改善结果并实现雄心勃勃的目标。 MADS 课程通过掌握机器学习和自然语言处理等核心数据科学概念,帮助您成为该领域的领导者。通过深入探讨隐私、数据伦理和有说服力的沟通等关键主题,您将为在当今的组织中取得成功做好准备。在构建展示您技能的工作组合时,您还将使用来自顶级公司的真实数据集。了解可帮助组织克服数据过载并做出明智决策的系统和技术。

密歇根大学信息学院培养学生成为该领域的领导者。信息学院校园课程的毕业生有 95% 的就业率,许多学生在谷歌、Facebook 和亚马逊等地成为数据科学家。

申请该学位只有几个基本的技术先决条件(统计学和 Python 知识)。学生不需要拥有科学或数学学科的学士学位,或技术领域的工作经验。鼓励需要重新学习统计和 Python 的学生参加 Python 统计和 Python 3 编程专业化学习。本课程 以领导力为中心的学习 :虽然其他数据科学硕士课程侧重于计算机科学理论,但密歇根大学信息学院的本课程为学生提供了对数据科学的端到端视角的领导能力。学生准备通过上下文查询、数据可视化和演示方面的专业知识来解决现实世界的问题。

本课程是为谁准备的?

该学位专为希望应对现实世界数据挑战并全面了解如何在各个行业收集、处理、分析、可视化和报告数据的候选人而设计。 申请人应精通统计学和Python。 学生将学习如何应用这些技能,帮助组织变得更加有效、战略性、道德和成功。密歇根大学对具有学术和/或专业成功历史的申请人感兴趣,他们表现出创造力和对复杂问题解决的承诺,并表现出坚持、领导和主动性。

通过本课程的学习您将能够:

使用数据来改善结果并实现雄心勃勃的目标;

掌握核心数据科学概念,如机器学习和自然语言处理;

了解关键主题,例如隐私、数据伦理和有说服力的沟通;

在仪表板中构建预测模型并可视化数据;

为数据知情的解决方案制定更好的问题陈述;

本专业的课程

参加密歇根大学信息学院应用数据科学硕士 (MADS) 课程的学生将学习应用数据科学的所有基本科目,重点是端到端的方法。 MADS 计划将计算与理论和应用相结合,确保学生将他们的数据科学知识付诸实践。

  • 大数据的计算方法
  • 探索和交流数据
  • 使用各种方法可视化数据
  • 分析技术(机器学习、网络分析、自然语言处理、实验和因果推理)
  • 上下文中的数据科学应用(搜索和推荐系统、社交媒体分析、学习分析)

3个投资组合建设重大项目

以下课程群和标题突出了引人入胜的数据科学学科的广度和深度。课程涵盖从问题制定到将结果付诸实践的所有内容。 Python 是本课程中使用的主要编程语言。学生将在整个课程的 3 个顶点项目中应用数据科学技能和知识,包括:

Capstone I:综合计算技术以收集和处理大数据;

Capstone II:综合分析和机器学习技术来分析数据并呈现结果;

Capstone III:将端到端数据科学技术应用于现实世界场景的顶点;

除非另有说明,否则每门课程的长度为 1 个学分(大约 4 周)。总共需要 34 个学分才能毕业。请注意,随着课程的扩展和完善,课程名称可能会发生变化。

制定问题:

  • 应用数据科学导论
  • 上下文查询
  • 数据科学伦理

收集和处理数据:

  • SQL 和数据库
  • SQL 架构和技术
  • 大数据:高效的数据处理
  • 大数据:可扩展的数据处理
  • 数据处理
  • 实验设计与分析

分析和数据建模:

  • 数据科学的数学方法
  • 数据的可视化探索
  • 数据挖掘 I
  • 数据挖掘 II
  • 监督学习
  • 无监督学习
  • 深度学习
  • 机器学习管道
  • 因果推理
  • 自然语言处理
  • 网络分析

呈现结果并将其整合到行动中

  • 信息可视化Ⅰ
  • 呈现不确定性
  • 交流数据科学成果
  • 信息可视化 II

数据科学的实际应用

  • 搜索和推荐系统
  • 社交媒体分析
  • 学习分析

‘应用数据科学导论’

本课程探讨数据科学家在数据科学的四个阶段应用于项目的专业知识、观点和道德承诺:问题制定、数据采集、建模和分析以及结果呈现。通过这个过程,学生将定义他们希望如何发展数据科学职业的愿景。

‘数据处理’

Data Manipulation(数据处理)展示了使用流行的 Python Pandas 数据科学库的操作和清理技术。在本课程结束时,学生将具备获取表格数据、清理数据、操作数据以及运行基本推论统计分析所需的技能。

‘数据科学的数学方法

数学方法将审查并建立数据科学家工具包所需的基础数学概念。学生将学习和应用线性代数(如矩阵和向量)、基本优化技术(如梯度下降)和统计学(如贝叶斯规则)中的概念。

‘信息可视化Ⅰ’

信息可视化Ⅰ将关注可视化在理解一维和多维数据中的作用。它涵盖了感知、认知和良好的设计如何增强可视化。本课程还介绍了用于可视化构建的 API。

‘实验设计与分析’

实验设计和分析介绍了实验室和现场实验的技术。学生将讨论实验的逻辑以及实验用于调查社会和技术现象的方式。学生还将学习设计实验和分析实验数据的方法。

‘数据的可视化探索’

数据的可视化探索使学生能够使用 matplotlib 库识别数据中的聚合模式,并了解与探索和表示数据相关的挑战。学生还将提高对各种统计方法应用的理解。

'数据挖掘I'

数据挖掘 I 介绍了数据挖掘的基本概念。本课程涵盖如何将现实世界的信息表示为促进下游分析任务的基本数据类型(项集、矩阵和序列)。学生将学习如何通过模式提取和相似性度量来表征每种类型的数据。

课程学习时长

该计划中的课程每门代表 1-3 个学分。课程需要1-2个月才能完成。课程在秋季、冬季和春季/夏季学期提供,由密歇根大学信息学院的核心教师教授。 这种灵活的在线课程以 1 个学分、为期 4 周的课程模块形式提供,因此学生每月可以少修 1 个学分,每月最多可以修读 3 个学分。该计划非常适合寻求灵活安排学习的学生。 .例如,全日制学生可以在一年(12 个月)内完成课程*。 非全日制学生可以在两年(24 个月)或三年(36 个月)内完成课程。

本课程的参考学习书目

《在旅游业中应用数据科学:跨学科方法、方法和应用(Applied Data Science in Tourism: Interdisciplinary Approaches, Methodologies, and Applications)》

《在旅游业中应用数据科学:跨学科方法、方法和应用》

访问大型数据集导致了旅游研究领域的范式转变。大数据正在实现一种新的知识获取形式,同时动摇了认识论基础,需要新的方法和分析方法。它允许计算机科学与社会和经济科学之间的跨学科合作,并补充传统的研究方法。本书为数据科学方法的实际应用提供了广泛的基础,如机器学习、文本挖掘、社交网络分析等等,这些方法对跨学科旅游研究至关重要。从原理上介绍每种方法,分析原理,权衡其优缺点,并介绍典型应用领域。正确的有条不紊的应用程序通过“操作方法”方法和代码示例呈现,允许更广泛的读者群,包括研究人员,从业者和进入该领域的学生。

学者对这本书的评价:
这本书是一本结构良好的数据科学导论 - 不仅在旅游业 - 及其方法论基础,并附有精心挑选的实际案例。它强调了一个重要的见解:数据只是现实的表示,你需要掌握方法论技能和领域背景才能从中获取知识- 维也纳理工大学 Hannes Werthner

罗曼·埃格(Roman Egger)已经完成了一项困难但必要的任务:明确数据科学如何实际支持和促进旅行和旅游研究和应用。这本书提供了一本精心教授的章节集,全面而深入地介绍了旅游业的人工智能和数据科学 - Francesco Ricci,博岑 - 博尔扎诺自由大学

这本结构良好且易于阅读的书提供了旅游行业数据科学的全面概述。它在很大程度上为超越传统方法的方法库做出了贡献。- 罗伯罗,澳门大学

《使用 PySpark 的应用数据科学:了解端到端预测模型构建周期(Applied Data Science Using PySpark : Learn the End-to-End Predictive Model-Building Cycle)》

《使用 PySpark 的应用数据科学:了解端到端预测模型构建周期》

帮助了解 PySpark 的功能及其在数据科学领域的应用。这份综合指南包含精心挑选的日常用例示例,将引导您使用最新的交易技术和技巧完成端到端的预测模型构建周期。


使用PySpark的应用数据科学分为六个部分,引导您学习完成本书。在第 1 节中,您将从 PySpark 的基础知识开始,重点介绍数据操作。我们让您熟悉该语言,然后在此基础上向您介绍现成的数学函数。在第 2 节中,您将深入了解变量选择的艺术,我们将演示 PySpark 中可用的各种选择技术。在第 3 节中,我们将带您了解机器学习算法、实现和微调技术。我们还将讨论不同的验证指标以及如何使用它们来选择最佳模型。第 4 节和第 5 节介绍了机器学习管道和各种可用于操作模型并通过 Docker/an API 为其提供服务的方法。在最后一节中,你将介绍可重用对象以便于试验,并学习一些可以帮助您优化程序和机器学习管道的技巧。
在本书的结尾,您将看到PySpark在数据科学应用中的灵活性和优势。本书推荐给那些希望通过同时使用大型数据集来释放并行计算力量的人。


通过本书您将学到:

  • 什么构建端到端的预测模型
  • 实施多变量选择技术
  • 操作模型
  • 掌握多种算法和实现

本书适用于想要学习和使用 PySpark 对流数据进行实时分析的数据科学家、机器学习和深度学习工程师。

《产品分析:应用数据科学技术提供可操作的消费者洞察(Product Analytics : Applied Data Science Techniques for Actionable Consumer Insights)》

《产品分析:应用数据科学技术提供可操作的消费者洞察》

本指南性的书籍介绍如何将数据科学与社会科学相结合,以获得对客户行为的前所未有的洞察力,以便您可以改变它。Joanne Rodrigues-Craig(罗德里格斯-克雷格)弥合了预测数据科学和统计技术之间的差距,并揭示了为什么重要的事情会发生 - 为什么客户购买更多,或者为什么他们立即离开您的网站 - 因此您可以获得更多想要的行为,而不是您不需要的行为。
凭借丰富的企业经验和对人口统计学和社会学的深入了解,Joanne Rodrigues-Craig(罗德里格斯-克雷格)展示了如何创建更好的理论和指标,以便您可以加速获得洞察力、改变行为和赚取商业价值的过程。

  • 通过本书您将学习如何:
    开发复杂的,可测试的理论,以了解Web产品中的个人和社会行为
  • 像社会科学家一样思考并将当今社会环境中的个人行为情境化
  • 为任何Web产品或系统构建更有效的指标和KPI
  • 进行信息更丰富且可操作的A / B测试探索因果效应,反映对相关性和因果关系之间差异的更深入理解
  • 改变复杂 Web 产品中的用户行为
  • 了解相关人类行为的发展方式以及更改这些行为的先决条件
  • 为常见任务(如多状态和提升建模)选择正确的统计技术
  • 使用高级统计技术对多维系统进行建模
  • 在 R 中完成所有这些操作(在单独的代码手册中提供示例代码)

《数据科学应用于可持续性分析(Data Science Applied to SustainabilityAnalysis)》

《数据科学应用于可持续性分析》

《应用于可持续性分析的数据科学》侧重于与在生命周期评估和物料流分析等分析技术中应用此工具相关的方法考虑因素。由于可持续发展分析师需要大数据技术的应用示例,这些技术在可持续性分析中是可辩护和实用的,并且可以产生可操作的结果,可以为政策制定、企业供应链管理战略或非政府组织的立场提供信息,因此本书有助于回答潜在的问题。此外,它还满足了数据科学专家的需求,他们正在寻找将他们的技能和知识应用于各种领域的途径。

《现代统计学:基于计算机的Python方法(Modern Statistics : A Computer-Based Approach with Python)》

《现代统计学:基于计算机的Python方法》

这本创新的教科书为现代统计学课程提供了材料,该课程将Python作为教学和实践资源。凭借在各种应用和工业环境中多年的教学和研究经验,作者精心定制了这本教材,以提供理论和实际应用的理想平衡。贯穿始终的大量示例和案例研究,并详细说明了全面的 Python 应用程序。自定义 Python 包可供下载,允许学生重现这些示例并探索其他示例。


本书的第一章侧重于分析变异性、概率模型和分布函数。接下来,作者介绍了统计推断和引导,以及几个维度和回归模型中的可变性。然后,本文继续介绍用于估计有限总体量的抽样以及时间序列分析和预测,最后有两章关于现代数据分析方法。每章都包括练习、数据集和应用程序,以补充学习。


《现代统计学:基于计算机的Python方法》适用于一个或两个学期的高级本科或研究生课程。由于文本的基础性质,它可以与任何需要数据分析的课程相结合,例如数据科学、工业统计、物理和社会科学以及工程课程。研究人员、从业者和数据科学家也会发现它是一个有用的资源,其中包含众多应用程序和案例研究。


第二本密切相关的教科书名为《工业统计:基于计算机的Python方法》。它涵盖了统计过程控制(包括多变量方法)、实验设计(包括计算机实验)和可靠性方法(包括贝叶斯可靠性)等主题。这些文本可以单独使用,也可以用于连续的课程。


mistat Python包可以在 https://gedeck.github.io/mistat-code-solutions/ModernStatistics/
“在这本关于现代统计学的书中,关于现代分析方法的最后两章包含了目前非常流行的东西,特别是在机器学习方面,例如分类器,聚类方法和文本分析。但我也欣赏前面的章节,因为我相信使用机器学习方法的人应该意识到他们严重依赖统计方法。我非常感谢根据作者的长期经验制定的许多案例。它们对于更好地理解和应用书中介绍的方法非常有用。Python的使用对应于当今最好的编程体验。出于所有这些原因,我认为这本书也有一个辉煌而有影响力的未来,我为此赞扬作者。----Fabrizio Ruggeri教授意大利国家研究委员会主任国际商业和工业统计学会(ISBIS)主编商业和工业应用随机模型(ASMBI)

《Python 3:综合指南(Python 3 : The Comprehensive Guide)》

《Python 3:综合指南》

准备好掌握 Python 3了吗?通过本书学习编写有效的代码,无论您是初学者还是专业程序员。查看核心 Python 概念,包括函数、模块化和面向对象,并演练可用的数据类型。然后深入研究更高级的主题,例如使用 Django 和使用 GUI。通过大量的代码示例,这个动手参考指南提供了精通 Python 所需的一切!

本书的亮点包括:1)函数 2)方法 3)属性 4)数据类型 5)GUI 6)调试 7)网络通信 8)模块化 9)面向对象 10)迭代器 11)生成器 12)异常处理等;