亚利桑那州立大学计算机科学专业大数据系统课程介绍

您对利用计算和机器学习的力量来理解大数据感兴趣吗？如果是这样，亚利桑那州立大学专注于大数据系统的计算机科学硕士可能非常适合。在此学习计划中，您将设计可扩展的系统，用于捕获、处理和解释大型复杂数据集。您还将获得分析专业知识，以从数据中生成见解并为组织提供决策信息。

亚利桑那州立大学

什么是大数据？

大数据描述了为支持我们的知识经济而生成的大量和种类的数据。虽然有些数据是“静态”的，但“动态数据”的实时处理对于许多应用程序至关重要。其中包括欺诈检测系统、金融服务、移动/位置感知服务、信用卡身份验证和医疗保健。

如此庞大、快速和复杂的数据难以存储、管理、分析和获取见解。这需要设计具有大量处理能力的新数据架构和工具。这些可以匹配数据的规模，并通过数据融合和集成、分析、可视化和预测算法支持瞬间决策。

新的数据系统有助于做出决策，支持研究发现并产生价值。因此，迫切需要具有出色数据管理、系统开发/集成和数据分析技能的工程师和数据科学家。

为什么要获得专注于大数据系统的硕士学位？

对能够提取高容量、高速度和高多样性数据集的新型数据科学家和工程师的需求很高。他们需要分析技能将数据转化为有意义的见解，并根据数据做出准确的预测。通过基于项目的学习，专注于大数据系统的在线计算机科学硕士为您构建，实施和部署系统以管理不断增长的数据量做好准备。

您将学习如何设计不同类型的可扩展大数据系统。其中包括并行、分布式和实时系统。作为拥有计算机科学学位的毕业生，您将拥有为特定任务或领域应用程序需求部署适当的数据管理、处理或分析系统所需的专业知识。

您还将通过基于项目的学习，在大数据分析、数据处理、数据挖掘、机器深度学习、挖掘算法、可视化技术等方面获得更深入地了解数据所需的技能。您在算法、建模和工程方面的大数据培训和技能将使您在该领域具有显著的竞争优势。

亚利桑那州立大学计算机科学硕士特色课程

计算机科学硕士 - 大数据系统学生必须参加一门基础课程，一门系统课程和一门应用课程。学生还必须通过参加大数据系统课程完成 15 个学分的集中要求，例如：

工程区块链应用。
数据挖掘。
大规模数据处理。
数据可视化。
统计机器学习。

我将在这个计算机科学硕士课程中学习哪些技能？

专注于大数据系统的计算机科学硕士学位将为您提供获取，存储和处理大规模数据集的多样化技能。您还将获得分析专业知识，以从数据中挖掘信息。在该课程中获得的以下技能可以帮助您获得数据架构师、工程师或科学家的就业。

将数据挖掘技术应用于实际应用。
创建支持实体、网络分析、文本和媒体分析的工具。
为一组给定的应用程序驱动约束设计最佳解决方案。
在数据存储、索引、查询、检索和可视化方面做出明智的决策。
关于查询优化和执行备选方案的推理。
使用和开发实时、在线和可扩展的处理系统。

亚利桑那州立大学计算机科学专业大数据系统的参考学习书籍介绍

《数据挖掘与探索：从传统统计学到现代数据科学（Data Mining and Exploration: From Traditional Statistics to Modern Data Science）》

《数据挖掘与探索：从传统统计学到现代数据科学》

本书介绍了前沿数据科学方法的概念和程序方面，如动态数据可视化、人工神经网络、集成方法和文本挖掘。至少有两个独特的元素可以使这本书从竞争对手中脱颖而出。

首先，大多数社会科学、工程和商业专业的学生在学习数据科学之前至少上过一门统计学入门课。然而，这些课程通常不讨论传统统计学和现代数据科学之间的异同;结果，学习者被这种看似剧烈的范式转变弄得迷失方向。作为回应，一些传统主义者完全拒绝数据科学，而一些初级数据分析师将数据挖掘工具用作“黑匣子”，没有全面了解传统和现代方法之间的基本差异（例如，二分思维与模式识别，确认与探索，单一方法与三角测量，单一样本与交叉验证等）。

本书描述了经典方法和数据科学之间的过渡（例如，从p值到Log Worth，从重采样到集成方法，从内容分析到文本挖掘等）。

其次，本书旨在通过涵盖大量的软件工具来拓宽学习者的视野。当技术人员有锤子时，每个问题似乎都是钉子。出于同样的原因，许多教科书只关注单个软件包，因此学习者倾向于使用该工具来解决问题，但相反。

为了纠正这种情况，一个称职的分析师应该配备一个工具集，而不是一个单一的工具。例如，当分析师在高度监管的行业（如制药和银行）中处理关键数据时，商业软件模块（例如SAS）是必不可少的。对于中型和小型公司来说，像Python这样的开源包会派上用场。如果研究目标是快速创建执行摘要，那么合乎逻辑的选择是快速模型比较。如果分析师希望通过询问假设问题来探索数据，那么JMP Pro中的动态绘图是更好的选择。

本书使用具体的例子来解释各种软件应用程序的优缺点。

《数据挖掘中的人工智能：理论与应用（Artificial Intelligence in Data Mining: Theories and Applications）》

《数据挖掘中的人工智能：理论与应用》

《数据挖掘中的人工智能：理论与应用》全面介绍了数据挖掘理论，相关AI技术及其许多实际应用。本书由经验丰富的工程师为工程师、生物医学工程师和神经网络研究人员以及对该领域感兴趣的计算机科学家编写。涵盖应用于数据挖掘的人工智能基础知识，包括用于数据聚类的计算智能和无监督学习方法，同时本书介绍了关键主题的覆盖范围，例如数据聚类的启发式方法、数据分类的深度学习方法和神经网络包括案例研究和人工智能技术在数据挖掘中的实际应用，包括改善临床诊断、卫星数据提取、农业、安全和国防方面的应用结果。

《数据挖掘的未来（The Future of Data Mining）》

《数据挖掘的未来》

本书的目的是从各种角度讨论数据挖掘技术，这是数据科学的一个子集。随着近年来的技术进步，大多数商业环境中都可以使用新的基于软件和硬件的系统。有了这些系统，个人、企业、商业和许多其他领域的数据生产继续增加。信息系统在应用流程后将原始数据（仅此其本身没有那么大意义）转换为信息。数据库系统对于存储和管理生成的信息是必要的。揭示隐藏在一堆大容量数据中的有意义的关系，显示了数据挖掘的功能。处理大数据对于生成支持业务决策的信息并成为当今竞争环境中的战略工具变得非常重要。在这种情况下，数据挖掘应用程序的有效性与日俱增，作为决策支持系统，通过识别客户行为和目标群体来制定每个部门的营销策略。

《复杂工业过程的动态建模：数据驱动的方法和应用研究（Dynamic Modeling of Complex Industrial Processes: Data-driven Methods and Application Research）》

《复杂工业过程的动态建模：数据驱动的方法和应用研究》

本论文开发了一个系统的、基于数据的工业过程动态建模框架，以符合缓慢原则。然后，以上述框架为出发点，提出处理工业生产环境中的控制监测和质量预测问题的新策略。

该论文揭示了反馈控制下工业生产过程的缓慢变化性质，并将其与过程数据分析相结合，以提供强大的先验知识，从而产生针对工业数据量身定制的统计方法。它解决了工业实践中直接关注的几个问题，包括过程监控、控制性能评估和诊断、监控系统设计和产品质量预测。特别是，它提出了一个整体实用的工业监控系统设计框架，通过充分利用数据背后的信息，有效消除误报，实现智能自运行。

本论文的优势之一是整合了统计学、机器学习、控制理论和工程学的见解，为大数据时代的工业过程建模提供了新的方案。

《5G医疗保健应用的区块链：安全和隐私解决方案(Blockchain for 5G Healthcare Applications: Security and privacy solutions)》

《5G医疗保健应用的区块链：安全和隐私解决方案》

医疗保健 4.0 的安全系统对所有利益相关者（包括患者和护理人员）都至关重要。使用新的可信账本区块链系统将有助于保证医疗保健4.0多访问系统的真实性。这是第一本探讨如何使用区块链实现医疗保健4.0安全系统的综合书籍，重点是隐私和安全的关键挑战。

本书分为四个部分。第一部分侧重于5G医疗保健隐私和安全问题。第二部分讨论医疗保健架构和新兴技术。第三部分介绍了人工智能在5G医疗保健服务中对数据安全和隐私的作用。最后，最后一部分系统地说明了区块链在5G医疗保健的各种应用中的应用。

本书是所有参与设置、运行和维护医疗保健信息系统的人的必备读物。医疗保健技术、健康信息学、安全和信息技术领域的工程师、科学家、技术人员、开发人员、设计师和研究人员会发现这些内容特别有用。

《使用 TigerGraph 进行图形驱动的分析和机器学习：通过互联数据推动业务成果（Graph-Powered Analytics and Machine Learning with TigerGraph: Driving Business Outcomes with Connected Data）》

《使用 TigerGraph 进行图形驱动的分析和机器学习：通过互联数据推动业务成果》

随着图形数据库的迅速兴起，组织现在正在实施高级分析和机器学习解决方案，以帮助推动业务成果。本实用指南向数据科学家、数据工程师、架构师和业务分析师展示了如何使用 TigerGraph（可用的领先图形数据库模型之一）开始使用图形数据库。通过本书的学习您将探索从互联数据中获取价值的三阶段方法：连接、分析和学习。来自TigerGraph的Victor Lee，Xinyu Chan和Gaurav Deshpande介绍了涵盖多种当代业务需求的真实应用场景。通过使用 TigerGraph Cloud 进行动手练习，您将很快精通为您的组织设计和管理高级分析和机器学习解决方案。

本书的主要内容：

使用图形思维连接、分析和学习数据以进行高级分析和机器学习；
了解图形分析和机器学习如何提供关键业务见解和成果；
使用五大核心类别的图形算法来推动高级分析和机器学习；
提供连接的核心业务实体（包括客户、产品、服务、供应商和公民）；
通过机器学习和高级分析从互联数据中发现见解；

《机器学习在基于区块链的智能制造中的应用：理论基础、应用与挑战（Machine Learning Adoption in Blockchain-Based Intelligent Manufacturing: Theoretical Basics, Applications, and Challenges)》

《机器学习在基于区块链的智能制造中的应用：理论基础、应用与挑战》

本书着眼于加速产业转型、工业基础设施、生物多样性和生产力的行业变革模式和创新（如人工智能、机器学习、大数据分析以及区块链支持和效率技术）。

本书重点介绍现实世界的工业应用和案例研究，为智能制造提供更广泛的知识。它还提供了对制造、物流和供应链的见解，在这些系统中，系统经历了工业转型。它讨论了机器学习的当前研究以及区块链技术，这些技术可以填补研究和工业风险之间的空白。它继续涵盖了第四次工业革命对工业基础设施的影响，并着眼于当前加速工业转型活动的行业变化模式和创新。

来自不同国家的研究人员、学者和学生将欣赏这本书在现实世界中的应用和知识获取。本书面向制造商、行业所有者、产品开发人员、科学家、物流和供应链工程师。

专注于现实世界的工业应用和案例研究，以提供更广泛的智能制造知识
提供有关系统经历了工业转型的制造、物流和供应链的见解
讨论机器学习的当前研究以及区块链技术，这些技术可以填补研究和工业曝光之间的差距
涵盖第四次工业革命对工业基础设施的影响
研究加速产业转型活动的行业变革模式和创新

《面向物联网的机器学习、区块链技术和大数据分析：方法、技术和应用（Machine Learning, Blockchain Technologies and Big Data Analytics for IoTs: Methods, technologies and applications）》

《面向物联网的机器学习、区块链技术和大数据分析：方法、技术和应用》

物联网（IoT）现在正大规模集成到快速发展的应用中，例如医疗保健、运输、教育、金融、保险和零售。下一代自动化应用程序将命令机器更好、更高效地完成任务。行业和学术研究人员都在考虑使用机器学习和深度学习来转换应用程序，以构建更好的模型，并利用区块链的分散性。但这些新技术的出现也给行业、组织和用户带来了非常高的期望。计算成本的降低、区块链中数据完整性的提高以及使用机器学习验证交易正在成为基本目标。

这本经过编辑的书涵盖了与使用机器学习、区块链和物联网大数据分析相关的挑战、机遇、创新、新概念和新兴趋势。本书面向广大的ICT、数据科学、机器学习和网络安全研究人员，他们对这些颠覆性技术及其在物联网中的应用感兴趣。

《Kafka - 权威指南：大规模实时数据和流处理（Kafka - The Definitive Guide: Real-Time Data and Stream Processing at Scale）》

《Kafka - 权威指南：大规模实时数据和流处理》

每个企业应用程序都会创建数据，无论它由日志消息、指标、用户活动还是传出消息组成。移动所有这些数据与数据本身一样重要。通过此更新版本，刚接触 Kafka 流媒体平台的应用程序架构师、开发人员和生产工程师将学习如何处理动态数据。本书的其他章节涵盖 Kafka 的 AdminClient API、事务、新的安全功能和工具更改。来自Confluent和负责开发Kafka LinkedIn的工程师解释了如何使用该平台部署生产Kafka集群，编写可靠的事件驱动微服务以及构建可扩展的流处理应用程序。通过详细示例，您将了解 Kafka 的设计原则、可靠性保证、关键 API 和架构细节，包括复制协议、控制器和存储层。

通过本书您将学习到：

部署和配置 Kafka 的最佳实践；
用于写入和读取消息的 Kafka；
生产者和使用者；
确保可靠数据传输的模式和用例要求；
使用 Kafka 构建数据管道和应用程序的最佳实践；
如何在生产中使用 Kafka 执行监视、调整和维护任务；
Kafka 运营测量中最关键的指标；
Kafka 的流处理系统交付能力；

《使用 Python 进行实用自然语言处理：来自大规模使用文本数据的行业的案例研究（Practical Natural Language Processing with Python: With Case Studies from Industries Using Text Data at Scale）》

《使用 Python 进行实用自然语言处理：来自大规模使用文本数据的行业的案例研究》

使用自然语言工具和技术来解决现实世界的问题。本书重点介绍自然语言处理（NLP：Natural Language Processing）如何在各个行业中使用。每一章都描述了问题和解决方案策略，然后直观地解释了不同算法的工作原理，并更深入地探讨了 Python 中的代码和输出。

使用Python进行实用自然语言处理遵循基于案例研究的方法。每一章都致力于一个行业或用例，您可以在其中解决该行业的实际业务问题以及解决这些问题的各种方法。您先了解各种类型的文本数据，然后再关注客户服务行业、该域中可用的数据类型以及遇到的常见 NLP 问题。在这里，您将介绍词袋模型监督学习技术，因为您尝试解决案例研究。其他用例（如在线评论、机器人、金融等）也有类似的深度。当您介绍这些行业中的问题时，您还将涵盖情感分析、命名实体识别、word2vec、单词相似性、主题建模、深度学习和序列到序列建模。

在本书结束时，您将能够独立处理所有类型的NLP问题。您还可以以不同的方式思考以解决语言问题。书中提供了所有问题的代码和技术。

通过本书您将学到什么：

建立对工业中NLP问题的理解
获得使用基于语言的模型和机器学习解决典型 NLP 问题的专业知识
发现使用 NLP 解决业务问题的最佳方法 - 久经考验的方法
了解难以解决的业务问题

这本书是为谁写的：

那些想要启动 NLP 的分析和数据科学专业人员，以及想要获得新想法来解决手头问题的 NLP 专业人员。

《使用 Python 和 JavaScript 进行数据可视化：抓取、清理、探索和转换数据(Data Visualization with Python and JavaScript: Scrape, Clean, Explore, and Transform Your Data)》

《使用 Python 和 JavaScript 进行数据可视化》

如何将原始、未处理或格式不正确的数据转换为动态的交互式 Web 可视化效果？在这本实用的书籍中，作者Kyran Dale向数据科学家和分析师以及Python和JavaScript开发人员展示了如何为这项工作创建理想的工具链。通过提供引人入胜的示例并强调来之不易的最佳实践，本指南教您如何利用同类最佳的 Python 和 JavaScript 库的强大功能。Python 提供了可访问、强大且成熟的库，用于抓取、清理和处理数据。虽然JavaScript在编程Web可视化方面是最好的语言，但它的数据处理能力无法与Python相提并论。这两种语言共同构成了创建现代 Web 可视化工具链的完美补充。这本书让你入门。

通过本书您将学习如何：

使用抓取工具或 Web API 以编程方式获取所需的数据：抓取、清理、探索和转换数据
在 NumPy 生态系统中使用 Python 的重量级数据处理库清理和处理数据： Jupyter notebooks with pandas+Matplotlib+Seaborn 将数据传送到带有静态文件的浏览器，或使用轻量级 Python 服务器 Flask，和 RESTful API 掌握足够的Web开发技能（HTML，CSS，JS），以便在Web上获取可视化数据
使用您挖掘和优化的数据通过Plotly，D3，Leaflet和其他库创建Web图表和可视化效果

《数据可视化：用数据探索和解释(Data Visualization: Exploring and Explaining with Data)》

《数据可视化：用数据探索和解释》

《数据可视化：用数据探索和解释》旨在向本科生和研究生介绍数据可视化的最佳实践。这是最早为大学课程设计的数据可视化书籍之一。本书包含有关有效设计、图表类型选择、颜色有效使用、如何直观地探索数据以及如何用数据以令人信服的方式直观地解释概念和结果的材料。这本书解释了数据可视化的“为什么”和“如何”。也就是说，本书通过使用有趣的例子对数据可视化的指导原则进行了清晰的解释。

《用于基因组预测的多元统计机器学习方法（Multivariate Statistical Machine Learning Methods for Genomic Prediction）》

《用于基因组预测的多元统计机器学习方法》

这本书籍汇集了统计学家，育种者和数据科学家目前使用的最新基因组基础预测模型。它提供了一种可访问的方式来理解每个统计学习工具背后的理论、所需的预处理、模型构建的基础知识、如何训练统计学习方法、实现每个统计学习工具所需的基本 R 脚本以及每个工具的输出。为此，本书为每个工具提供了背景理论，R统计软件的一些实现元素，概念基础，以及至少两个说明性示例，其中包含来自真实世界基因组选择实验的数据。最后，制定的例子可以帮助读者检查自己的理解。这本书将极大地吸引植物（和动物）育种的读者，遗传学家和统计学家，因为它以一种非常容易理解的方式提供了必要的理论，适当的R代码和说明性示例，以全面理解每个统计学习工具。此外，它还权衡了每种工具的优缺点。

《数据同化与机器学习的统计物理（The Statistical Physics of Data Assimilation and Machine Learning ）》

《数据同化与机器学习的统计物理》

数据同化是一种非常重要的数学技术，与地球物理学、数据科学和神经科学等多个领域相关。这本现代书籍提供了对该领域的权威处理，因为它涉及多个科学学科，特别强调了机器学习的最新发展及其在优化数据同化中的作用。书中发展了统计物理学的基本理论，如路径积分和蒙特卡罗方法，作为数据同化的基础，然后作者探讨了当前多学科研究的例子，例如浅水系统的建模、海洋动力学和鸟类大脑中的神经元动力学。

本书以通俗易懂、统一的方式介绍了数据同化和机器学习理论，适合没有统计物理专业经验的理工科本科生和研究生。

《工业 4.0 的可解释性：统计和机器学习方法（Interpretability for Industry 4.0 : Statistical and Machine Learning Approaches）》

《工业 4.0 的可解释性：统计和机器学习方法》

本卷书籍为读者提供了紧凑、刺激和多方面的可解释性介绍，这是开发有见地的统计和机器学习方法以及在商业和工业中交流建模结果的关键问题。

在工业4.0的背景下，机器学习工具的可解释性，模型输出的可推广性和敏感性分析的概念提供了不同的观点。此外，本书还探讨了人工智能和增材制造中大数据挖掘和监控的方差鲁棒分析的集成，并通过随机森林和灵活的广义加法模型以及相关软件资源和实际示例对可解释性提出了新的见解。

《机器学习中的统计建模：概念和应用（Statistical Modeling in Machine Learning: Concepts and Applications）》

《机器学习中的统计建模：概念和应用》

《机器学习中的统计建模：概念和应用》介绍了统计学、探索性数据分析和机器学习的基本概念和角色。讨论了机器学习的各个方面以及统计学的基础知识。概念通过简单的示例和图形表示呈现，以便更好地理解技术。本书采用整体方法——将关键概念与机器学习多学科应用的深入理论放在一起。讨论了新的案例研究和研究问题陈述，这将有助于研究人员基于统计学和机器学习的概念在其应用领域。

《机器学习中的统计建模：概念和应用》将帮助统计学家、机器学习从业者和程序员解决各种任务，如分类、回归、聚类、预测、推荐等。

亚利桑那州立大学计算机科学专业大数据系统课程和参考书籍介绍