《AI Engineering: Building Applications with Foundation Models》---从模型到产品：揭秘AI工程的关键技术与设计思路

作者：

日期：2025-08-03

出版：

作品总结

一、什么是AI工程？它和传统的机器学习工程有何不同？

首先，AI工程是一个新兴领域，专注于用基础模型“搭积木”式地建设AI应用。和传统机器学习工程师从头训练模型不同，AI工程师更多是在现成的大型预训练模型上做“再加工”，结合实际需求进行调整和优化。

为什么会这样？因为现在最先进的基础模型如GPT、Google Gemini、Midjourney等非常庞大，训练它们不仅耗费巨大的计算资源和数据，只有少数大公司负担得起。因此，模型本身成了“按需租用”的服务（Model-as-a-Service），任何开发者都可以基于这些基础模型构建属于自己的AI产品，门槛大大降低。

这个转变带来了两个重要的影响：

机会变多了：基础模型强大，能胜任语言、图像、写作、对话等多种复杂任务，大大扩展了AI应用的可能性。
风险和挑战增加了：基础模型本身的复杂和不透明也带来了严格的评估和质量控制需求，否则应用可能产生严重错误。

二、基础模型背后的设计与挑战

了解基础模型设计的关键，是学会如何选对模型并基于它打造有效的应用。虽然书中不会教你打造新的大型模型，但会帮你理解现有模型的重要设计要素：

训练数据选择：不同模型用的数据分布决定了它们的能力边界，比如多语种支持、特定领域知识等。
模型结构与规模：比如Transformer架构的变种和参数数量，直接影响性能和计算资源消耗。
后期精调（Post-Training）：将模型调整到更符合人类需求，如通过监督微调或偏好微调提升表现和安全性。

关键在于：你不用去训练模型，但必须理解这些因素，才能在有限资源和时间内选择最合适的模型并用好它。

三、AI工程中的评估方法：规避风险的核心环节

基础模型虽然强大，但它们也常常“胡编乱造”，“幻觉”问题（hallucination）造成的错误导致了许多社会责任事故和法律纠纷。

评估AI输出的质量是保证产品可靠性的核心技术点。书中介绍了多种评估方法：

传统指标：如困惑度（Perplexity）、交叉熵等统计学指标，可衡量模型的语言理解能力。
功能性正确性评价：检测模型输出是否符合预期任务，比如数学求解、事实准确性等。
AI作为裁判（AI as a Judge）：用小型模型自动评分或对结果排序，这种自动评测方式近年来发展迅速，能大幅减轻人力压力。
比较评估：通过对比多模型或多版本结果筛选最佳方案。

同时，评估不是孤立环节，必须融入整个系统设计中，定位系统可能失败的关键点，做好针对性测试。

四、模型适配方法：从Prompt到微调（Finetuning）

AI工程设计的核心工作之一是如何改造和调整基础模型：

Prompt Engineering（提示工程）
最简单、成本最低的技术。通过设计合适的“提问方式”和上下文，指导模型输出所需结果。比如给模型设计清晰的指令、分步骤任务、示例等。
但提示设计也讲究技巧，需要系统实验和评价，反复调优才能做到精准高效。
检索增强生成（RAG）和智能代理（Agents）
当模型自己知识有限时，可通过RAG从外部数据库检索相关信息补充上下文，减少误答。
Agent则更强大，不仅可检索信息，还能调用外部工具、搜索网络，实现自动化操作和动态交互。
微调（Finetuning）
通过额外训练调整模型的一部分或全部参数，针对特定任务或领域进行深度定制。
优势是效果好且灵活，但训练成本高，算力需求大。微调技巧也在不断发展，追求参数高效、计算友好。

AI工程师会根据应用需求和资源限制，在这些方法间做权衡选择。

五、数据工程：打造高质量数据集的秘诀

“数据为王”依然是真理，优质数据是模型效果的决定性因素。数据工程不仅仅是收集，更是对数据的策划、增强和质量控制。

数据策划：弄清楚需要什么数据、数量多少、覆盖哪些场景。
数据质量：清洗、去重、注释准确，避免噪声影响模型训练。
数据增强和合成：利用AI技术生成补充数据，弥补样本稀缺。
数据处理：统一格式，便于训练和评估。

随着基础模型规模增大，数据处理越来越复杂，对人才和基础设施的需求也大幅提升。

六、推理速度和成本优化：用户体验的关键

AI模型功能再强，若运行缓慢或成本高昂，也会影响用户体验和商业可行性。

推理优化涵盖三方面：

模型优化：轻量化模型架构，剪枝、量化等技术。
硬件优化：利用专用AI加速芯片，提高计算效率。
服务层优化：调度资源，根据请求负载动态扩展，缓存常用结果降低延迟。

这需要多学科团队合作，结合应用特点，设计合理方案。

七、架构设计和用户反馈

AI应用的架构不是一蹴而就，必须逐步迭代：

简单起步，及时收集用户反馈，根据反馈改进。
引入上下文增强、响应守护措施，防止模型失控。
增加模型路由、缓存机制，升级为多模式智能代理。

设计良好的反馈采集和处理机制，把用户对话数据转化成模型提升的宝贵资源。

关键要点

AI工程利用现成的基础模型构建应用，降低了开发门槛，适合更多人参与。
重要技术包括提示工程、RAG（检索增强生成）、微调和数据集工程等。
科学研究设计方法如AI作为评判者的评估方式和从简单到复杂的应用开发框架。
市场趋势显示AI产品需求增加，模型即服务（MaaS）模式普及，但也带来更多失败风险。

AI工程与基础模型的应用

AI工程是一种新兴的工程学科，专注于利用现成的基础模型来快速构建AI应用。基础模型如ChatGPT或Google的Gemini，已经预训练好，能够处理多种任务，比如文本生成、图像识别或代码编写。相比传统机器学习工程需要从头训练模型，AI工程更像去超市买现成的食材，直接做菜，降低了开发门槛，让更多人，包括没有AI经验的初学者，也能参与进来。

关键技术和科学研究设计方法

书中详细讲解了几种重要技术：

提示工程：通过设计输入引导模型输出，比如告诉模型“用中文写一首关于春天的诗”，它就能生成相应内容。
RAG（检索增强生成）：让模型从外部数据源获取信息，生成更准确的输出，像是一个“智能助手”帮你查资料。
微调：进一步训练模型适应特定任务，比如医学问答，但需要更多资源。
数据集工程：确保训练数据高质量，包括数据采集、清洗和合成，数据是模型性能的关键。

科学研究设计方法包括：

评估开放式模型：用AI作为评判者来评估模型输出，解决传统评估的复杂性。
开发框架：提供从简单到复杂的步骤，帮助开发者逐步构建AI应用。

市场发展趋势

当前AI产品需求激增，模型即服务（MaaS）模式让AI从深奥的学科变成人人可用的工具。但随着使用增加，失败风险也上升，比如聊天机器人可能误导用户，因此评估和安全性变得更重要。未来可能出现“模型市场”，帮助开发者快速选模型，数据合成技术也会更普及。

详细报告：AI工程与基础模型的应用解析

引言

在2025年8月3日的今天，AI技术正以前所未有的速度发展。《AI Engineering: Building Applications with Foundation Models》由Chip Huyen撰写，是一本全面探讨AI工程的指南，特别适合中文读者理解和应用。这本书不仅讲解了如何利用基础模型构建AI应用，还结合了市场趋势和技术洞察，帮助读者掌握AI工程的核心知识和实践方法。以下报告将详细解析书中提到的工程技术、科学研究设计方法和市场发展趋势，力求清晰、吸引人，并适合转换为视频讲解形式。

AI工程概述

AI工程是一种新兴的工程学科，专注于利用现成的基础模型来构建AI应用。基础模型是指那些已经预训练好的大型AI模型，如ChatGPT、Google的Gemini或Midjourney。这些模型能够处理多种任务，比如文本生成、图像识别、代码编写等。传统机器学习工程通常需要从头开始训练模型，这需要大量的数据、计算资源和专业知识。而AI工程则不同，它利用这些现成的模型，通过简单的适应和定制，就能快速构建出AI应用。

这种方法大大降低了AI开发的进入门槛。根据书中介绍，模型即服务（model-as-a-service，MaaS）模式让AI从一个深奥的学科变成了任何人都能使用的强大开发工具。甚至连那些没有或只有最少AI经验的人，现在也可以通过简单的操作来构建AI应用。比如，你可以直接调用API，使用ChatGPT的模型来开发一个聊天机器人，而不需要自己训练一个模型。

AI工程与传统机器学习工程的区别在于，前者更注重如何有效地使用现成的模型来解决实际问题，而后者更注重模型的开发和训练。简单来说，传统机器学习工程像是在自己种菜，而AI工程则是去超市买现成的食材，直接做菜。这种转变不仅加速了AI应用的开发，也让更多人能够参与进来。

AI工程的栈可以分为三个层次：

基础模型：这是AI工程的基石，比如大型语言模型（LLMs）或其他预训练模型。
模型适应：包括提示工程、RAG、微调等技术，用于让模型适应特定的任务。
应用开发：将适应后的模型集成到实际应用中，比如聊天机器人或自动化工具。

与传统的全栈工程不同，AI工程师需要同时理解模型的特性和应用的需求。这使得AI工程成为一个快速成长的交叉学科，吸引了越来越多的关注。

理解基础模型

基础模型是AI工程的核心，它们是大型预训练模型，能够处理各种任务。书中第二章详细讲解了基础模型的关键因素，包括训练数据、模型架构和后续训练。

训练数据：模型的性能很大程度上取决于它训练的数据。比如，多语言模型是通过包含多种语言的数据训练的，而特定领域模型（如医疗或金融）则是通过相关领域的专业数据训练的。训练数据的分布和质量直接决定了模型的能力和局限。
模型架构：大多数基础模型都基于Transformer架构，这是近年来AI领域的主流技术。虽然架构选择看似有限，但模型的大小（参数数量）会显著影响其性能。更大的模型通常更强大，但也更耗资源。
后续训练：基础模型在发布前通常会经过“对齐”训练（alignment），让其输出更符合人类的偏好和伦理标准，比如减少生成不适当的内容。

理解这些因素有助于开发者选择合适的模型并有效地适应它们。比如，如果你想开发一个医疗问答应用，可能需要选择一个在医疗数据上微调过的模型。

市场趋势显示，随着基础模型的普及，越来越多的公司和个人开始使用这些模型来构建应用。这不仅降低了AI应用的开发成本，也加速了AI技术的普及。然而，由于训练基础模型的门槛极高，未来可能会出现“模型寡头”——只有少数公司能够开发高性能的基础模型，而其他人则依赖这些模型提供的服务。

评估方法与AI系统评估

评估是AI工程中至关重要的一环。随着AI的广泛应用，AI失败的风险也增加了。比如，聊天机器人可能误导用户，生成虚假信息，甚至导致严重的后果，如自杀案例或法律纠纷。因此，评估模型的性能和安全性变得尤为重要。

书中第三章和第四章详细讨论了评估方法和AI系统评估。评估开放式模型（如LLMs）是一个复杂挑战，因为它们可以生成无限的输出。常见的评估指标包括：

困惑度（perplexity）：衡量模型对输入的“困惑”程度，值越低，模型越好。
AI作为评判者：使用另一个AI模型来评估目标模型的输出。这种方法越来越流行，因为它可以处理开放式任务，但也存在偏见和不一致性。

在实际应用中，评估还需要考虑具体任务的需求。比如，如果你开发一个数学问答应用，需要评估模型在数学推理上的准确性；如果是聊天机器人，则需要关注生成内容的连贯性和安全性。

市场趋势显示，未来AI评估将成为一个独立的行业。越来越多的公司会开发专门用于评估AI模型的工具和基准测试。这不仅是为了确保AI的安全性，也是为了提高AI应用的可信度。随着基础模型数量的增加，选择合适的模型变得越来越复杂，可能会出现专门的“模型市场”，帮助开发者快速找到适合自己任务的模型。

关键技术：提示工程、RAG和微调

书中详细讲解了几种重要的模型适应技术，这些技术是AI工程的核心。

提示工程：通过设计输入来引导模型产生所需输出的技术。它是适应模型的最简单方法之一。比如，你可以给模型一个指令：“请用中文写一首关于春天的诗”，模型就会生成相应内容。虽然提示工程看起来很简单，但要做好却不容易。好的提示应该清晰明确，提供足够的上下文，并逐步分解复杂任务。书中强调，提示工程需要系统的实验和评估，类似于机器学习实验的严谨性。
RAG（检索增强生成）：RAG是一种让模型从外部数据源（如数据库或网页）检索信息，从而生成更准确输出的方法。它像是一个“助手”，帮助模型获取它不知道的信息。比如，在回答问题时，RAG可以先从维基百科检索相关信息，再生成答案。这种方法特别适合需要实时信息的场景。
微调：微调是通过进一步训练模型来适应特定任务的方法。它可以提高模型在特定领域的能力，比如医学问答或代码生成。但微调需要更多的资源和数据，比如高质量的训练数据集和强大的计算能力。书中讨论了微调与RAG的对比：微调更专注于特定任务，但成本高；RAG更灵活，但可能不如微调精确。

市场趋势显示，提示工程、RAG和微调正在成为AI应用的热门技术。未来，可能会出现自动化提示工程工具，帮助开发者快速生成高质量的提示；RAG和代理模式则会推动AI应用在实时信息和复杂决策场景中的创新。

数据集工程与推理优化

数据集工程是AI工程中另一个关键环节。书中第八章详细讨论了数据的重要性。高质量的训练数据是模型性能的关键，没有好的数据，再好的模型也无法发挥作用。数据集工程包括：

数据采集：从各种来源获取数据。
数据清洗：去除噪声和重复数据，确保数据质量。
数据增强和合成：通过技术生成更多数据，尤其是AI驱动的合成技术，可以解决数据隐私和获取难度的挑战。

推理优化则是提高模型在实际应用中的速度和效率的方法。书中第九章讨论了模型压缩、量化和服务优化等技术。这些技术特别重要，因为如果模型运行太慢，用户可能会失去耐心，甚至影响应用效果。

市场趋势显示，随着数据隐私和获取难度的增加，数据合成技术正在兴起。未来，随着边缘计算的普及，AI模型将越来越多地部署在本地设备上，这要求模型更小、更快、更高效。

AI工程架构与用户反馈

书中第十章讨论了如何构建完整的AI系统架构。一个完整的AI系统包括多个组件：模型、数据管道、评估系统和用户反馈机制。书中提供了从简单到复杂的架构演进路径，帮助开发者逐步构建高性能的AI系统。

用户反馈对于对话式AI应用尤为重要。比如，聊天机器人需要不断根据用户反馈改进输出。如何有效收集和利用反馈，是AI工程师需要重点考虑的问题。书中强调，用户反馈不仅是改进模型的数据来源，也是提升用户体验的关键。

市场发展趋势

根据书中介绍，当前AI产品需求激增，模型即服务（MaaS）模式让AI从深奥的学科变成人人可用的工具。但随着使用增加，失败风险也上升，比如聊天机器人可能误导用户，生成虚假信息，甚至导致严重的后果。因此，评估和安全性变得更加重要。

未来可能出现以下趋势：

模型市场的兴起：随着基础模型数量增加，可能会出现专门的“模型市场”，帮助开发者快速选模型。
数据合成的普及：数据隐私和获取难度的增加将推动数据合成技术的发展。
边缘计算的应用：AI模型将越来越多地部署在本地设备上，要求更小、更快、更高效。

科学研究设计方法

在AI工程中，科学的研究设计方法至关重要。书中提到以下几个方面：

评估开放式模型：使用AI作为评判者来评估模型输出，创新性地解决了传统评估的复杂性。比如，可以用一个AI模型来判断另一个模型的生成内容是否准确。
从简单到复杂的框架：书中提供了一个开发框架，帮助开发者从简单的提示工程开始，逐步过渡到复杂的RAG和微调技术。这种方法适合初学者，也能帮助经验丰富的工程师优化应用。
模型适应技术：提示工程、RAG、微调、代理和数据集工程等，都是科学研究设计的重要工具。这些技术不仅提高了模型的性能，也推动了AI应用的创新。

吸引中文读者的标题建议

为了吸引中文读者，建议以下两个标题：

《AI工程师的必备手册：从基础模型到实战应用》
- 强调实用性和全面性，吸引希望学习AI工程的读者。
《解锁AI潜力：用基础模型构建下一代应用》
- 突出创新性和未来趋势，吸引对AI前沿技术感兴趣的读者。

总结

《AI Engineering: Building Applications with Foundation Models》是一本非常实用的书，它不仅提供了AI工程的核心知识，还结合了市场趋势和技术洞察，帮助读者理解AI应用的过去、现在和未来。无论你是AI初学者还是资深工程师，这本书都能为你提供宝贵的启发。希望今天的分享能帮助你更好地理解AI工程，并激发你探索这一领域的兴趣！

参考资料

书籍描述：https://www.oreilly.com/library/view/ai-engineering/9781098166298/
GitHub资源：https://github.com/chiphuyen/aie-book
Amazon评论：https://www.amazon.com/AI-Engineering-Building-Applications-Foundation/dp/1098166302

0条评论

作品标签

客服咨询

400 093 7005

周一至周日：09:00AM-21:00PM

微信扫码关注

小程序扫码注册