AI学习笔记-基础篇

# AI学习笔记-基础篇

# AI基础概念

# 人工智能（AI）

AI（artificial intelligence）是计算机科学（CS）的一个分支，主要目的是设计开发能够执行人类智能才能完成的任务系统。这些系统能够感知环境变化、处理数据、学习规律、做出决策并解决问题。现代AI系统涵盖了从基于规则的专家系统到基于深度学习的神经网络等多种技术。AI的核心目标是开发出能够在复杂环境中自主运行并产生有价值结果的智能系统，能够大幅提升工作效率，甚至脱离人类协助独立完成复杂任务。

# 通用人工智能（AGI）

通用人工智能（artificial general intelligence）是AI发展的最终目标。所谓的通用，是指具备与人类相近或超越人类智能，并且具备跨越各领域学习和处理复杂任务的能力。AGI系统具备全面思考和学习能力，能够理解抽象概念、进行创造性思维、适应新环境并处理未曾遇到的任务。与当前的专用AI系统不同，AGI不局限于特定领域，而是具备广泛的认知灵活性和学习适应性。

# ASI（超级人工智能）

ASI (Artificial Superintelligence，超级人工智能), 指在几乎所有领域，包括科学创造力、泛化能力和社交技能，都远超最聪明人类大脑的智能体。这是一个理论概念，其潜在能力、发展路径（如“智能爆炸”）以及对人类社会的影响，是AI安全和哲学领域的前沿讨论焦点。

# ‌人工智能生成内容（AIGC）

AIGC全称‌人工智能生成内容‌（Artificial Intelligence Generated Content），指基于机器学习算法从海量数据中自主学习并生成文本、图像、音频等多媒体内容的技术。与专家生产内容（PGC）和用户生产内容（UGC）相比，其核心特征包括：‌‌‌自动化生产‌、跨模态输出‌、效率提升‌。

# Gen AI (生成式人工智能)

Generative AI，特指一类能够从数据中学习并生成全新、原创内容的人工智能模型。与判别式模型（用于分类、预测）不同，生成式模型（如GPT、Diffusion Model）旨在理解和模拟数据的联合概率分布，从而可以“无中生有”。这是驱动当前AI浪潮的关键技术范式。

# AI Native (AI原生)

一种产品设计与开发范式，指产品的核心价值主张、用户体验和系统架构都深度依赖并围绕AI能力（特别是大模型的生成、理解和推理能力）构建。它不是对现有产品的功能增强，而是以AI为核心引擎重新构想产品形态，例如Notion AI、Github Copilot和各类AI Agent应用。

# 模型 (Model)

在机器学习中，模型是一个通过算法从数据中学习到的、用于表示输入与输出之间关系的数学函数或计算图。它封装了从数据中提取的“知识”（即参数），可用于对新数据进行预测或生成。模型的表现力、容量和效率由其架构（如神经网络结构）决定。

# 复杂系统（Complex Systems）

复杂系统是由众多相互关联的组件构成的系统，其整体行为无法简单地从个别组件的属性中推导出来。在AI领域，大型神经网络就是典型的复杂系统。这些系统包含数十亿个参数节点，通过复杂的非线性交互产生智能行为。复杂系统的一个关键特征是非线性的，通俗来讲就是系统内部组件是多因素影响，并非传统意义上的单一线性影响，即微小的输入变化可能导致显著的输出差异。

# 涌现能力（Emergent Abilities）

涌现能力是指在AI模型规模达到特定阈值后突然显现出来的新的能力，这些能力在较小规模的模型中无法观察到或预测。当模型参数量、训练数据量或计算量超过某个临界点时，模型会突然展现出新的认知能力，如多步推理、代码理解、创意写作等。这种现象表明AI能力的发展并非线性增长，而是存在质的飞跃节点。涌现并非AI独有的现象，而是自然界普遍存在的规律。当某一物质达到一定规模后，会涌现出单一物质不具备的新能力，这一现象被称为涌现现象。

# 世界模型（World Models）

世界模型是AI系统对现实世界运作机制的内在理解。AI大模型通过训练过程构建了对物理定律、社会规范、因果关系、时间序列等现实世界规律的内在模型。这种世界知识使模型能够进行合理的推理、预测未来状态、理解上下文关系并生成符合现实逻辑的内容。当然，世界模型目前是一种理想，目前并未有非常清晰的路线和方法来实现。目前的AI系统，只是通过文字图片视频语音等信息来理解世界，这种理解只是通过Token关联概率模拟人类思维而已，距离世界模型非常遥远。

# 基础模型（Foundation Model）

基础模型是在大规模多样化数据集上进行预训练的通用AI模型，为后续的特定任务应用提供强大的基础能力。这些模型通过无监督学习获得了广泛的语言理解、知识表示和推理能力，可以通过微调、提示工程等方式适配到具体的应用场景中。

基础模型实际上和大型语言模型（LLM）大多数情况下，是指的相同概念，只不过角色人物和侧重点不一样，大型语言模型更多强调的是参数节点数量巨大。

# 大型语言模型（LLM）

大型语言模型，英文全称Large Language Model，简称LLM。是指参数规模通常在数十亿到数万亿之间的深度神经网络，专门设计用于理解和生成人类语言。目前也是人工智能领域最热门的AI，这些模型通过分析海量文本数据中的统计模式和语义关系，学会了语言的语法结构、语义内容和语用规则。LLM的核心能力包括文本理解、内容生成、语言翻译、问答对话和代码编写等，代表了当前自然语言处理技术的最高水平。目前具有代表性的大模型包括GPT-4，Claude-4，Gemini-2.5等。

# 混合专家模型（MoE）

混合专家模型，是一种能够在保持计算效率的同时，大幅增加模型准确率的架构设计。混合专家模型包含多个专门化的子网络（专家）和门控网络，在处理任何用户输入时只激活其中一部分专家，也就是通过门控网络将任务分解后，激活部分特定专家完成任务。通过这种稀疏激活策略，既确保了任务的精准性，又提升了任务完成效率，MoE模型能够拥有数万亿参数的理论容量，但实际计算成本仅相当于激活专家的总和，实现了参数规模与计算效率的平衡。

# 扩散模型（Diffusion Model）

扩散模型是一类生成式AI模型，在图像和音视频领域广泛应用，通过模拟数据的噪声扩散过程来学习数据分布，简单说就是模型根据用户输入，将数据从无到有，从无序到有序的完成特定图像或音视频生成任务。训练阶段，模型学习如何将噪声逐步添加到原始数据中；生成阶段，模型从随机噪声开始，通过逆向扩散过程逐步去除噪声，最终生成高质量的数据样本。这种方法在图像生成、音频合成等领域取得了卓越的效果，生成内容的质量和多样性都达到了前所未有的水平。

# Transformer架构

Transformer最早由谷歌于2017年在《Attention Is All You Need》论文提出，并且迅速成为自然语言处理（NLP）领域的标配，也是现今所有大模型的核心架构。其革命性的自注意力机制彻底改变了序列建模的方法。与传统的循环神经网络（RNN）不同，Transformer能够并行处理序列中的所有位置，通过注意力权重矩阵捕获任意距离的依赖关系。这种架构设计不仅提高了训练效率，还显著增强了模型对长序列和复杂依赖关系的建模能力。其编码器-解码器结构分别催生了BERT和GPT两大技术路线。

# BERT (Bidirectional Encoder Representations from Transformers)

由Google于2018年提出的基于Transformer编码器的预训练语言模型。其核心创新是“双向”上下文理解，通过掩码语言模型和下一句预测任务进行预训练，能生成深度的上下文相关的词向量。它在提出时刷新了11项NLP任务的纪录，开启了NLP的“预训练+微调”时代。

# 自注意力机制（Self-Attention）

自注意力机制是大模型Transformer架构的核心组件，它可以使模型在处理序列时同时关注到序列中的所有位置。通过计算查询向量、键向量和值向量之间的相似度分数，动态分配注意力权重，使模型能够识别和利用序列中的重要信息和依赖关系。自注意力机制的并行化特性和全局视野使其在处理长序列和复杂语言结构时表现出色，在自然语言处理（如机器翻译、文本摘要）和计算机视觉等领域广泛应用，大幅提升了AI智能。

# 词嵌入（Word Embeddings）

嵌入（Embedding）是把文本、代码等内容转换成数字向量的过程，这些向量能够捕捉内容的语义信息。

词嵌入（Word Embedding）是自然语言处理（NLP）中的一项关键技术，它将词汇表中的词语映射到低维、稠密的实数向量空间。其核心思想是让语义相近的词在向量空间中也相互靠近。通过训练过程，语义相近的词汇在向量空间中的距离也会相近，使计算机能够通过数学运算理解和处理语言的语义关系。词嵌入为神经网络处理自然语言提供了数学基础，是所有现代语言模型的基础组件。

在向量空间中，语义相似的内容会靠得更近。这就是为什么向量数据库能进行语义搜索的原理。

# 向量数据库（Vector Database）

向量数据库是专门设计用于存储、索引和检索高维向量数据的数据库系统。在AI应用中，文本、图像等数据被转换为向量嵌入后存储在向量数据库中，支持基于语义相似性的快速检索。这使得它们在语义搜索、推荐系统、图像检索、异常检测、以及作为检索增强生成（RAG）的关键组件等方面表现出色。向量数据库优化了传统数据库不擅长处理的向量运算和高维索引，是现代AI应用的重要基础设施。

# Token分词（Tokenization）

在自然语言处理中，模型处理文本时使用的基本语义单元。通过分词器将原始文本切割成Token序列，每个Token被映射为一个向量。在英文中，一个Token可能是一个单词或子词；在中文中，通常是一个汉字或词语。模型的输入输出长度、计算成本和部分API计费均以Token数为单位。

在大模型中，token 是处理文本的最小单位，通常可以是一个单词、词组、标点符号、子词或特殊符号。比如中文占用2个token，英文单词大约3/4个token。而k（即"k"）通常表示千个token，用于衡量输入或输出的量。

# Temperature (温度)

一个用于调节模型输出随机性的超参数。它在生成每个Token前，作用于模型输出的原始logits概率分布。Temperature值越高（>1.0），概率分布越平滑，输出越随机、有创意；值越低（接近0），概率分布越尖锐，输出越确定、保守。

# 参数（Parameters）

参数（Parameters）在机器学习和统计模型中，是模型内部用于进行预测或分类的可调节变量。它们是模型从训练数据中学习到的知识的具体体现，其值在训练过程中通过优化算法（如梯度下降）不断调整，以最小化模型在训练数据上的预测误差（损失函数）。

# Qwen3-235B-A22B

Qwen3-235B-A22B 是阿里云推出的大语言模型 Qwen3 的一个具体版本型号。

Qwen3：指的是阿里云的“通义千问”第三代大模型系列。 235B：表示该模型参数量为 2350 亿（Billion），属于超大规模模型。 A22B：是该模型的具体版本号或发布批次标识，用于区分不同的模型微调或优化版本。

1T 参数

“1T 参数”中的 “T” 指的是 “Trillion”，即万亿。“1T 参数”就是指模型拥有 1 万亿（1,000,000,000,000）个参数。

K：千；M：百万；B：十亿；T：万亿

# 提示词 (Prompt)

用户提供给生成式AI模型的输入文本或指令，用于引导和控制模型的输出行为。提示词工程是当前与大模型交互的核心技能，其设计质量直接影响生成结果的准确性和相关性。系统提示词用于设定模型角色和全局行为，用户提示词则表达具体请求。

# 上下文（Context）

上下文是 AI 在回答问题时能够参考的所有信息，包括：当前对话的历史，你打开的代码文件，项目的结构和配置，你提供的参考资料。上下文越丰富、越相关，AI 生成的代码就越符合你的需求。

# 上下文窗口 (Context Window)

上下文窗口是指 AI 模型一次能 “记住” 的内容量，通常用 Token 来衡量。比如 Claude Sonnet 4.5 的上下文窗口是 200K Token，大约相当于 15 万个中文字。上下文窗口越大，AI 能处理的代码量就越多，能记住的对话历史就越长。如果你的项目代码很多，选择上下文窗口大的模型会更合适，比如 Gemini 3 Pro 支持 1M Token。

# 上下文长度（Context Length）

上下文长度，与上下文窗口通常指同一概念，是指模型在单次推理中能够处理的最大token数量，这个限制决定了模型能够"记住"和利用的信息范围。更长的上下文允许模型处理更复杂的任务，如长文档分析、多轮对话记忆和复杂推理链。上下文长度是模型架构的关键参数，直接影响其理解长距离依赖关系、处理复杂指令、生成连贯长文本的能力。较长的上下文窗口允许模型捕捉更广泛的语境，但也通常意味着更高的计算成本和内存需求。因此，扩展上下文长度是当前模型研究的重要方向之一，旨在增强模型处理长序列任务的性能。

# 上下文工程

上下文工程（Context Engineering）是有策略地管理和优化提供给 AI 的上下文信息的技术。

核心目标是 让 AI 拥有恰到好处的信息。既不能太少（导致 AI 不了解情况），也不能太多（导致信息过载、成本上升）。

好的上下文工程包括：选择最相关的文件，提供必要的背景说明，使用规则文件定义项目规范，适时清理无关的对话历史

# 提示词注入 (Prompt Injection)

一种针对大语言模型应用的安全攻击手法。攻击者通过在用户输入中嵌入特殊指令，试图覆盖或绕过开发者预设的系统提示词和指令，从而操纵模型执行非授权操作（如泄露系统提示、越权访问、生成有害内容）。这是构建AI应用时必须防护的关键安全风险。

# 提示词过滤 (Prompt Filtering)

在用户输入传递给核心模型之前，对其进行内容安全和策略合规性检查的预处理步骤。通常基于规则、关键词列表或小型分类模型，用于拦截明显含有恶意、非法、偏见或隐私泄露风险的内容，是构建负责任AI系统的安全护栏之一。

# 规模法则（Scaling Laws）

规模法则描述了模型性能与训练规模（包括参数数量、数据集大小和计算资源）之间的数学关系。研究发现，在一定范围内，这些因素的增加能够以可预测的方式提升模型性能，遵循幂律分布。规模法则为AI系统的设计和资源配置提供了科学依据，指导了大模型发展的技术路线和投资决策。

# 预训练（Pre-training）

预训练是在大规模无标注文本数据上进行的自监督学习过程，模型通过预测序列中的下一个token来学习语言的统计规律和语义知识。这个阶段使模型获得了基础的语言理解能力、世界知识和推理能力。预训练的质量和数据多样性直接影响模型的基础能力水平，为后续的任务特化提供了坚实基础。之后，该模型可在特定下游任务（如文本分类、图像识别）上，利用少量标注数据进行微调（Fine-tuning），从而显著提升任务性能、加快收敛速度并增强泛化能力。BERT、GPT及许多视觉模型均采用此策略。

# 微调（Fine-tuning）

微调是在预训练模型基础上，使用特定任务的标注数据进行针对性训练的过程。通过调整模型参数，使其适应特定领域的语言特点、任务要求和输出格式。微调过程相比预训练需要更少的数据和计算资源，但能够显著提升模型在目标任务上的表现，实现从通用能力到专业应用的有效转换。通过微调，模型能够将预训练阶段学到的通用知识迁移并特化到具体应用场景，从而以较少的数据和训练成本，快速达到较高的性能水平，实现知识的有效利用和模型的快速适配。

# SFT (Supervised Fine-Tuning，监督微调)

一种主流的微调方式，使用高质量的人类标注数据对预训练模型进行有监督的训练。这些数据通常由指令和期望的输出配对构成。SFT是使模型学会遵循人类指令、理解任务格式、并产生符合人类偏好的高质量输出的关键对齐技术。

# LoRA (Low-Rank Adaptation，低秩适应)

一种高效的参数微调方法。其核心思想是假设模型微调过程中的参数更新具有低秩特性，因此不直接更新庞大的原始模型参数，而是通过注入可训练的低秩分解矩阵来间接实现。它能大幅减少可训练参数量和内存占用，几乎不影响推理速度。

# QLoRA (Quantized Low-Rank Adaptation，量化低秩适应)

LoRA的进一步优化版本。它在微调前，首先将基础模型的权重量化为4-bit等低精度格式以节省内存，然后在反向传播时使用一种技术实时反量化回高精度以计算梯度，并只更新LoRA适配器。这使得在单张消费级GPU上微调650亿参数级别的模型成为可能。

# RLHF（人类反馈强化学习）

人类反馈强化学习是一种通过人类偏好数据来优化语言模型行为的训练方法。该过程首先训练一个奖励模型来预测人类对模型输出的偏好评分，然后使用强化学习算法优化语言模型以最大化奖励分数。通俗来说，就是设计一个人类认知偏好的奖励模型，用这个奖励模型来给基础模型提供反馈，进而优化基础模型性能的一种训练方法。RLHF能够使模型输出更加符合人类价值观和使用期望，提高响应的有用性、安全性和诚实性。

# 少样本学习（Few-shot Learning）

少样本学习是指模型仅通过少量标注数据就能快速适应新任务的能力。大型语言模型展现出了强大的少样本学习能力，能够在提示中理解任务要求、学习输入输出格式，并生成符合期望的结果，而无需修改模型参数。这种能力使模型能够快速适应新的应用场景，大大降低了部署和使用的门槛。FSL对于降低数据标注成本、解决冷启动问题、以及在数据稀疏领域（如医学影像、珍稀物种识别）的应用至关重要，是实现更通用、更高效人工智能的关键技术之一。

# 提示工程（Prompt Engineering）

提示工程是指用户与大模型AI交互的一种方法，通过设计和优化输入指令以获得理想输出的技巧方法。有效的提示工程包括明确的任务描述、相关的背景信息、合适的输出格式要求和具体的示例展示。通过精心设计的提示，可以显著提升模型在特定任务上的表现，甚至使模型展现出超出其基础训练范围的能力。良好的提示工程能显著提升模型在特定任务上的表现，如文本生成、摘要、翻译、代码编写等，并减少不相关或错误的输出。

# 思维链（CoT）

Chain-of-Thought (CoT)，思维链是一种引导大模型进行逐步推理的提示工程技术，通过要求模型展示从问题到答案的完整思考过程，来提高复杂问题的解决能力。这种方法特别适用于需要多步逻辑推理的任务，如数学问题求解、逻辑分析和复杂决策。思维链技术显著提升了模型在需要深度思考的任务上的准确性和可解释性。模拟了人类解决问题的方法步骤，通过思考过程和任务分解等方法来解决复杂任务。

# 基准测试（Benchmarks）

基准测试是评估AI模型能力和性能的标准化测试集合，涵盖了语言理解、逻辑推理、知识问答、代码生成等多个维度。知名的基准测试包括MMLU（大规模多任务语言理解）、HellaSwag（常识推理）、HumanEval（代码生成）等。这些测试为模型比较、能力评估和技术进展追踪提供了客观的量化标准。我们平常所看到的大模型不同版本发布时，都会直接提供各类测试得分和排序，以此来表示新版本模型在哪些能力上有提升。

# 困惑度（Perplexity）

困惑度PPL是衡量语言模型对文本序列预测不确定性的指标，数值越低表示模型的预测越准确。困惑度反映了模型对语言分布的建模质量，是评估生成模型性能的重要量化指标。在模型训练过程中，困惑度的变化趋势可以用来监控训练进度和判断模型收敛状态。困惑度依赖于词表大小和分词方式，因此比较不同模型的困惑度时，需确保在相同数据集和预处理条件下进行。

# 鲁棒性（Robustness）

鲁棒性是指AI模型在面对输入扰动、对抗性攻击或数据分布变化时保持稳定性能的能力。鲁棒的模型能够妥善处理拼写错误、语法变化、恶意输入、域外数据等挑战性情况。一个鲁棒的模型对于未预料到的或“非理想”输入表现出较强的容错性和适应性，不会轻易产生大幅性能下降或错误预测。例如，在图像识别中，对图像轻微旋转、亮度变化或添加微小噪声后，鲁棒模型仍能正确分类。提高模型鲁棒性对于确保AI系统在真实世界应用中的可靠性和安全性具有重要意义。

# 量化（Quantization）

量化是通过降低模型参数的数值精度来减少存储需求和计算成本的优化技术。常见的量化方法包括将32位浮点数转换为16位、8位甚至更低精度的整数表示。有效的量化技术能够在保持模型性能的同时显著减少内存占用和推理延迟，使大型模型能够在资源受限的环境中部署。

# 延迟（Latency）

延迟是指AI从接收输入请求到产生完整输出响应的时间间隔，是衡量AI系统实用性的关键性能指标。

# 幻觉（Hallucination）

幻觉是指大模型生成表面看似合理但实际上错误或虚假信息的现象。这种问题源于模型的统计学习本质，它可能将训练数据中的模式错误泛化或填补知识空白时产生不准确的内容。幻觉产生的原因复杂，可能源于训练数据中的偏见或噪声、模型对知识的错误编码、推理能力的局限，或是在生成长文本时难以保持事实一致性。它并非模型“有意欺骗”，而是其基于概率生成文本时可能出现的缺陷。幻觉问题影响了AI系统在需要高准确性场景中的可信度，是当前大模型技术面临的主要挑战之一。

# 红队测试（Red Teaming）

红队测试是一种主动寻找AI系统安全漏洞和潜在风险的对抗性评估方法。测试人员通过各种创造性的方法尝试触发模型的不当行为，包括越狱攻击、提示注入、有害内容诱导等。红队测试旨在模型部署前或迭代过程中，识别并理解其故障模式，以便开发者能针对性地修复缺陷，提高系统的安全性和鲁棒性。

# 可解释性AI（XAI）

可解释性AI致力于使AI系统的决策过程变得透明、可理解和可解释。由于深度神经网络的复杂性和非线性特征，理解模型如何得出特定结论是一个重大技术挑战。可解释性AI对于建立用户信任、满足监管要求、改进模型性能和确保AI系统负责任使用具有重要意义。

参考： AI概念解析：从入门到精通的36个关键术语指南 (opens new window)

# 流式输出 (Streaming Output)

一种模型推理结果的传输方式。服务器在生成第一个Token后即刻开始向客户端传输，实现逐词或逐句的实时输出效果。这能显著降低用户感知延迟，改善交互体验，其技术实现依赖于服务器对HTTP流式传输和模型生成过程的有效管理。

# Top-k

一种解码（生成）策略。在生成每个Token时，模型只从概率最高的k个候选Token中进行采样。这限制了采样池的大小，在保持多样性的同时，过滤掉极低概率的荒谬选项。较小的k值使输出更集中，较大的k值则更多样化。

# Max Tokens (最大生成长度)

在模型推理时设定的，控制单次生成回复最大长度的硬性限制参数。它防止模型因问题开放或陷入重复循环而生成过长的、消耗资源的无关内容，也是管理API调用成本的重要手段。

# Infra (Infrastructure，基础设施)

支撑AI全生命周期（数据准备、模型训练、推理部署、监控）的底层硬件和软件平台的总称。硬件包括GPU/TPU集群、高速网络和存储；软件包括云计算平台、容器编排系统、机器学习平台和开发框架。稳定高效的Infra是AI规模化应用的前提。

# 算力 (Computing Power)

执行AI计算任务（尤其是涉及大规模矩阵运算的深度学习）所需的计算能力总量。通常以每秒浮点运算次数来衡量。海量算力是训练前沿大模型的“入场券”，主要由大规模GPU/TPU集群提供，构成了AI研发的主要成本之一。

# 推理 (Inference)

不同于reason, 指将训练好的模型应用于新的、未见过的数据，以产生预测或生成结果的过程。在LLM中，即指模型根据输入提示词生成回复的前向传播计算过程。推理的性能（速度、吞吐量、延迟）和成本是评估模型实用性的关键。

# 推理加速 (Inference Acceleration)

通过软硬件协同优化技术，提升模型推理效率、降低延迟和成本。硬件层面包括使用专用AI推理芯片、GPU优化；软件层面包括模型压缩、量化、编译优化、算子融合和批处理等技术。目标是实现高吞吐、低延迟的服务水平协议。

# 量化模型

量化模型是将数理统计学应用于科学数据的分析方法，通过构建数学模型连接理论与观测数据，并借助推断方法验证模型的有效性。其核心是通过参数化、数据筛选及数值模拟等手段，实现客观的定量化研究。

# MoE (Mixture of Experts，混合专家模型)

一种模型架构设计范式。它将一个大模型分解为多个相对较小的“专家”子网络，并引入一个“门控网络”为每个输入Token动态地选择和组合最相关的几个专家。这种设计实现了模型的“稀疏激活”，即仅激活部分参数来处理每个输入，从而能以较少的计算成本（FLOPs）支撑极大的模型参数量。

# 蒸馏 (Knowledge Distillation，知识蒸馏)

一种模型压缩技术。其核心思想是训练一个较小的“学生模型”去模仿一个更大、更复杂的“教师模型”的行为或输出分布（包括“软标签”）。目标是让轻量化的学生模型在性能上逼近教师模型，从而便于在实际场景中部署。

# 量化 (Quantization)

一种模型压缩和加速技术。它将模型权重和/或激活值从高精度数据类型（如32位浮点数）转换为低精度类型（如8位整数）。这能显著减少模型存储空间、内存占用和计算延迟，但可能引入精度损失，需要细致的校准和评估。

# 标注 (Annotation)

数据预处理的核心环节，指人工或半自动地为原始数据（如图像、文本、语音）添加标签、边界框、关键点等结构化信息，以创建用于训练监督学习模型的“标注数据集”。高质量、大规模的标注数据是驱动AI模型性能提升的关键燃料之一。

# 标签 (Label)

在监督学习中，与训练数据样本相关联的真实值或目标输出。它是模型学习要预测的目标。例如，在图像分类中，一张猫的图片对应的标签就是“猫”。标签的质量和一致性直接影响最终模型的性能上限。

# 合成数据 (Synthetic Data)

通过计算机模拟、生成模型（如GAN、Diffusion）或规则引擎人工创造的数据，而非从现实世界直接观测收集。它用于补充或替代真实数据，解决数据稀缺、隐私保护、长尾场景覆盖和数据平衡等问题，正成为AI数据供应链的重要一环。

# 可解释性 (Interpretability) / 可理解性 (Explainability)

AI领域的一个重要研究方向，旨在开发方法和技术来理解、解释和呈现机器学习模型的内部工作机制、决策依据和预测结果。其目标是增强人类对AI系统的信任、便于调试改进、并满足高风险领域（如医疗、金融）的监管合规要求。

# 置信度 (Confidence)

模型对其做出的单个预测结果的确信程度的量化指标。对于分类模型，通常输出为属于各个类别的概率，其中最高概率值可作为置信度。低置信度预测往往意味着模型在该样本上不确定性高，可能需要人工复审。

# 知识图谱 (Knowledge Graph)

一种用于表示结构化知识的大规模语义网络。它由“实体-关系-实体”构成的三元组组成，并以图的形式存储和关联。知识图谱为机器提供了可计算、可推理的背景知识，是提升AI系统认知和理解能力的关键基础设施，广泛应用于搜索、推荐和智能问答。

# 知识工程 (Knowledge Engineering)

指构建和维护知识库、知识图谱等知识系统的完整流程。它包括从多种来源（文本、数据库、专家）获取知识、进行形式化表示、建立推理规则、并持续更新和验证。在深度学习兴起前，是构建专家系统的主要方法。

# 意图识别 (Intent Recognition)

自然语言理解中的一项核心任务，旨在从用户的自然语言表述中，自动识别其背后的目的或意图类别。这是对话系统、智能助手和搜索系统的关键组件，通常被建模为一个文本分类问题。

# ReAct模式

推理与行动的统一框架。ReAct（Reasoning and Acting）模式是现代Agent系统的核心架构模式，通过将推理过程与具体行动紧密结合，实现了更加可靠和可解释的智能决策。

ReAct 框架是非常流行的 agent 框架，其结合了推理（reasoning）和行动（acting），其流程大概是让 llm 推理完成任务需要的步骤，然后根据环境和提供的工具进行调用，观察工具的结果，推理下一步任务。就这样推理-调用-观察交错调用，直到模型认为完成推理，输出结果。

ReAct 的意义是在于，这个框架将 llm 的推理能力、调用工具能力、观察能力结合在一起，让 llm 能适应更多的任务和动态的环境，并且强化了推理和行动的协同作用。因为 agents 在执行过程中，会把思考和推理过程记录下来，所以具有很好的透明度和可解释性，提高了用户对输出结果的可信度。

# Human in the Loop：人机协作的最佳实践

Human in the Loop（HITL）强调在自动化流程中加入人工监督和干预，确保AI系统在复杂业务场景下的可控性和准确性

# 推理大模型

推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。

例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

# 非推理大模型

适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。

例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译

维度	推理模型	通用模型
优势领域	数学推导、逻辑分析、代码生成、复杂问题拆解	文本生成、创意写作、多轮对话、开放性问答
劣势领域	发散性任务（如诗歌创作）	需要严格逻辑链的任务（如数学证明）
性能本质	专精于逻辑密度高的任务	擅长多样性高的任务
强弱判断	并非全面更强，仅在其训练目标领域显著优于通用模型	通用场景更灵活，但专项任务需依赖提示语补偿能力

提示语的基本结构包括:

指令（Instruction)：这是提示语的核心，明确告诉AI你希望它执行什么任务。
上下文（Context)：为AI提供背景信息，帮助它更准确地理解和执行任务。
期望（Expectation)：明确或隐含地表达你对AI输出的要求和预期。
输出格式：期望的输出格式，如JSON、Markdown等。

# 显卡 (Graphics Card)

个人电脑中搭载GPU的核心硬件板卡。因其GPU强大的并行浮点计算能力，早期被“征用”进行AI计算。高端游戏显卡也曾是深度学习研究和小规模训练的主流硬件。显卡是包含GPU芯片的完整硬件组件，通常还包括显存、供电、散热、显示输出接口等。GPU是显卡上的核心处理芯片。

# GPU (Graphics Processing Unit，图形处理器)

图形处理器（Graphics Processing Unit，GPU），又称显示核心（display core），显示芯片（display chip），视觉处理器（video processor），是一种用于处理图像和图形运算工作的协处理器。

一种最初为并行图形渲染设计的处理器，因其SIMD架构非常适合深度学习所需的密集、可并行的矩阵运算，已成为AI计算领域事实上的主导硬件。其强大的算力和成熟的生态（如CUDA）是深度学习革命的重要推动力。

GPU作为硬件领域一个重要的分支，在科学计算、人工智能、游戏开发等领域应用广泛。商用GPU主要包括NVIDIA Geforce系列、AMD Radeon系列和 NVIDIA Tesla系列等，它们在图像处理等应用领域提供了高逼真的渲染效果，在科学计算等研究领域提供了强大的计算能力。

包含数千个简化核心，专注于同时执行大量相似计算任务（如AI训练、图像处理）。

# CUDA

GPU（图形处理器）的“成千上万的多核”指的是其内部的计算核心（CUDA核心），这些核心专门用于并行计算任务，尤其适合AI训练和推理等需要大量矩阵运算的工作负载。

CUDA（Compute Unified Device Architecture） 是NVIDIA的并行计算平台，而CUDA核心是GPU上的专用计算单元，主要用于执行简单的算术运算（如加减乘除）。现代GPU（如NVIDIA的H100）通常拥有数万个CUDA核心。例如：

H100 GPU：拥有18000多个CUDA核心16。
A100 GPU：拥有8000多个CUDA核心6。

这些核心的数量远超传统CPU的核心数量（如4核、8核等），使得GPU在并行计算任务中表现出色。

# CPU

中央处理器（Central Processing Unit，简称CPU）作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。强调通用性和逻辑控制，擅长串行计算和复杂任务调度（如操作系统管理、程序流程控制）。

核心数量较少（通常4-32核），但单个核心性能强，支持多级缓存和复杂指令集。

# 芯片 (Chip)

GPU中的芯片特指为加速AI计算（训练和推理）而设计的专用处理器。它们针对矩阵乘加等张量运算进行架构优化，以提供远超通用CPU的能效比。代表产品包括NVIDIA的GPU、Google的TPU、华为的昇腾，百度的昆仑芯等。

CPU的芯片有MAC早期的Intel系列，与多数Windows电脑相同；后面自研的的Apple Silicon系列。

# Text2SQL

一项将用户的自然语言问题自动转换为结构化查询语言的技术。它使非技术用户能够通过自然对话直接查询数据库，是自然语言交互领域的重要应用。其挑战在于准确理解用户意图并将其映射到复杂的数据库模式和SQL语法。

# OCR (Optical Character Recognition，光学字符识别)

一种将图像中的文字区域检测出来，并将其转换为机器可编码文本的技术。现代OCR系统通常基于深度学习，包含文本检测和文本识别两个核心步骤，广泛应用于文档数字化、车牌识别、票据处理等场景。

# ASR (Automatic Speech Recognition，自动语音识别)

将人类语音信号自动转换为对应文本内容的技术。它是语音交互的入口，其核心是声学模型和语言模型的结合。端到端深度学习模型（如基于RNN-T, Transformer）已成为主流，在会议转录、实时字幕、语音助手等领域关键应用。

# TTS (Text-to-Speech，文本转语音)

将书面文本转换为自然流畅的语音信号的技术。现代神经TTS系统（如Tacotron, VITS）基于深度学习，能够合成出接近真人音质、富有表现力的语音，广泛应用于语音助手、有声内容制作、无障碍阅读等场景。

# 《深入浅出剖析AI》学习笔记

# AI的基本概念

ML机器学习
- DL深度学习
  - 判别式学习
  - 生成式AI

机器学习

监督学习：图像分类，语音识别
- 标注好的数据
- 分类，回归
无监督学习：用户分群，异常检测
- 无标注数据
- 聚类，分布
半监督学习
- 小部分标注

泛化能力：不仅仅需要记住训练数据，还要在没有见到的数据上表现得更好

深度学习

神经元 =》多层神经网络
非线性函数
输入层 =》隐藏层 =》输出层

判别式模型：更关注边界；注重分类，识别；训练更快，准确度更高
生成式模型：更关注分布；注重创造；推理复杂，训练时间长；文本，语音，代码补全；GenAI

- 自回归模型:大语言模型，GPT；token预测，难做并行，推理慢
- 自编码器模型：图像和视频；先编码再解码
- 扩散模型：noise噪声，训练慢，生成图片质量高
- GAN：生成对抗网络；不稳定，生成多样性强
  - 生成器：生成假数据
  - 判别器：判断是真实数据还是造的假数据

大语言模型：GPT，claude，deepseek；底层都是 Transformer 架构

预训练阶段：采集世面上已有的各种各样的数据，训练大模型
微调阶段：在子任务上得到最优的效果

Transformer架构

自注意力
多头的注意力
前馈的神经网络
残差连接，层归一化

生成式AI落地方向

文生文：GPT,
文生图：DALL-E
文生视频：Stable Diffusion
文生3D：shape X
文生任务：AI智能体

# Transformer

GPT：Generative Pre-trained Transformer，生成式预训练网络结构

语言 =》序列sequence

以前处理序列：

RNN:循环神经网络
LSTM:长短期记忆网络缺点：信息遗忘；并行差；长距离依赖弱

Transformer的作用：

Self-Attention替换循环的结构，让当前的词能够看到所有的其他词，不再受距离限制；
矩阵运算，能高度并行，支持GPU的大规模并行训练；
多层堆叠去捕捉复杂的语义信息，实现对长文档的全局建模能力；

Transformer的结构：

词向量嵌入和位置编码：词没有顺序，在输入时是平行的；每个位置生成一个向量；最终输入为：嵌入向量+位置编码；
多头的注意力：Self-Attention；每个词通过Q,K,V来进行信息交换，
- 判断每个词之间的相似度，当前词应该关注谁，可看见其他词；并根据语义相关性，去进行加权组合；Q为去问应该关注谁
- K代表其他词的回答：你应该去注意我吗
- V,value,如果你关注我，那你就参考这个信息

有很多的自注意力模块，每一个模块关注的是不同的信息：词、语法、上下文、语言类型，通过拆解不同的自注意力模块以及让每一个模块去关注不同的类型，来提升整个模型对于任务的建模和表达能力，进而提升模型泛化能力

前馈的神经网络
残差连接，层归一化
- 残差连接指跳过路径来加快梯度传播
- 层归一化主要保证训练的稳定

当前transfomer block => 下一个 transfomer block，或直接进入输出层，进行生成或判别等任务

GPT架构

Decoder-only, 自回归的形式，逐词去生成序列；如给定前n个词，去预测n+1个词
掩码自注意力，也叫因果注意力，只关注当前词之前的词，当前词之后的词，是看不到的；

transformer为什么这么强？

并行效率快：矩阵运算，能高度并行，支持GPU的大规模并行训练；
全局建模能力强；
架构通用：文本、图像、视频、语音等；
已标准化

# AI四象限

X轴：我不知道 =》我知道
y轴：AI不知道 =》AI知道
第一象限：AI知道，我知道：文章润色
第二象限：AI知道，我不知道：提问，学习
第三象限：AI不知道，我不知道：共创
第四象限：AI不知道，我知道：RAG，本地部署

# 大模型蒸馏

老师喂给学生：

hardLabel: 正确答案
softLabel: 正确答案的概率分布
temperature: 温度，控制概率分布的平滑程度，越大越平滑，越小越陡峭

蒸馏优点：

模型小，部署轻便
推理速度快
成本更低
部署更广

蒸馏缺点：

知识丢失（应对方法：中间层，数据增强，多轮蒸馏）
超参数敏感：比如温度t设置不当，可能蒸馏效果不好
蒸馏后模型评估不全面

# 大模型上下文窗口

128k Token

系统提示词：角色设定，任务描述
安全机制，防御机制，隐藏的行为规则和过滤器
工具调用记录：查天气,发邮件...
检索文档的内容
历史聊天记录
有效对话内容

中间遗忘效应：模型首先关注首部和尾部的信息，中间的信息容易被稀释

# 大模型的幻觉

听起来像是真的事情，但其实都是大模型编的；看起来是逻辑顺畅，但事情错误，无中生有。

产生幻觉的原因：

数据质量：海量的数据，但数据质量参差不齐；模型不是去理解这个句子想表达什么，而是去理解这个词后面跟的词最大概率是哪一个
生成机制：给定前缀的序列token X1到Xn,模型目标是去最大化下一个词的概率 PX n+1;

贪婪搜索：只取概率最高的那个词；稳定输出，但存在重复输出
topK：从前k个词里面随机的选取；能提升多样性，但会引入幻觉
温度系数T：T越高，则输出越随机

输入的上下文：如果提示词不明确，模型会脑补出一些幻觉信息

避免幻觉：

提示词变得精准；越具体越好
few-shot: 给模型一些例子，让模型去学习；
合理的温度: T在0.2到0.5；topK<=30
检索增强：RAG；
做一些后处理的校验：代码规则、使用规则，对模型输出结果进行校验和过滤

# 大模型学习路线

明确目标

初级：理解大模型，用API去调各种大模型；
中级：理解模型的训练和优化，会用Lara做一些指令微调；
高级：需要有独立模型的优化和部署能力；能够开发一个对话系统或者agent;

理论

深度学习的基础知识：前馈神经网络FFN，梯度传播
理解语言模型的整体演进：RNN =》LSTM =》Transformer（自注意力机制：量变到质变的关键）
模型训练的优化和加速：LayerNorm，KV-Cache
分词：BPE，WordPiece

模型的认知

BERT、GPT、Lama这些模型的结构差异和设计理念；
为什么大多数模型用 Decoder-only：推理效率高、步数简单、延迟低

训练和对齐

预训练阶段：如何采集数据，如何清洗数据、去重数据，如何构造结构化数据；
训练阶段：学习率调度Lr，优化器选择，混合精度训练，梯度累积
微调阶段：LoRA，QLoRA，Prompt Tuning...,能完整执行一轮SFT指令微调；
了解RLHF（它的三个步骤），DPO（直接偏好优化）

工程化：把模型部署下来，跑通，并取得好的效率

掌握模型压缩：蒸馏、量化、剪枝
分布式训练：数据变并行，模型并行，流水线并行，ZeRo技术优化方式
推理部署：KV缓存优化、动态batch调整，服务化封装，容灾体系

聚焦前沿应用

构建RAG系统：结合向量数据库，实现知识增强的对话体验
打造agent系统：工具调用，多个agent的协作机制
扩展多模态能力：使用CLIP、BLIP去处理一些图文信息，进行视觉语言的融合
评估和优化：内容理解、幻觉识别、有害内容过滤、隐私保护；建立模型版本管理机制，接入用户反馈

# 模型微调SFT

在大模型经过通识教育的情况下，对大模型进行专项教育

pre-trained + data + SFT =》专家模型

如何做微调？

参数优化：LoRA技术：训练很少的参数
数据：小而精、准确的数据
领域约束：逻辑约束，比如法律条款的前后一致性

QLoRA

Q,量化；通过压缩的形式让它去减少显存的占用
LoRA：只去调关键的层，显存能减少到90%

PE: Prompt Engineering

LlamaFactory: 一站式微调

# 扩散模型 Diffusion Model

正向过程: 原始干净的图像，一步步的加噪声，变成噪声图像
逆向过程: 噪声图像，一步步的去噪声，变成原始图像

模型需要在每个阶段精准地去预测出要被去除的噪声

训练过程：

提示词文本 + 初始的噪声 =》模型 =》预测出下一步要减掉的噪声是什么，从而学习到文本与图像的对应关系

扩散模型就是从噪声中，去找回原始图像的去噪过程。

原理简单，稳定，可控性强

# AI Agent

构建高级 AI agent 的基础：

经验学习 experience：根据过往交互调整下一步的行为模式
外部工具调用：调用外部的工具调用来扩展自身的能力边界
规划能力：指定多步骤的计划，再动态调整

经验学习

target + 环境观测 =》 action => 观测2 =》 action2 => ...

上下文窗口 context window

检索：跟我当前行为相关的更大的内容找到，放到上下文窗口里面，作为背景知识，辅助我当前的行为，比如RAG
写入的策略：让知识库里有足够有效的信息，不是各种冗余信息
更好的构建方式：比如知识图谱

外部工具调用

外部工具能极大的扩展 ai agent 的能力边界，能执行原本没法完成的内容；如果有私域数据和企业的关键信息，需要自己定制化的开发一些工具去获取这些信息

规划能力

分析：通过对用户目标的分析，来理解最终期望达到的状态
制定计划
执行计划
调整计划

# AI数据集

训练集：老师上课用的教材；让模型寻找数据的规律

验证集：课后试验，帮助学生查漏补缺；验证模型好坏，方便及时调整参数

测试集：大考，验证学习成果；测试训练好的模型，测试在没有看到的数据上的泛化能力

目标：提高模型泛化能力，不是死记硬背训练集

交叉验证：让模型换个角度看数据

留出法 Holdout: 很快速，分割方式影响大
留一法 Leave-One-Out：每次用一个数据去测试，用剩下的去训练；非常精准，但计算量比较大
K折交叉验证 k-Fold：把数据分成K份，每次用其中一份作为测试集，用剩下的K-1份作为训练集，k次循环后综合评估模型性能；更稳定，更能测泛化能力

数据管理趋势

采集 =》清洗 =》标注 =》管理

对轮数据循环使用
动态验证集选择
知识覆盖率分析
数据去重和数据污染检测

# RAG

检索增强生成

大模型经典问题：

幻觉：爱瞎编
知识老旧

prompt => 去数据库检索 =》生成 => 模型 => 输出

信息有来源、知识有更新、逻辑有支撑

# MCP

chatbot AI => agent AI

prompt => MCP Client => MCP Server => Resource、Tools

可插拔性、可发现性、可组合性

#AI

上次更新: 3/18/2026, 12:19:45 AM