Word2Vec 和 BERT 的本质区别是什么？

Word2Vec 给每个词一个固定向量（静态表示），同一个词在不同语境下向量不变；BERT 给词在特定上下文里的表示（上下文化表示），同一个词在不同句子里向量会不同，更接近“理解”。

负采样（Negative Sampling）为什么重要？

它把原本需要对全词表做 softmax 的训练，近似成“区分正样本与少量负样本”的二分类任务，大幅降低计算量，让 Word2Vec 能在大规模语料上训练。

静态词向量的主要天花板是什么？

多义词与语境依赖：例如“苹果”在水果与公司语境下意义不同，但 Word2Vec 只能给一个向量；此外，静态向量很难把句子级与篇章级信息编码进去。

这条演化路线对今天的 LLM 工程有什么用？

它解释了为什么预训练 + 微调/对齐能通用迁移，也解释了“上下文工程”与“表示能力”的边界：当你遇到多义、长距离依赖或需要结构化推理的任务时，理解表示学习的限制能帮助你做更合理的系统设计。

ALGOWord2VecBERT表示学习NLP

Word2Vec 到 BERT：词向量演化的关键节点（从静态表示到上下文化理解）

词向量的演化不是“换个模型名”，而是从“给词一个固定向量”走向“给词在上下文里一个动态表示”。Word2Vec 解决了高维稀疏的词表示问题，ELMo/BERT 把表示学习推进到上下文化与预训练范式。本文按关键节点梳理路线：Word2Vec（CBOW/Skip-gram、负采样）→ 静态向量的天花板 → 上下文化表示与 Transformer 预训练，并把这些变化翻译成今天 LLM 工程的实际意义。

2026年3月4日

Synthly 团队

预计阅读 19 分钟

📷 Photo by Johannes Plenio via Pexels

先把路线画出来：表示学习的进化不是“更大”，而是“更像理解”

如果只用一句话概括这条路线：

Word2Vec：把词从稀疏 one-hot 变成稠密向量（可计算、可泛化）
上下文化表示（ELMo/BERT）：让词的表示依赖上下文（解决多义、捕捉句法语义）
Transformer 预训练范式：让表示学习成为通用能力底座

今天的大模型工程（prompt、RAG、Agent）很多问题，本质都绕不开“表示能表达什么、不能表达什么”。

一、Word2Vec 解决了什么：让“相似”变成向量空间里的距离

在 Word2Vec 之前，常见问题是：

词用 one-hot 表示，维度巨大且稀疏
“相似词”的相似性无法自然表达
模型参数巨大，泛化差

Word2Vec 的核心思想是：

学一个 embedding 矩阵 $E \in \mathbb{R}^{V \times d}$
每个词对应一个 $d$ 维向量
用上下文预测目标词（或反过来）

于是，语义相似的词会在向量空间里靠近。

1）两种经典结构：CBOW 与 Skip-gram

CBOW：用上下文预测中心词
Skip-gram：用中心词预测上下文

工程上你不需要背公式，但要理解训练信号来自“共现”。

2）为什么负采样是关键：把昂贵 softmax 变成可训练

原始的 softmax 需要对词表 $V$ 全量归一化，代价很高。

负采样把目标变成：

正样本：真实共现对 $(w, c)$
负样本：随机采的非共现对

训练一个二分类器区分正负，从而让训练可扩展。

这也是后续很多大规模训练技巧的共同思路：

不做全量计算
做近似但可控的采样

二、静态词向量的天花板：多义与上下文依赖

Word2Vec 最大的问题不是“不够大”，而是“定义上做不到”。

1）多义词：一个向量装不下多种语义

同一个词在不同语境下意义不同：

“苹果”= 水果 / 公司
“bank”= 银行 / 河岸

Word2Vec 只能给一个向量，结果往往是“平均语义”，对下游任务不友好。

2）句子级信息难以表达

Word2Vec 的训练目标是局部共现，缺少对长距离依赖与结构的建模。

当任务需要：

句法结构
指代消解
跨句信息

静态向量会显得吃力。

三、上下文化表示：从“词向量”到“语境中的词表示”

上下文化表示的核心改变是：

表示不再是 $\text{vec}(word)$，而是 $\text{vec}(word, context)$。

这一步让模型能自然处理多义词：

同一词在不同上下文产生不同向量

1）为什么 Transformer 让这件事更彻底

Transformer 的自注意力机制擅长：

捕捉长距离依赖
在全局上下文里重分配信息

它让“上下文化表示”不仅发生在局部窗口，而是可以覆盖全句甚至更长上下文。

如果你想从工程视角理解注意力机制为何长期占优，可读：

Transformer 到 2026：为什么注意力机制仍是主流

四、BERT 把表示学习推进到“预训练范式”

BERT 的工程意义不只是模型结构，而是范式：

用大规模无标注语料做预训练
在下游任务上微调或用提示词适配

这让表示学习从“为某个任务训练特征”，变成“先学通用表示，再迁移”。

1）对今天 LLM 的直接影响

今天你看到的：

指令微调
对齐
RAG
Agent

很多都是在“通用表示能力”之上做系统工程。

五、把这条演化路线翻译成工程语言：你应该带走哪些结论

1）表示能力决定“上下文工程”的上限

当模型表示对某类结构/关系表达不足时：

你再怎么塞上下文也未必更好
反而可能因为噪声与截断更差

所以你需要：

更好的检索与重排
更好的结构化输入
更明确的输出合同与校验

2）Tokenizer/词表会影响表示学习与成本

表示学习离不开 token。

tokenization 决定序列长度
序列长度影响成本与可建模信息量

这也是为什么理解分词算法很重要：

BPE 分词算法：大模型词表的设计逻辑

3）“相似”不是“事实”：向量近不代表可当证据

Word2Vec 教会我们“相似可以用距离表达”，但工程上要警惕：

相似召回可能带来误召回
误召回会污染生成

因此在 RAG/记忆系统里，必须有重排、过滤与止损。

六、一个面试式总结（你可以背下来）

Word2Vec 把词从 one-hot 变成稠密向量，让相似性可计算；但它是静态表示，解决不了多义与上下文依赖。BERT/Transformer 通过上下文化表示与预训练范式，把表示学习做成通用底座，推动了今天的大模型迁移能力。工程上，这条演化路线提醒我们：表示能力与 tokenization 共同决定了成本与效果，系统设计需要围绕可观测、可评测与可控的输入输出契约来做闭环。

常见问题

我还需要学 Word2Vec 吗？

需要。它是表示学习的“最小模型”，很多现代方法的直觉（共现、采样近似、向量空间）都能从 Word2Vec 找到源头。理解它能让你更快理解为什么某些 RAG/重排策略有效或无效。

词向量在 LLM 时代还重要吗？

重要，只是形式变了。LLM 仍然在学习 token 的表示，只不过表示更深、更上下文化。你理解表示学习，就更容易理解“为什么某些提示词会改变行为、为什么某些检索结果会误导模型”。

想看更多工程化文章见 /articles，也可以在 /apps/new 体验 Agent 能力。

返回文章列表