Word2Vec 到 BERT:词向量演化的关键节点(从静态表示到上下文化理解)
词向量的演化不是“换个模型名”,而是从“给词一个固定向量”走向“给词在上下文里一个动态表示”。Word2Vec 解决了高维稀疏的词表示问题,ELMo/BERT 把表示学习推进到上下文化与预训练范式。本文按关键节点梳理路线:Word2Vec(CBOW/Skip-gram、负采样)→ 静态向量的天花板 → 上下文化表示与 Transformer 预训练,并把这些变化翻译成今天 LLM 工程的实际意义。

📷 Photo by Johannes Plenio via Pexels
先把路线画出来:表示学习的进化不是“更大”,而是“更像理解”
如果只用一句话概括这条路线:
- Word2Vec:把词从稀疏 one-hot 变成稠密向量(可计算、可泛化)
- 上下文化表示(ELMo/BERT):让词的表示依赖上下文(解决多义、捕捉句法语义)
- Transformer 预训练范式:让表示学习成为通用能力底座
今天的大模型工程(prompt、RAG、Agent)很多问题,本质都绕不开“表示能表达什么、不能表达什么”。
一、Word2Vec 解决了什么:让“相似”变成向量空间里的距离
在 Word2Vec 之前,常见问题是:
- 词用 one-hot 表示,维度巨大且稀疏
- “相似词”的相似性无法自然表达
- 模型参数巨大,泛化差
Word2Vec 的核心思想是:
- 学一个 embedding 矩阵 $E \in \mathbb{R}^{V \times d}$
- 每个词对应一个 $d$ 维向量
- 用上下文预测目标词(或反过来)
于是,语义相似的词会在向量空间里靠近。
1)两种经典结构:CBOW 与 Skip-gram
- CBOW:用上下文预测中心词
- Skip-gram:用中心词预测上下文
工程上你不需要背公式,但要理解训练信号来自“共现”。
2)为什么负采样是关键:把昂贵 softmax 变成可训练
原始的 softmax 需要对词表 $V$ 全量归一化,代价很高。
负采样把目标变成:
- 正样本:真实共现对 $(w, c)$
- 负样本:随机采的非共现对
训练一个二分类器区分正负,从而让训练可扩展。
这也是后续很多大规模训练技巧的共同思路:
- 不做全量计算
- 做近似但可控的采样
二、静态词向量的天花板:多义与上下文依赖
Word2Vec 最大的问题不是“不够大”,而是“定义上做不到”。
1)多义词:一个向量装不下多种语义
同一个词在不同语境下意义不同:
- “苹果”= 水果 / 公司
- “bank”= 银行 / 河岸
Word2Vec 只能给一个向量,结果往往是“平均语义”,对下游任务不友好。
2)句子级信息难以表达
Word2Vec 的训练目标是局部共现,缺少对长距离依赖与结构的建模。
当任务需要:
- 句法结构
- 指代消解
- 跨句信息
静态向量会显得吃力。
三、上下文化表示:从“词向量”到“语境中的词表示”
上下文化表示的核心改变是:
表示不再是 $\text{vec}(word)$,而是 $\text{vec}(word, context)$。
这一步让模型能自然处理多义词:
- 同一词在不同上下文产生不同向量
1)为什么 Transformer 让这件事更彻底
Transformer 的自注意力机制擅长:
- 捕捉长距离依赖
- 在全局上下文里重分配信息
它让“上下文化表示”不仅发生在局部窗口,而是可以覆盖全句甚至更长上下文。
如果你想从工程视角理解注意力机制为何长期占优,可读:
四、BERT 把表示学习推进到“预训练范式”
BERT 的工程意义不只是模型结构,而是范式:
- 用大规模无标注语料做预训练
- 在下游任务上微调或用提示词适配
这让表示学习从“为某个任务训练特征”,变成“先学通用表示,再迁移”。
1)对今天 LLM 的直接影响
今天你看到的:
- 指令微调
- 对齐
- RAG
- Agent
很多都是在“通用表示能力”之上做系统工程。
五、把这条演化路线翻译成工程语言:你应该带走哪些结论
1)表示能力决定“上下文工程”的上限
当模型表示对某类结构/关系表达不足时:
- 你再怎么塞上下文也未必更好
- 反而可能因为噪声与截断更差
所以你需要:
- 更好的检索与重排
- 更好的结构化输入
- 更明确的输出合同与校验
2)Tokenizer/词表会影响表示学习与成本
表示学习离不开 token。
- tokenization 决定序列长度
- 序列长度影响成本与可建模信息量
这也是为什么理解分词算法很重要:
3)“相似”不是“事实”:向量近不代表可当证据
Word2Vec 教会我们“相似可以用距离表达”,但工程上要警惕:
- 相似召回可能带来误召回
- 误召回会污染生成
因此在 RAG/记忆系统里,必须有重排、过滤与止损。
六、一个面试式总结(你可以背下来)
Word2Vec 把词从 one-hot 变成稠密向量,让相似性可计算;但它是静态表示,解决不了多义与上下文依赖。BERT/Transformer 通过上下文化表示与预训练范式,把表示学习做成通用底座,推动了今天的大模型迁移能力。工程上,这条演化路线提醒我们:表示能力与 tokenization 共同决定了成本与效果,系统设计需要围绕可观测、可评测与可控的输入输出契约来做闭环。
常见问题
我还需要学 Word2Vec 吗?
需要。它是表示学习的“最小模型”,很多现代方法的直觉(共现、采样近似、向量空间)都能从 Word2Vec 找到源头。理解它能让你更快理解为什么某些 RAG/重排策略有效或无效。
词向量在 LLM 时代还重要吗?
重要,只是形式变了。LLM 仍然在学习 token 的表示,只不过表示更深、更上下文化。你理解表示学习,就更容易理解“为什么某些提示词会改变行为、为什么某些检索结果会误导模型”。