返回文章列表
ALGOWord2VecBERT表示学习NLP

Word2Vec 到 BERT:词向量演化的关键节点(从静态表示到上下文化理解)

词向量的演化不是“换个模型名”,而是从“给词一个固定向量”走向“给词在上下文里一个动态表示”。Word2Vec 解决了高维稀疏的词表示问题,ELMo/BERT 把表示学习推进到上下文化与预训练范式。本文按关键节点梳理路线:Word2Vec(CBOW/Skip-gram、负采样)→ 静态向量的天花板 → 上下文化表示与 Transformer 预训练,并把这些变化翻译成今天 LLM 工程的实际意义。

2026年3月4日
Synthly 团队
预计阅读 19 分钟
词向量演化:从静态 Word2Vec 到上下文化 BERT 表示的路径示意图

📷 Photo by Johannes Plenio via Pexels

先把路线画出来:表示学习的进化不是“更大”,而是“更像理解”

如果只用一句话概括这条路线:

  • Word2Vec:把词从稀疏 one-hot 变成稠密向量(可计算、可泛化)
  • 上下文化表示(ELMo/BERT):让词的表示依赖上下文(解决多义、捕捉句法语义)
  • Transformer 预训练范式:让表示学习成为通用能力底座

今天的大模型工程(prompt、RAG、Agent)很多问题,本质都绕不开“表示能表达什么、不能表达什么”。


一、Word2Vec 解决了什么:让“相似”变成向量空间里的距离

在 Word2Vec 之前,常见问题是:

  • 词用 one-hot 表示,维度巨大且稀疏
  • “相似词”的相似性无法自然表达
  • 模型参数巨大,泛化差

Word2Vec 的核心思想是:

  • 学一个 embedding 矩阵 $E \in \mathbb{R}^{V \times d}$
  • 每个词对应一个 $d$ 维向量
  • 用上下文预测目标词(或反过来)

于是,语义相似的词会在向量空间里靠近。

1)两种经典结构:CBOW 与 Skip-gram

  • CBOW:用上下文预测中心词
  • Skip-gram:用中心词预测上下文

工程上你不需要背公式,但要理解训练信号来自“共现”。

2)为什么负采样是关键:把昂贵 softmax 变成可训练

原始的 softmax 需要对词表 $V$ 全量归一化,代价很高。

负采样把目标变成:

  • 正样本:真实共现对 $(w, c)$
  • 负样本:随机采的非共现对

训练一个二分类器区分正负,从而让训练可扩展。

这也是后续很多大规模训练技巧的共同思路:

  • 不做全量计算
  • 做近似但可控的采样

二、静态词向量的天花板:多义与上下文依赖

Word2Vec 最大的问题不是“不够大”,而是“定义上做不到”。

1)多义词:一个向量装不下多种语义

同一个词在不同语境下意义不同:

  • “苹果”= 水果 / 公司
  • “bank”= 银行 / 河岸

Word2Vec 只能给一个向量,结果往往是“平均语义”,对下游任务不友好。

2)句子级信息难以表达

Word2Vec 的训练目标是局部共现,缺少对长距离依赖与结构的建模。

当任务需要:

  • 句法结构
  • 指代消解
  • 跨句信息

静态向量会显得吃力。


三、上下文化表示:从“词向量”到“语境中的词表示”

上下文化表示的核心改变是:

表示不再是 $\text{vec}(word)$,而是 $\text{vec}(word, context)$。

这一步让模型能自然处理多义词:

  • 同一词在不同上下文产生不同向量

1)为什么 Transformer 让这件事更彻底

Transformer 的自注意力机制擅长:

  • 捕捉长距离依赖
  • 在全局上下文里重分配信息

它让“上下文化表示”不仅发生在局部窗口,而是可以覆盖全句甚至更长上下文。

如果你想从工程视角理解注意力机制为何长期占优,可读:


四、BERT 把表示学习推进到“预训练范式”

BERT 的工程意义不只是模型结构,而是范式:

  1. 用大规模无标注语料做预训练
  2. 在下游任务上微调或用提示词适配

这让表示学习从“为某个任务训练特征”,变成“先学通用表示,再迁移”。

1)对今天 LLM 的直接影响

今天你看到的:

  • 指令微调
  • 对齐
  • RAG
  • Agent

很多都是在“通用表示能力”之上做系统工程。


五、把这条演化路线翻译成工程语言:你应该带走哪些结论

1)表示能力决定“上下文工程”的上限

当模型表示对某类结构/关系表达不足时:

  • 你再怎么塞上下文也未必更好
  • 反而可能因为噪声与截断更差

所以你需要:

  • 更好的检索与重排
  • 更好的结构化输入
  • 更明确的输出合同与校验

2)Tokenizer/词表会影响表示学习与成本

表示学习离不开 token。

  • tokenization 决定序列长度
  • 序列长度影响成本与可建模信息量

这也是为什么理解分词算法很重要:

3)“相似”不是“事实”:向量近不代表可当证据

Word2Vec 教会我们“相似可以用距离表达”,但工程上要警惕:

  • 相似召回可能带来误召回
  • 误召回会污染生成

因此在 RAG/记忆系统里,必须有重排、过滤与止损。


六、一个面试式总结(你可以背下来)

Word2Vec 把词从 one-hot 变成稠密向量,让相似性可计算;但它是静态表示,解决不了多义与上下文依赖。BERT/Transformer 通过上下文化表示与预训练范式,把表示学习做成通用底座,推动了今天的大模型迁移能力。工程上,这条演化路线提醒我们:表示能力与 tokenization 共同决定了成本与效果,系统设计需要围绕可观测、可评测与可控的输入输出契约来做闭环。


常见问题

我还需要学 Word2Vec 吗?

需要。它是表示学习的“最小模型”,很多现代方法的直觉(共现、采样近似、向量空间)都能从 Word2Vec 找到源头。理解它能让你更快理解为什么某些 RAG/重排策略有效或无效。

词向量在 LLM 时代还重要吗?

重要,只是形式变了。LLM 仍然在学习 token 的表示,只不过表示更深、更上下文化。你理解表示学习,就更容易理解“为什么某些提示词会改变行为、为什么某些检索结果会误导模型”。

想看更多工程化文章见 /articles,也可以在 /apps/new 体验 Agent 能力。