AI RESEARCH · DATA SCALE
业界主流模型公认的
训练数据规模线
从千亿到数万亿 Token:理解大语言模型的训练数据量级、公开事实与行业估算。
BASELINE / 基础线
当前 AI 行业并不存在由官方统一设定的 LLM 训练数据“基础线”。结合公开技术报告与主流模型的演进,更准确的说法是:现代大型语言模型通常使用千亿至数万亿 Token 的高质量文本、代码与多语种数据;前沿模型还会引入多模态与合成数据。
三个常见数据量级
数据规模不是能力的唯一决定因素,但它提供了一个理解训练投入与模型定位的实用坐标。
01 · FRONTIER
前沿/超大规模模型Frontier Models
10T–15T+ Token
- 代表
- GPT-4、Claude 3、Gemini 1.5 等(具体数据规模未公开)
- 特点
- 覆盖文本、代码、多语种、多模态与高质量合成数据,强调广度与复杂能力。
- 性质
- 行业估算区间,而非统一标准。
02 · OPEN WEIGHTS
主流开放权重模型Mainstream Open-Weights
8T–15T Token
- 代表
- Meta Llama 3(官方披露使用 15T+ Token)、Mistral 系列等。
- 特点
- 常采用超出传统计算最优比例的充分训练,以提升推理、知识覆盖与长文本能力。
- 重点
- 公开技术报告通常提供更可核验的数据口径。
03 · SPECIALIZED
专家/垂直领域模型Specialized & Coder Models
2T–5T Token
- 代表
- 专注于代码或数学的特定模型(如 DeepSeek-Coder 或特定领域微调模型)。
- 特点
- 总体 Token 数可能更少,但数据密度更高,常包含精选教材、专业语料与代码库。
- 重点
- 领域覆盖与数据质量往往比单纯堆量更重要。
DATA COMPOSITION
数据基础线的核心构成
以下比例是便于规划的经验区间,并非所有模型的固定配方。各类数据存在交叉,实际配置会随目标能力调整。
COMPUTE-OPTIMAL TRAINING
如何理解 Chinchilla 定律
Chinchilla 研究给出的经典计算最优经验值约为:每个模型参数对应约 20 个训练 Token。它是给定计算预算下的规划基准,不是任何模型都必须遵守的硬性下限。今天不少模型会进行更长时间的训练,以换取更小模型在推理部署时的效率。
校对后的结论:训练数据没有单一“及格线”。规模、质量、去重、配比与训练目标共同决定结果;公开数据与行业估算应清楚区分。
7 × 109 × 20
= 1.4 × 1011 Token70 亿参数模型 ≈ 1,400 亿 Token
= 1.4 × 1011 Token70 亿参数模型 ≈ 1,400 亿 Token