AI RESEARCH · DATA SCALE

业界主流模型公认的
训练数据规模线

从千亿到数万亿 Token：理解大语言模型的训练数据量级、公开事实与行业估算。

2026.06.18约 8 分钟阅读基础模型

BASELINE / 基础线

当前 AI 行业并不存在由官方统一设定的 LLM 训练数据“基础线”。结合公开技术报告与主流模型的演进，更准确的说法是：现代大型语言模型通常使用千亿至数万亿 Token 的高质量文本、代码与多语种数据；前沿模型还会引入多模态与合成数据。

三个常见数据量级

数据规模不是能力的唯一决定因素，但它提供了一个理解训练投入与模型定位的实用坐标。

01 · FRONTIER

10T–15T+ Token

02 · OPEN WEIGHTS

8T–15T Token

03 · SPECIALIZED

2T–5T Token

DATA COMPOSITION

以下比例是便于规划的经验区间，并非所有模型的固定配方。各类数据存在交叉，实际配置会随目标能力调整。

60–70%通用网络文本严格去重、质量过滤、安全与毒性过滤

10–15%书籍与学术文献支持长逻辑、知识密度与事实依据

10–20%多语种数据增强跨语言与跨文化理解能力

5–10%计算机代码强化逻辑、工具使用与结构化输出

COMPUTE-OPTIMAL TRAINING

Chinchilla 研究给出的经典计算最优经验值约为：每个模型参数对应约 20 个训练 Token。它是给定计算预算下的规划基准，不是任何模型都必须遵守的硬性下限。今天不少模型会进行更长时间的训练，以换取更小模型在推理部署时的效率。

校对后的结论：训练数据没有单一“及格线”。规模、质量、去重、配比与训练目标共同决定结果；公开数据与行业估算应清楚区分。

7 × 10⁹ × 20
= 1.4 × 10¹¹ Token70 亿参数模型 ≈ 1,400 亿 Token