Homestead

AI RESEARCH · DATA SCALE

业界主流模型公认的
训练数据规模线

从千亿到数万亿 Token:理解大语言模型的训练数据量级、公开事实与行业估算。

2026.06.18约 8 分钟阅读基础模型

BASELINE / 基础线

当前 AI 行业并不存在由官方统一设定的 LLM 训练数据“基础线”。结合公开技术报告与主流模型的演进,更准确的说法是:现代大型语言模型通常使用千亿至数万亿 Token 的高质量文本、代码与多语种数据;前沿模型还会引入多模态与合成数据。

三个常见数据量级

数据规模不是能力的唯一决定因素,但它提供了一个理解训练投入与模型定位的实用坐标。

01 · FRONTIER

前沿/超大规模模型Frontier Models

10T–15T+ Token

代表
GPT-4、Claude 3、Gemini 1.5 等(具体数据规模未公开)
特点
覆盖文本、代码、多语种、多模态与高质量合成数据,强调广度与复杂能力。
性质
行业估算区间,而非统一标准。
03 · SPECIALIZED

专家/垂直领域模型Specialized & Coder Models

2T–5T Token

代表
专注于代码或数学的特定模型(如 DeepSeek-Coder 或特定领域微调模型)。
特点
总体 Token 数可能更少,但数据密度更高,常包含精选教材、专业语料与代码库。
重点
领域覆盖与数据质量往往比单纯堆量更重要。

DATA COMPOSITION

数据基础线的核心构成

以下比例是便于规划的经验区间,并非所有模型的固定配方。各类数据存在交叉,实际配置会随目标能力调整。

60–70%通用网络文本严格去重、质量过滤、安全与毒性过滤
10–15%书籍与学术文献支持长逻辑、知识密度与事实依据
10–20%多语种数据增强跨语言与跨文化理解能力
5–10%计算机代码强化逻辑、工具使用与结构化输出

COMPUTE-OPTIMAL TRAINING

如何理解 Chinchilla 定律

Chinchilla 研究给出的经典计算最优经验值约为:每个模型参数对应约 20 个训练 Token。它是给定计算预算下的规划基准,不是任何模型都必须遵守的硬性下限。今天不少模型会进行更长时间的训练,以换取更小模型在推理部署时的效率。

校对后的结论:训练数据没有单一“及格线”。规模、质量、去重、配比与训练目标共同决定结果;公开数据与行业估算应清楚区分。

7 × 109 × 20
= 1.4 × 1011 Token
70 亿参数模型 ≈ 1,400 亿 Token