数据源概述#

大模型训练依赖于大规模、高质量、覆盖广泛的数据源。根据不同阶段(如预训练与后训练)的目标差异,对数据的任务适配性、语言覆盖度、格式一致性等要求也各不相同。

目前主流大模型在预训练阶段通常使用规模达 10T tokens 甚至更高的数据。例如,DeepSeek-V3 使用 14.8T tokens,Qwen3 使用了 36T tokens。相比之下,后训练阶段(如对齐训练、指令微调、RLHF)侧重于人类偏好、任务泛化与响应质量,数据量通常在百万级。

绝大多数高质量开源数据集可在 Hugging Face Datasets 上获取。


通用网页类数据#

主要用于语言模型初始预训练,涵盖广泛领域与话题,但需进行较强的数据清洗与筛选。

数据集

简介

特点

Common Crawl

每月更新的大规模网页抓取数据,原始 HTML 格式,体量达数百 TB

覆盖广泛,高噪声

C4

从 Common Crawl 中清洗提取正文构建,T5 模型使用的数据源

干净文本,适合英文模型预训练

RefinedWeb / FineWeb

对 CC 网页数据进行过滤与质量控制,面向现代语言模型

高质量,结构清晰,适合大规模预训练

OpenWebText

模拟 Reddit 高质量链接对应网页构建,语料较为精炼

社交性强,信息密度高

Pile-CC

Pile 数据集中的网页部分,使用 CC 数据清洗构建

噪声控制好,适合文本生成任务


学术与出版物类数据#

该类数据有助于增强模型的专业知识理解与推理能力,广泛用于 STEM 相关能力提升。

数据集

简介

特点

arXiv

开源学术论文预印本,涵盖物理、数学、CS 等多个领域

内容深度高,结构良好

PubMed

医学研究文献数据库,包含海量疾病、药物、病例等相关数据

医学领域基础语料

Semantic Scholar

语义理解增强的学术数据集,适合摘要、推荐、引文预测等任务

多标签,多任务,结构优良

BookCorpus

收集自网络小说的长篇文本,用于提升模型的长文本建模能力

长上下文,叙事性强

Gutenberg

公共版权的古典英文小说集

文体多样,语言表达丰富


指令与问答数据#

常用于监督微调(SFT)与对齐训练,构建人类对齐的大语言模型必备。

数据集

简介

特点

Alpaca

从 Self-Instruct 蒸馏的 52K 条指令数据

简洁多样,适合微调

Self-Instruct

使用 GPT-3 自动构造并解答的人类指令数据

泛化性强,任务广泛

OpenOrca

高质量问答数据,模仿 OpenAI 的训练流程

拟合 Chat 系统风格

UltraChat

多轮人类指令风格对话集,带有多样角色与任务

对话连续性佳、场景丰富

ShareGPT / GPTeacher

用户共享真实对话数据,对齐真实使用场景

实际对话,语料真实


编程与代码类数据#

该类数据能够有效支持代码生成、理解、补全等编程相关任务,其中绝大部分数据来自 GitHub。

数据集

简介

特点

The Stack

大规模多语言代码语料(15+种编程语言)

可分语言/文件/函数粒度

CodeParrot

从 GitHub 抓取的高质量 Python 代码

专注单一语言,结构良好

HumanEval

包含测试用例的函数生成任务,用于评估代码模型的正确性

标准评测基准,结构规范

StarCoderData

BigCode 项目整理的训练集,包含许可证过滤与安全审查

质量高、兼容 StarCoder 系列

StackOverflow QA

技术问答平台语料,适合编程对话和代码解释等任务

问答结构清晰


多语言数据#

该类数据是多语种或跨语言模型的基础语料,多语言成为主流大模型重点发展方向之一。

数据集

简介

特点

CC100

Common Crawl 派生出的 100 种语言网页语料

语言覆盖广,质量需筛选

WikiMatrix

多语言维基百科句对,适合训练翻译与跨语句子对齐任务

对齐语料,结构统一

Tatoeba

覆盖千种语言的平行语料,适合跨语言嵌入训练

丰富多语种,适合小语种任务

NLLB Dataset

Meta 构建的 No Language Left Behind 多语翻译训练语料

大量高质量句对,翻译模型常用

XGLUE / XTREME

多语言评测与微调数据集,适用于跨语 NLP 能力训练与测试

提供任务迁移的标准基准


多模态数据#

该类数据同时包含文本、图像、视频等,适用于训练 VLM(视觉语言模型)或多模态大模型。

数据集

简介

特点

LAION-400M/5B

开源的大规模图文对数据集,图像+文本描述

可用作 CLIP/BLIP 训练

CC3M / CC12M

Captioned Images 数据,图像与英文描述配对

噪声低,适合训练图像字幕模型

Visual Genome

图像 + 区域 + 关系 + QA 任务数据集

结构复杂,可做多任务学习

COCO Captions

图像 + 5 条描述句的集合,用于生成图像描述

图文精对齐,适合监督学习

VQAv2 / GQA

图像问答数据集,支持模型对图像内容问答

多轮问答、细节推理能力评估

WebVid2M / HD-VILA

视频 + 时间同步字幕,训练视频理解或生成模型

用于 GPT-4V/VideoGPT 等


医学领域数据#

该类数据包含医学,生物文献,医学考试题目,医药数据等。

数据集

简介

特点

PubMed

美国国家医学图书馆的生物医学文献数据库,包含超过 3500 万篇文章的元数据和摘要

涵盖广泛的医学领域,适合医学问答和摘要生成

PMC Open Access

PubMed Central 的开源全文医学论文数据集

高质量医学文本,适合文本生成与推理

MIMIC-III/IV

ICU 病人临床记录数据库(包括病史、化验、出院摘要等)

临床数据丰富,适合临床问答和信息提取

MedQA

医学执照考试风格的问答数据集

多项选择题,适合医学问答推理

MedMCQA

20 万题医学多选问答数据集

高质量医学多选问答,适合推理与评估

HealthSearchQA

从医疗搜索引擎提取的用户查询与回答数据集

搜索式问答对齐,适合医疗搜索引擎问答