Steel-LLM是一个从零开始预训练中文大模型的项目。我们的目标是使用1T+的数据预训练一个1B左右参数量的中文LLM,对标TinyLlama,项目从开始到微调出第一版模型耗时了8个月。我们分享了数据收集、数据处理、预训练框架选择、模型设计等全过程,并开源全部代码。让每个人在有8~几十张卡的情况下都能复现我们的工作。得益于开源中文数据,Steel LLM在中文benchmark上表现优于一些大几倍的机构发布的LLM,最终在ceval达到了38分,cmmlu达到了33分。
🤗 Hugging Face 🤖 modelscope 📑 Blog 🌐公众号:炼钢AI
"Steel(钢)"取名灵感来源于华北平原一只优秀的乐队“万能青年旅店(万青)”。乐队在做一专的时候条件有限,自称是在“土法炼钢”,但却是一张神专。我们训练LLM的条件同样有限,但也希望能炼出好“钢”来。
[2024/10/29] 基于Steel-LLM后续进行sft优化(主要集中在sft样本筛选)和强化学习的训练。
[2024/10/28]更新了第一版chat模型,在ceval达到了38分,cmmlu达到了33分。
[2024/10/24]🔥发布了Steel-LLM微调和评估的细节。微调时探索了cot、模型刷榜等实验。博客地址:https://mp.weixin.qq.com/s/KK0G0spNw0D9rPUESkHMew🔥
[2024/9/2] HuggingFace更新了480k、660k、720k、980k、1060k(最后一个checkpoint)step的checkpoint。
[2024/8/18] 预训练已经完成,后续进行微调以及评测
[2024/7/18] 使用8*H800继续训练,wandb:https://api.wandb.ai/links/steel-llm-lab/vqf297nr
[2024/6/30] 放出预训练200k个step的checkpoint,huggingface链接
[2024/5/21] 模型开启正式训练,后续不定期放出checkpoint。
[2024/5/19] 基于Qwen1.5完成模型修改,模型大小1.12B:
- FFN层使用softmax moe,相同参数量下有更高的训练速度
- 使用双层的SwiGLU
相关博客:https://zhuanlan.zhihu.com/p/700395878
[2024/5/5] 预训练程序修改相关的博客:https://zhuanlan.zhihu.com/p/694223107
[2024/4/24] 完成训练程序改进:兼容Hugginface格式模型、支持数据断点续训、支持追加新的数据
[2024/4/14] 完成数据收集与处理,生成预训练程序所需要的bin文件。更新数据收集与处理相关的博客:https://zhuanlan.zhihu.com/p/687338497
zhanshijin的知乎:https://www.zhihu.com/people/zhan-shi-jin-27
lishu14的知乎:https://www.zhihu.com/people/a-xun-58-5
欢迎加入交流群,人数已超过200,添加微信入群:a1843450905
使用的数据集和链接如下所示,更详细的介绍请看此篇文章
- Skywork/Skypile-150B数据集
- wanjuan1.0(nlp部分)
- 中文维基过滤数据
- 百度百科数据
- 百度百科问答数据
- 知乎问答数据
- BELLE对话数据
- moss项目对话数据
- firefly1.1M
- starcoder
- 源数据:针对三类数据进行格式统一的转化处理。
- 简单文本:百度百科(title和各段落需要手动合并)、中文维基
- 对话(含单轮与多轮):百度百科问答数据、BELLE对话数据(BELLE_3_5M)、moss项目对话数据、知乎问答数据
- 任务:BELLE任务数据(BELLE_2_5M)、firefly1.1M
- 代码数据:starcode
- 目标格式:
{"text": "asdfasdf..."}
,文件保存为.jsonl类型。 - 运行方式:
python data/pretrain_data_prepare/step1_data_process.py
我们使用data-juicer处理文本时,不改变数据格式。
-
运行方式:
sh data/pretrain_data_prepare/step2/run_step2.sh
-
选用的文本处理算子
算子 | 描述 |
---|---|
chinese_convert_mapper | 用于在繁体中文、简体中文和日文汉字之间进行转换(借助 opencc) |
clean_email_mapper | 删除邮箱信息 |
clean_html_mapper | 删除 HTML 标签并返回所有节点的纯文本 |
clean_ip_mapper | 删除 IP 地址 |
clean_links_mapper | 删除链接,例如以 http 或 ftp 开头的 |
clean_copyright_mapper | 删除代码文件开头的版权声明 (:warning: 必须包含单词 copyright) |
expand_macro_mapper | 扩展通常在 TeX 文档顶部定义的宏 |
fix_unicode_mapper | 修复损坏的 Unicode(借助 ftfy) |
punctuation_normalization_mapper | 将各种 Unicode 标点符号标准化为其 ASCII 等效项 |
remove_repeat_sentences_mapper | 删除样本中的重复句子 |
remove_specific_chars_mapper | 删除样本中的特殊字符(用户自定义) |
whitespace_normalization_mapper | 将各类空格归一转换为英语空格 |
alphanumeric_filter | 保留字母数字比例在指定范围内的样本 |
average_line_length_filter | 保留平均行长度在指定范围内的样本 |
character_repetition_filter | 保留 char-level n-gram 重复比率在指定范围内的样本 |
maximum_line_length_filter | 保留最大行长度在指定范围内的样本 |
perplexity_filter | 保留困惑度低于指定阈值的样本 |
special_characters_filter | 保留 special-char 比率的在指定范围内的样本 |
text_length_filter | 保留总文本长度在指定范围内的样本 |
word_repetition_filter | 保留 word-level n-gram 重复比率在指定范围内的样本 |
document_simhash_deduplicator | 使用 SimHash 在文档级别对样本去重 |
- 选用的代码处理算子
算子 | 描述 |
---|---|
clean_copyright_mapper | 删除代码文件开头的版权声明 (:warning: 必须包含单词 copyright) |
clean_email_mapper | 删除邮箱信息 |
clean_links_mapper | 删除链接,例如以 http 或 ftp 开头的 |
fix_unicode_mapper | 修复损坏的 Unicode(借助 ftfy) |
punctuation_normalization_mapper | 将各种 Unicode 标点符号标准化为其 ASCII 等效项 |
alphanumeric_filter | 保留字母数字比例在指定范围内的样本 |
average_line_length_filter | 保留平均行长度在指定范围内的样本 |
character_repetition_filter | 保留 char-level n-gram 重复比率在指定范围内的样本 |
maximum_line_length_filter | 保留最大行长度在指定范围内的样本 |
text_length_filter | 保留总文本长度在指定范围内的样本 |
word_num_filter | 保留字数在指定范围内的样本 |
word_repetition_filter | 保留 word-level n-gram 重复比率在指定范围内的样本 |
document_simhash_deduplicator | 使用 SimHash 在文档级别对样本去重 |
需要先在代码中修改filename_sets,指定数据路径:
python pretrain_modify_from_TinyLlama/scripts/prepare_steel_llm_data.py
输入数据格式为:包含'text'字段的jsonl文件
不单独训练tokenizer,使用Qwen/Qwen1.5-MoE-A2.7B-Chat的tokenizer
基于Qwen1.5模型,进行了如下改动:
- FFN层使用softmax moe,相同参数量下有更高的训练速度
- 使用双层的SwiGLU
基于TinyLlama预训练程序进行如下改进:
- 兼容HuggingFace格式的模型
- 加载checkpoint时,完全恢复数据训练的进度
- 数据一致性检测
- 在不影响已训练数据的情况下,在数据集中追加新的数据
启动预训练:
python Steel-LLM/pretrain_modify_from_TinyLlama/pretrain/pretrain_steel_llm.py
Steel-LLM在CEVAL和CMMLU上进行了测试。Steel-LLM旨在训练一个中文LLM,80%的训练数据都是中文,因此并没有在英文benchmark上进行评测。 其他模型的指标来自于CEVAL论文、MiniCPM技术报告、MAP-Neo技术报告等途径。更多模型的指标可查看之前的博客
CEVAL | CMMLU | |
---|---|---|
Steel-LLM | 38.57 | 33.48 |
ChatGPT | 51.0 | - |
GPT4 | 66.4 | - |
ChatGLM-6B | 38.9 | - |
Moss | 33.1 | - |
LLAMA-65B | 34.7 | - |
Tiny-Llama-1.1B | 25.02 | 24.03 |
Qwen-7B | 58.96 | 60.35 |
Gemma-7B | 42.57 | 44.20 |
Qwen-1.8B | 49.81 | 45.32 |
mini-CPM-1.2B | 49.14 | 46.81 |
Phi2(2B) | 23.37 | 24.18 |
OLMo-7B | 35.18 | 35.55 |
MAP-NEO-7B | 56.97 | 55.01 |
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "zhanshijin/Steel-LLM"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "你是谁开发的"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=
5B3D
True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
GPU:8* H800 80G
GPU:8* A100 80G
硬盘:4TB