8000 GitHub - Mxoder/Maxs-Awesome-Datasets: Max的有趣数据集 / Max's awesome datasets
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

Mxoder/Maxs-Awesome-Datasets

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Max's Awesome Datasets

logo

一个有意思的数据集集合

简介

这个仓库收录了我个人自建的数据集,所有数据集均已上传至 Hugging Face,欢迎使用和提出建议。

我的 Hugging Face 主页:huggingface.co/Mxode

本仓库与数据集将会持续更新,如果你觉得我的数据集有用,可以点个 star 鼓励一下!

News

[25/05/09] 发布了 Chinese-Instruct-Lite,一个简化版本的中文指令数据集,主题广泛,涵盖代码、数学、通用等领域,数据量 8.1M+,适合用于学习从零训练中文大模型

[25/04/27] 发布了 「十万个为什么」,一个中文百科开放问答数据集,涵盖SFT 指令微调、DPO 偏好强化学习、R1 类推理蒸馏任务,数据量超过 600 万,非常适合用于学习从零训练中文大模型

[25/04/23] 发布了 Psychologist-psiholog-zh_ru,一个中俄双语心理咨询数据集

[25/04/23] 发布了 Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery,一个中文农林牧渔问答数据集

[25/04/22] 清洗整理了 IndustryInstruction-Chinese,一个中文行业指令数据集

展开更多

[25/04/21] 发布了 Chinese-Reasoning-Distil-Data,一个中文推理蒸馏数据集

[25/04/21] 像猫猫一样思考!发布了推理数据集 Meow-Reasoning-100K,全部是猫猫的思考和回复

[25/04/21] 发布了 Chinese-StackOverflow-QA-C_Language,一个中文 StackOverflow C 语言问答数据集

[25/04/21] 发布了 Chinese-OpenQA-Reasoning-50K,一个中文开放式问答推理数据集

[25/04/21] 发布了 Math-Chinese-DeepSeek-R1-10K,一个中文 DeepSeek-R1-Distil 数学指令微调数据集

[25/04/21] 发布了 Chinese-Medical-Instruct-1M,一个中文医疗指令微调数据集

[25/04/19] 发布了 Chinese-Instruct,一个大规模、多领域的高质量中文微调数据集,目前数据量 3M+

[25/04/18] 抽取重整了 Fineweb-Edu-Chinese-V2.1 的两个子集

[24/09/09] 发布了大规模中英合成翻译数据集 BiST,目前数据量 50M+,未来将继续扩充

[24/09/07] 清洗重整了 IndustryCorpus 的子集,中英双语:IndustryCorpus-Subset-zh-en

[24/09/07] 发布了 Firefly-1.1M-Rephrased,包含单轮数据集多轮数据集

[24/09/06] 发布了 Magpie-Pro-10K-GPT4o-mini,一个英文指令微调数据集

AF54

[24/01/07] 发布了 一只猫猫的说话语录

[23/10/03] 发布了 CSDN-Community-C-Language-3years,为 CSDN - C 语言社区 2020.10.2 ~ 2023.10.2 的问答数据

[23/10/02] 发布了 StackOverflow-QA-C-Language-40k,为 StackOverflow 上关于 C 语言的问答数据,源语言为英文

数据集

下面列出了本仓库包含的数据集,其中标注了“🚧”的是仍在扩充中的。

🌟 Highlighted

一些精选的高质量数据集。

Chinese-Instruct 🚧

  • 简介:大规模中文指令微调数据集,相较于已有的中文指令微调数据集,具备更高的质量、更多指令来源、更大的规模。
  • 规模:4.5M+
  • 链接:Mxode/Chinese-Instruct

Chinese-Reasoning-Distil-Data 🚧

BiST (Bilingual Synthetic Translation dataset) 🚧

  • 简介:大规模中英双语翻译数据集,采集真实语料,多步骤过滤、清洗、合成、校验。
  • 规模:57M
  • 详情:知乎文章 - BiST
  • 链接:Mxode/BiST

I_Wonder_Why-Chinese

Chinese-Instruct-Lite

  • 简介:简化版本的大规模中文指令微调数据集(并非子集),涵盖代码、数学、通用等领域,适合用于学习从零训练中文大模型
  • 规模:8.1M+
  • 链接:Mxode/Chinese-Instruct-Lite

Math-Chinese-DeepSeek-R1-10K

Meow-Reasoning-100K

Chinese-Medical-Instruct-1M

指令微调数据集(SFT)

一般的指令微调数据集。

IndustryInstruction-Chinese

Chinese-QA-Agriculture_Forestry_Animal_Husbandry_Fishery

  • 简介:中文农林牧渔问答数据集,涵盖农业、林业、畜牧业、渔业,数据量 900K+。
  • 规模:900K+
  • 链接:Mxode/Chinese-QA-AFAF

Firefly-1.1M-Rephrased

  • 简介:中文指令微调数据集,对原 Firefly-1.1M 数据集做了清洗和增强。
  • 规模:1.1M
  • 链接:Mxode/Firefly-1.1M-Rephrased

Firefly-Rephrased-Multiturn-300K

Chinese-StackOverflow-QA-C_Language

  • 简介:中文 StackOverflow C 语言问答数据集,包含原数据集的翻译版本和新合成的指令微调版本。
  • 规模:200K(合成)+ 40K(翻译)
  • 链接:Mxode/Chinese-StackOverflow-QA-C_Language

Magpie-Pro-10K-GPT4o-mini

  • 简介:英文指令微调数据集,从原 Magpie 数据集挑选指令改写后,重新用 GPT4o-mini 合成回复。
  • 规模:10K
  • 链接:Mxode/Magpie-Pro-10K-GPT4o-mini

Meow-Instruct-34k

  • 简介:一只猫猫的说话语录。格式为一般的指令微调格式。
  • 规模:34K
  • 链接:Mxode/Meow-Instruct-34k

推理数据集(Reasoning)

O1、R1 格式的推理数据集。

Chinese-OpenQA-Reasoning-50K

School-Math-R1-Distil-Chinese-220K

基础数据集

一些整理清洗过滤的基础数据集。

Fineweb-Edu-Chinese-V2.1-merged-score4_5

Fineweb-Edu-Chinese-V2_1-subset-5M

IndustryCorpus-Subset-zh-en

其他数据集

其他类型的数据集。

Psychologist-psiholog-zh_ru

StackOverflow-QA-C-Language-40k

CSDN-C_Language-2013_2023

早期数据集

一些早期构造的数据集。

展开

Chinese-Classics-Partial

Baike-Astronomy-ZH

C-Language-Chat-Debug-Multiturn-Zh

DPO-arxiv_paraphrase

  • 简介:根据 arxiv 论文摘要,合成的改写偏好数据集,chosen 字段为摘要原文,rejected 字段为模型合成。
  • 规模:200K
  • 链接:Mxode/DPO-arxiv_paraphrase

University-News-Instruction-Zh

  • 简介:某高校校园新闻数据集,合成了三类任务:标题总结、栏目分类、新闻生成。
  • 规模:65K * 3(类任务)
  • 链接:Mxode/University-News-Instruction-Zh

Chinese-English-Parallel-Synonym-Corpus-75k


致谢

上面很多数据集工作都是受到社区已有工作启发,或者在已有工作上的二次开发,向所有开源工作衷心表达敬意!

如果有任何问题或建议,也欢迎提出!

引用

@misc{zhang2025maxawesomedatasets,
      title={Max's Awesome Datasets},
      author={Max Zhang},
      year={2025},
      howpublished = {\url{https://github.com/Mxoder/Maxs-Awesome-Datasets}},
}

About

Max的有趣数据集 / Max's awesome datasets

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published
0