法学硕士实用指南资源的精选(仍在积极更新)列表。它基于我们的调查论文:在实践中利用法学硕士的力量:关于 ChatGPT 及其他的调查以及@xinyadu的努力。该调查部分基于本博客的后半部分。我们还构建了现代大型语言模型(LLM)的进化树,以追踪近年来语言模型的发展,并重点介绍一些最著名的模型。
这些资源旨在帮助从业者了解大型语言模型 (LLM) 及其在自然语言处理 (NLP) 应用程序中的应用。我们还根据模型和数据许可信息包括它们的使用限制。如果您发现我们的存储库中的任何资源有帮助,请随时使用它们(不要忘记引用我们的论文!😃)。我们欢迎拉取请求来完善这个数字!
@article{yang2023harnessing, title={Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond}, author={Jingfeng Yang and Hongye Jin and Ruixiang Tang and Xiaotian Han and Qizhang Feng and Haoming Jiang and Bing Yin and Xia Hu}, year={2023}, eprint={2304.13712}, archivePrefix={arXiv}, primaryClass={cs.CL} }
- 我们添加了使用和限制部分。
- 我们使用 PowerPoint 绘制该图并发布了GIF 图的源文件pptx 。 [2023年4月27日]
- 我们发布了静态版本pptx的源文件,并用静态版本替换了此存储库中的图片。 [2023年4月29日]
- 将 AlexaTM、UniLM、UniLMv2 添加到图中,并更正 Tk 的徽标。 [2023年4月29日]
- 添加使用和限制(用于商业和研究目的)部分。感谢杜博士。 [2023年5月8日]
- 为什么所有 GPT-3 的公开复制都失败了?我们应该在哪些任务中使用 GPT-3.5/ChatGPT? 2023,博客
- 构建用于生产的 LLM 应用程序,2023 年,博客
- 以数据为中心的人工智能,2023,回购/博客/论文
- BERT BERT:用于语言理解的深度双向变换器的预训练,2018,论文
- RoBERTa RoBERTa:一种稳健优化的 BERT 预训练方法,2019 年,论文
- DistilBERT DistilBERT,BERT 的精炼版:更小、更快、更便宜、更轻,2019 年,论文
- ALBERT ALBERT:用于语言表示自监督学习的 Lite BERT,2019 年,论文
- UniLM自然语言理解和生成的统一语言模型预训练,2019 年论文
- Electra Electra:将文本编码器预训练为判别器而不是生成器,2020 年,论文
- T5 “使用统一的文本到文本转换器探索迁移学习的局限性”。科林·拉斐尔等人。 JMLR 2019.论文
- GLM “GLM-130B:开放式双语预训练模型”。 2022.纸
- AlexaTM “AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行少样本学习”。萨利赫·索尔坦等人。 arXiv 2022。论文
- ST-MoE ST-MoE:设计稳定且可转移的稀疏专家模型。 2022年论文
- GPT通过生成预训练提高语言理解。 2018.论文
- GPT-2语言模型是无监督多任务学习器。 2018.论文
- GPT-3 “语言模型是少样本学习者”。 NeurIPS 2020。论文
- OPT “OPT:开放预训练的 Transformer 语言模型”。 2022.纸
- PaLM “PaLM:通过路径扩展语言建模”。阿坎克沙·乔杜里等人。 arXiv 2022。论文
- BLOOM “BLOOM:176B 参数开放访问多语言语言模型”。 2022.纸
- MT-NLG “使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成语言模型”。 2021.纸
- GLaM “GLaM:专家混合的语言模型的有效扩展”。 ICML 2022。论文
- Gopher “扩展语言模型:训练 Gopher 的方法、分析和见解”。 2021.纸
- chinchilla “训练计算最优大型语言模型”。 2022.纸
- LaMDA “LaMDA:对话应用程序的语言模型”。 2021.纸
- LLaMA “LLaMA:开放高效的基础语言模型”。 2023.纸
- GPT-4 “GPT-4技术报告”。 2023.纸
- BloombergGPT BloombergGPT:大型金融语言模型,2023 年,论文
- GPT-NeoX-20B:“GPT-NeoX-20B:开源自回归语言模型”。 2022.纸
- PaLM 2:“PaLM 2 技术报告”。 2023.技术报告
- LLaMA 2:“Llama 2:开放基础和微调聊天模型”。 2023.纸
- 克劳德 2:“克劳德模型的模型卡和评估”。 2023.模型卡
- 红色睡衣,2023。回购
- The Pile:用于语言建模的 800GB 多样化文本数据集,Arxiv 2020。论文
- 预训练目标如何影响大型语言模型学习语言属性的能力?,ACL 2022。论文
- 神经语言模型的缩放定律,2020。论文
- 以数据为中心的人工智能:一项调查,2023 年。论文
- GPT如何获得它的能力?追踪语言模型的新兴能力的来源,2022 年。博客
- 自然语言理解中大型语言模型的快捷学习:一项调查,Arxiv 2023。论文
- 关于 ChatGPT 的鲁棒性:对抗性和非分布视角Arxiv,2023。论文
- SuperGLUE:通用语言理解系统的更具粘性的基准Arxiv 2019。论文
我们为用户的 NLP 应用程序构建了选择 LLM 或微调模型的决策流程~\protect\footnotemark。决策流程可帮助用户评估其下游 NLP 应用程序是否满足特定条件,并根据该评估确定 LLM 或微调模型是否是其应用程序的最合适选择。
- GPT-3时代的新闻总结与评价Arxiv 2022 Paper
- chatgpt 是一个好的翻译器吗?是的,使用 gpt-4 作为引擎Arxiv 2023论文
- Microsoft 用于 WMT21 共享任务的多语言机器翻译系统,WMT2021论文
- ChatGPT也能看懂吗? chatgpt 和微调 bert 的比较研究,Arxiv 2023,论文
- 测量大规模多任务语言理解,ICLR 2021论文
- 超越模仿游戏:量化和推断语言模型的能力,Arxiv 2022论文
- 逆缩放奖,2022链接
- Atlas:使用检索增强语言模型进行少样本学习,Arxiv 2022论文
- 大型语言模型编码临床知识,Arxiv 2022论文
- 训练计算最优大型语言模型,NeurIPS 2022论文
- 神经语言模型的缩放定律,Arxiv 2020论文
- 通过基于过程和结果的反馈解决数学应用题,Arxiv 2022论文
- 思维链提示引发大型语言模型中的推理,NeurIPS 2022论文
- 大语言模型的涌现能力,TMLR 2022论文
- 逆缩放可以变成 U 形,Arxiv 2022论文
- 大型语言模型中的推理:一项调查,Arxiv 2022论文
- 图像作为外语:所有视觉和视觉语言任务的 BEiT 预训练,Arixv 2022论文
- PaLI:联合缩放的多语言语言图像模型,Arxiv 2022论文
- AugGPT:利用 ChatGPT 进行文本数据增强,Arxiv 2023论文
- gpt-3 是一个好的数据注释器吗? , Arxiv 2022论文
- 想降低标签成本吗? GPT-3 可以提供帮助,EMNLP 调查结果 2021论文
- GPT3Mix:利用大规模语言模型进行文本增强,EMNLP 研究结果 2021 年论文
- 用于患者试验匹配的法学硕士:隐私意识数据增强以实现更好的性能和通用性,Arxiv 2023论文
- ChatGPT 在文本注释任务方面优于 Crowd-Workers,Arxiv 2023论文
- G-Eval:使用 GPT-4 和更好的人类对齐进行 NLG 评估,Arxiv 2023论文
- GPTScore:随心所欲地评估,Arxiv 2023论文
- 大型语言模型是最先进的翻译质量评估器,Arxiv 2023论文
- ChatGPT 是一个好的 NLG 评估器吗?初步研究,Arxiv 2023论文
- 通用人工智能的火花:GPT-4 的早期实验,Arxiv 2023论文
- 成本
- Openai 的 gpt-3 语言模型:技术概述,2020。博客文章
- 测量云实例中人工智能的碳强度,FaccT 2022。论文
- 在人工智能领域,越大越好吗?,自然文章 2023。文章
- 语言模型是少样本学习者,NeurIPS 2020。论文
- 定价,OpenAI。博客文章
- 潜伏
- HELM:语言模型的整体评估,Arxiv 2022。论文
- 参数高效的微调
- LoRA:大型语言模型的低阶适应,Arxiv 2021。论文
- 前缀调整:优化生成连续提示,ACL 2021。论文
- P-Tuning:快速调整可以与跨尺度和任务的微调相媲美,ACL 2022。论文
- P-Tuning v2:快速调整可以与跨尺度和任务的通用微调相媲美,Arxiv 2022。论文
- 预训练系统
- ZeRO:训练万亿参数模型的内存优化,Arxiv 2019。论文
- Megatron-LM:使用模型并行性训练数十亿参数语言模型,Arxiv 2019。论文
- 使用 Megatron-LM 在 GPU 集群上进行高效大规模语言模型训练,Arxiv 2021。论文
- 减少大型变压器模型中的激活重新计算,Arxiv 2021。论文
- 稳健性和校准
- 虚假偏见
- 大型语言模型可能是懒惰的学习者:分析情境学习中的捷径,ACL 2023论文的发现
- 自然语言理解中大语言模型的快捷学习:一项调查,2023 年论文
- 减轻字幕系统中的性别偏见,WWW 2020论文
- 使用前校准:提高语言模型的少样本性能,ICML 2021论文
- 深度神经网络中的捷径学习,Nature Machine Intelligence 2020论文
- 基于提示的模型真的理解其提示的含义吗? , NAACL 2022论文
- 安全问题
- GPT-4 系统卡,2023 年论文
- 检测 llm 生成文本的科学,Arxiv 2023论文
- 如何通过语言分享刻板印象:社会类别和刻板印象沟通(scsc)框架的回顾和介绍,传播研究评论,2019年论文
- 性别深浅:商业性别分类中的交叉准确性差异,FaccT 2018论文
- FLAN:微调语言模型是零样本学习者,Arxiv 2021论文
- T0:多任务提示训练实现零样本任务泛化,Arxiv 2021论文
- 通过自然语言众包指令进行跨任务泛化,ACL 2022论文
- Tk-INSTRUCT:超自然指令:通过 1600 多个 NLP 任务的声明性指令进行泛化,EMNLP 2022论文
- FLAN-T5/PaLM:缩放指令微调语言模型,Arxiv 2022论文
- Flan Collection:有效指令调优的设计数据和方法,Arxiv 2023论文
- OPT-IML:通过泛化视角扩展语言模型指令元学习,Arxiv 2023论文
- 根据人类偏好进行深度强化学习,NIPS 2017论文
- 学习从人类反馈中总结,Arxiv 2020论文
- 作为对齐实验室的通用语言助理,Arxiv 2021论文
- 通过人类反馈的强化学习来训练一个有用且无害的助手,Arxiv 2022论文
- 教学语言模型以支持经过验证的引用的答案,Arxiv 2022论文
- InstructGPT:训练语言模型以遵循人类反馈的指令,Arxiv 2022论文
- 通过有针对性的人类判断改善对话代理的一致性,Arxiv 2022论文
- 奖励模型过度优化的缩放法则,Arxiv 2022论文
- 可扩展监督:衡量大型语言模型可扩展监督的进展,Arxiv 2022论文
- Red Teaming 语言模型与语言模型,Arxiv 2022论文
- 宪法人工智能:人工智能反馈的无害性,Arxiv 2022论文
- 大型语言模型中的道德自我纠正能力,Arxiv 2023论文
- OpenAI:我们的 AI 安全方法,2023博客
- 语言模型的强化学习,2023博客
- 自指导:将语言模型与自生成指令对齐,Arxiv 2022论文
- 羊驼毛。回购协议
- 骆驼毛。回购协议
- 多莉.博客
- 深度快速聊天。博客
- GPT4全部。回购协议
- 打开助手。回购协议
- 聊天GLM。回购协议
- 莫斯。回购协议
- 拉米尼。仓库/博客
我们建立了一个表格,总结了法学硕士的使用限制(例如用于商业和研究目的)。特别是,我们从模型及其预训练数据的角度提供信息。我们敦促社区用户参考公共模型和数据的许可信息并负责任地使用它们。我们敦促开发商特别注意许可,使其透明和全面,以防止任何不需要和不可预见的使用。
<th title="字段 #5" colspan="2" align="center"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">数据</font></font></th>
</tr></thead>
<tbody><tr>
<td> </td>
<td><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">执照</font></font><b></b></b></td>
<td><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">商业用途</font></font><b></b></b></td>
<td><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">其他值得注意的限制</font></font><b></b></b></td>
<td><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">执照</font></font><b></b></b></td>
<td><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">语料库</font></font><b></b></b></td>
</tr>
<tr>
<td colspan="6" align="left"><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">仅编码器</font></font></b></td>
</tr><tr>
</tr><tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BERT系列模型(通用领域)</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">书籍语料库,英语维基百科</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">罗伯塔</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">麻省理工学院许可证</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BookCorpus、CC-News、OpenWebText、故事</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">厄尼</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">英文维基百科</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">科学伯特</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BERT 语料库,</font></font><a href="https://aclanthology.org/N18-3011.pdf" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">语义学者 114 万篇论文</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">法律BERT</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">抄送-SA 4.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"></font><a href="https://case.law/" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">公开(判例法访问项目</font></font></a><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">的数据除外</font><font style="vertical-align: inherit;">)</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">欧盟立法、美国法院案例等</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">生物BERT</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><a href="https://www.nlm.nih.gov/databases/download/terms_and_conditions.html" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">考研</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">公共医学、PMC</font></font></td>
</tr>
<tr>
<td colspan="6" align="left"><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">编码器-解码器</font></font></b></td>
</tr><tr>
</tr><tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">T5</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">C4</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">果馅饼-T5</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">C4,混合任务(论文中的图2)</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">捷运</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">罗伯塔语料库</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">广义线性模型</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">书籍语料库和英语维基百科</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">聊天GLM</font></font></td>
<td><a href="https://github.com/THUDM/ChatGLM-6B/blob/main/MODEL_LICENSE"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">ChatGLM 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不用于非法目的或军事研究,不损害社会公共利益</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不适用</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">中英文语料库1T tokens</font></font></td>
</tr>
<tr>
<td colspan="6" align="left"><b><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">仅解码器</font></font></b></td>
</tr><tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPT2</font></font></td>
<td><a href="https://github.com/openai/gpt-2/blob/master/LICENSE"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">修改后的 MIT 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">负责任地使用 GPT-2,并明确表明您的内容是使用 GPT-2 创建的。</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">网络文本</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPT-Neo</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">麻省理工学院许可证</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://pile.eleuther.ai/" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">桩</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPT-J</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">桩</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> 多莉</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">抄送NC 4.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">CC BY NC 4.0,遵守 OpenAI 生成的数据的使用条款</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">桩,自学</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> GPT4ALL-J</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://huggingface.co/datasets/nomic-ai/gpt4all-j-prompt-generations" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPT4All-J 数据集</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">皮提亚</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">桩</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> 多莉 v2</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">麻省理工学院许可证</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">桩,databricks-dolly-15k</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">选择</font></font></td>
<td><a href="https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">OPT-175B 许可协议</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不涉及监视研究和军事方面的发展,不损害社会公共利益</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">RoBERTa 语料库、Pile、PushShift.io Reddit</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> OPT-IML</font></font></td>
<td><a href="https://github.com/facebookresearch/metaseq/blob/main/projects/OPT/MODEL_LICENSE.md?fbclid=IwAR1BFK5X1XdUpx_QXoiqyfzYWdNAXJPcg8Cf0ddv5T7sa2UrLUvymj1J8G4"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">OPT-175B 许可协议</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">与OPT相同</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">OPT语料库,超自然指令的扩展版本</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">亚LM</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">未指定</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">堆,团队收集俄语文本</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">盛开</font></font></td>
<td><a href="https://bigscience.huggingface.co/blog/the-bigscience-rail-license" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BigScience RAIL 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不得出于伤害他人的目的而生成可验证的虚假信息;</font></font><br><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">内容,但未明确声明文本是机器生成的</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">ROOTS 语料库(Lauren¸con 等人,2022)</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> 布卢姆兹</font></font></td>
<td><a href="https://bigscience.huggingface.co/blog/the-bigscience-rail-license" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BigScience RAIL 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">与绽放相同</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">ROOT 语料库,xP3</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">卡拉狄加</font></font></td>
<td><a href="https://github.com/paperswithcode/galai/blob/main/LICENSE-MODEL.md"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">CC BY-NC 4.0</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不适用</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">卡拉狄加语料库</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">骆驼</font></font></td>
<td><a href="https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">非商业定制许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不涉及监视研究和军事方面的发展,不损害社会公共利益</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">CommonCrawl、C4、Github、维基百科等</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> 羊驼毛</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">抄送NC 4.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">CC BY NC 4.0,遵守 OpenAI 生成的数据的使用条款</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">LLaMA 语料库,自学</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> 骆驼毛</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">抄送NC 4.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">遵守 OpenAI 生成的数据的使用条款;</font></font><br><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">ShareGPT 的隐私惯例</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">LLaMA 语料库,来自</font></font><a href="http://sharegpt.com/" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">ShareGPT.com的 70K 对话</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">---> GPT4ALL</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPL 许可 LLaMa</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://huggingface.co/datasets/nomic-ai/gpt4all_prompt_generations" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">GPT4All数据集</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">开放骆驼</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://www.together.xyz/blog/redpajama" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">红色睡衣</font></font></a></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">代码极X</font></font></td>
<td><a href="https://github.com/THUDM/CodeGeeX/blob/main/MODEL_LICENSE"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">CodeGeeX 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不得用于非法目的或军事研究</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">Pile、CodeParrot 等</font></font></td>
</tr>
<tr>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">星码器</font></font></td>
<td><a href="https://huggingface.co/spaces/bigcode/bigcode-model-license-agreement" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">BigCode OpenRAIL-M v1 许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">不得出于伤害他人的目的而生成可验证的虚假信息;</font></font><br><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">内容,但未明确声明文本是机器生成的</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://arxiv.org/pdf/2211.15533.pdf" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">堆栈</font></font></a></td>
</tr>
<tr><td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">MPT-7B</font></font></td>
<td><font style="vertical-align: inherit
5A50
;"><font style="vertical-align: inherit;">阿帕奇2.0</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅</font></font></td>
<td> </td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://arxiv.org/abs/2010.11934" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">mC4(英文)</font></font></a><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">、</font></font><a href="https://arxiv.org/pdf/2211.15533.pdf" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">The Stack</font></font></a><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">、</font></font><a href="https://www.together.xyz/blog/redpajama" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">RedPajama</font></font></a><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">、</font></font><a href="https://aclanthology.org/2020.acl-main.447/" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">S2ORC</font></font></a></td>
</tr><tr>
<td><a href="https://huggingface.co/tiiuae/falcon-40b" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">鹘</font></font></a></td>
<td><a href="https://huggingface.co/tiiuae/falcon-40b/blob/main/LICENSE.txt" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">TII Falcon 法学硕士许可证</font></font></a></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">✅/❌</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">可在允许商业用途的许可下使用</font></font></td>
<td><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">民众</font></font></td>
<td><a href="https://huggingface.co/datasets/tiiuae/falcon-refinedweb" rel="nofollow"><font style="vertical-align: inherit;"><font style="vertical-align: inherit;">精致网络</font></font></a></td>
</tr>
</tbody></table>
法学硕士 | 模型 |
---|