训练方向建议 · Issue #780 · THUDM/GLM-4 · GitHub

8000 训练方向建议 · Issue #780 · THUDM/GLM-4 · GitHub

More Web Proxy on the site http://driver.im/

训练方向建议 #780

Open

Open

训练方向建议#780

Feature request / 功能建议

目前的训练，奖励模型如何有效的pass@1,而忽略模型能够提出类似9.11与9.8哪个大的暴露自身缺陷问题的能力，建议奖励规则或者训练环节，增强模型能够提出优质问题的能力。

Motivation / 动机

理想的状态模型应该自己去训练自己。就像alphago 自己与自己的前一个版本博弈，从而不断迭代提升。
但是目前模型训练似乎还没有实现自问自答，不断探索的能力。好的问题比答案更重要，我们不仅需要能够解答博士难度的模型，还需要模型自身能够提出更有价值问题的能力。

Your contribution / 您的贡献

提问比答案更重要

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

0