Open
Description
Feature request / 功能建议
目前的训练,奖励模型如何有效的pass@1,而忽略模型能够提出 类似9.11与9.8哪个大的 暴露自身缺陷问题的能力,建议奖励规则或者训练环节,增强模型能够提出优质问题的能力。
Motivation / 动机
理想的状态模型应该自己去训练自己。就像alphago 自己与自己的前一个版本博弈,从而不断迭代提升。
但是目前模型训练似乎还没有实现自问自答,不断探索的能力。好的问题比答案更重要,我们不仅需要能够解答博士难度的模型,还需要模型自身能够提出更有价值问题的能力。
Your contribution / 您的贡献
提问比答案更重要
Metadata
Metadata
Assignees
Labels
No labels