8000 训练方向建议 · Issue #780 · THUDM/GLM-4 · GitHub
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content
训练方向建议 #780
Open
Open
@021gink

Description

@021gink

Feature request / 功能建议

目前的训练,奖励模型如何有效的pass@1,而忽略模型能够提出 类似9.11与9.8哪个大的 暴露自身缺陷问题的能力,建议奖励规则或者训练环节,增强模型能够提出优质问题的能力。

Motivation / 动机

理想的状态模型应该自己去训练自己。就像alphago 自己与自己的前一个版本博弈,从而不断迭代提升。
但是目前模型训练似乎还没有实现自问自答,不断探索的能力。好的问题比答案更重要,我们不仅需要能够解答博士难度的模型,还需要模型自身能够提出更有价值问题的能力。

Your contribution / 您的贡献

提问比答案更重要

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions

      0