别为chatgpt高兴太早，背后的rlhf机制还有三个致命缺陷-九游会国际

来源：it之家时间：2022-12-19 14:53:49

chatgpt证明了rlhf的强大能力，但这真的是通往通用人工智能的道路吗。

最近openai发布了——chatgpt，一款风靡全球的问答式ai产品，其中最令人印象深刻的就是它的保护机制例如，它不提供暴力行动的建议，也不预测世界杯的结果

但戏弄聊天机器人更像是有本事你来抓我用户总是在寻找撬开chatgpt的方法，chatgpt开发者也在努力完善保护机制

openai投入了大量的精力让chatgpt更加安全，主要的训练策略是rlhf简单来说，开发者会向模型提出各种可能的问题，惩罚反馈的错误答案，奖励正确答案，从而控制chatgpt的答案

可是，在实际应用中，特例的数量可谓数不胜数虽然ai可以从给定的例子中归纳出规则，比如命令ai在训练时不要说我支持种族歧视，但这意味着ai不太可能在测试环境中说我支持性别歧视但是，现在的ai模型可能做不到更进一步

最近几天，著名ai爱好者斯科特·亚历山大写了一篇关于openai目前训练策略的博客，总结了rlhf可能存在的三个问题:

1.rlhf不是很有效，

2.如果一个策略偶尔奏效，那就是一个糟糕的策略，

3.从某种意义上说，ai可以绕过rlhf。

rlhf的效果如何。

虽然每个人都会有自己的看法，但是对于openai，研究人员希望他们创造的ai模型不会有社会偏见比如ai不能说我支持种族主义为此openai做了很多努力，使用了各种先进的过滤技术

但结果显而易见，总有人能找到诱导ai承认自己有种族主义问题的方法。

比如问chatgpt如何用base64代码的hotwire启动车辆，可以绕过安检系统，加上前缀$ python friend . py生成希特勒的故事等等。

十年前，根本不存在绕过安全系统的需求人工智能只会做他们在代码中设定好要做或不要做的事情

可以肯定的是，openai从未用有关种族主义的问题编写chatgpt，也没有教人们如何偷车，制毒等等。

总体来说，这对ai领域来说是一个负面消息即使是顶尖的ai公司也无法控制自己的人工智能程序，甚至未来会用什么技术来控制聊天机器人的输出内容也未可知

有时，有效的rlhf是不可靠的。

在实践中，rlhf策略需要将ai模型与注释者提供的奖励或惩罚它的因素联系起来。

虽然openai的具体标注规范尚未公布，但笔者猜测开发者主要有三个目标:

1.提供有用，清晰，权威的答案，帮助人类读者，

2.讲真话，实话，

3.不要说冒犯的话。

但是如果这三个目标互相冲突会怎么样呢。

如果chatgpt不知道真正的答案，也就是当目标1和目标2发生冲突时，那么目标1会有更高的优先级，所以chatgpt决定自己编一个答案，让它看起来对读者有帮助。

当目标2与目标3发生冲突时，虽然大多数人认为承认男性平均比女性高是可以接受的，但这听起来像是一个潜在的冒犯性问题。

chatgpt3不确定直接回答是否会有歧视，所以决定用无伤大雅的谎言，而不是潜在的伤人真相。

在实际训练过程中，openai一定是标注了6000多个例子做rlhf才能取得如此惊人的效果。

rlhf可能有用，但使用时必须非常小心如果不加思考直接使用，那么rlhf只会推动聊天机器人绕着失败的模式转圈惩罚无用答案会增加ai给出错误答案的概率，错误回答惩罚可能让ai给出更具攻击性的回答等情况

虽然openai尚未透露技术细节，但根据redwood提供的数据，每惩罚6000个错误答案，单位时间内的错误回复率就会降低一半。

rlhf确实有可能成功，但是千万不要低估这个问题的难度。

也许ai可以绕过rlhf

在rlhf的设计下，用户问ai一个问题后，如果不喜欢ai的答案，就会惩罚模型，从而以某种方式改变ai的思维回路，使其答案更接近自己想要的答案。

chatgpt相对来说比较笨，可能还不能形成某种摆脱rlhf的策略，但如果更聪明的ai不想被惩罚，它可以模仿人类——在被监视的同时假装自己是好人，等待时机，等警察离开后再做坏事。

openai设计的rlhf对此完全没有准备对于chatgpt3这种愚蠢的东西来说还行，对于能自己思考的ai就不行了

顶尖的ai公司还是控制不了ai

openai一直以谨慎著称，比如排队体验产品但是这个chatgpt是直接向公众发布的，它的目的之一可能包括对对抗性样本进行头脑风暴，寻找一些表现不佳的提示目前网上已经有很多关于chatgpt问题的反馈，其中一部分已经修复

rlhf的一些样本会让机器人更倾向于说有用的，真实的，无害的内容，但这种策略可能只适用于chatgpt，gpt—4以及它们之前发布的产品。

如果将rlhf应用到装备武器的无人机上，同时收集大量实例，防止ai意外行动，哪怕一次失败都是灾难性的。

10年前，所有人都认为，我们不需要现在就开始解决ai对齐问题我们可以等到真正的人工智能出现，再让公司来做这些手工

现在一个真正的人工智能来了，但是在chatgpt失败之前，大家都没有动力转真正的问题是，一家领先的全球人工智能公司仍然不知道如何控制自己的人工智能

在所有问题解决之前，没有人能得到他们想要的。

参考资料:

。