原来ai也需要有人哄，一句话让gpt-九游会国际

来源：网络时间：2022-05-26 14:52:00

一觉醒来，机器学习社区炸了。因为最新研究发现，只要对gpt-3说一句“让我们一步一步地思考”，就能让它正确回答之前不知道的问题。

例如，下面的例子:

六个球中有一半是高尔夫球。这些高尔夫球有一半是蓝色的。有多少蓝色的高尔夫球？

如果让gpt-3直接写“答案是什么”，它会给出错误的答案:8。

但是增加了让我们一步一步思考这个“咒语”，gpt-3会先输出思考步骤，最后给出正确答案:4！

而研究团队在论文中充分验证了这一点，也绝非巧合。以上问题来自经典的mutiarith数据集，专门测试语言模型做数学题的能力。在零样本情况下，gpt-3的准确率仅为17%。

本文总结了九个最有效的提示词，其中前六个让gpt-3通过改变模式一步步思考的词都让准确率飙升到70%以上。

即使是最简单的“让我们想想”也能上升到57.5%。感觉像幼儿园阿姨在哄孩子...

这项技术似乎也不需要对gpt 3号进行魔法改变。已经有人在openai的官方demo上成功重现，甚至改成了中文。英文问题用中文提示，gpt-3给出正确的中文答案。

首先将这篇论文转发到社交网络的谷歌研究人员表示，新的all you need已经增加。

看到这里，各路大佬都脑洞大开，玩了个梗。如果鼓励ai“你能行，我相信你”，会发生什么？

如果ai威胁说“时间不多了”或者“你脑袋上有枪”怎么办？

对ai说“稳稳地开”会成为自动驾驶九游会国际的解决方案吗？

还有人提出，这就像科幻故事《银河系漫游指南》的情节一样。实现通用人工智能的关键是要知道如何正确地向ai提问。

那么，这种神奇的现象是怎么回事呢？

大语言模型是零样本推理器。

这一现象是由谷歌大脑和东京大学的合作研究发现的，该研究探索了大语言模型在零样本场景下的表现。

《语言模型是零样本推理机》这个标题也向gpt-3的“语言模型是少样本学习者”致敬。

使用的方法属于思维链提示，是google brain团队在今年1月刚刚提出的。

最早的cot应用于样本少的学习，给出了分步回答的例子，边提问边指导ai。

这项最新研究提出了零样本成本，主要变化是简化了样本部分。

第一步，将标题改写成“q:xxx，a:xxx”的形式，其中触发句a可以提取语言模型的思维过程。

第二步是附加实验，增加提示“答案是……”来提示语言模型给出最终答案。

这样做最大的好处就是通用，不再需要针对不同类型的题型提供特例。

本文对各种问题进行了充分的测试，包括12个测试:

六个数学问题的测试集，singleeq，addsub，svamp和更具挑战性的multiarith，aqua-rat，gsm8k。

两个常识推理测试集，commonsenseqa和strategyqa。

两套符号推理测试集，最后一个字母串联和抛硬币。

以及数据理解问题和跟踪大平台中无序对象的任务。

与普通零样本学习相比，零样本cot在10个项目上取得了更好的结果。

右边的值是附加的实验结果。

在更难的multiarith和gsm8k的数学测试中，使用了gpt-3的最新版本text-davinci-002进行了更深入的实验。

如果给8次尝试就能得到最好的结果，还可以进一步提高准确率到93%。

在对错误结果的分析中，研究人员还发现，在很多问题中，ai的推理过程是正确的，但当答案无法收敛到唯一的确定性时，就会给出多个备选方案。

论文最后，研究团队提出，该研究不仅可以作为零样本cot的基线，还可以让学术界认识到在构建微调数据集和小样本提示模板之前，充分发掘大语言模型零样本能力的重要性。

研究小组来自东京大学松尾实验室。

负责人松尾东洋教授也是软银董事会的首位人工智能专家。

团队中的客座教授顾，来自谷歌大脑团队。古石祥师从三巨头之一的辛顿，毕业于剑桥大学，博士学位

加入一些“魔法”已经成为ai圈的新趋势。

零样本cot起作用的确切原因仍有待探索。

然而，一项实验表明，这种方法似乎只对gpt-3有效。他试了001版，发现效果不大。

他列举了自己做这件事的例子。提问:请将机器学习中每个单词的最后一个字母连起来。

gpt-3在提示中给出的答案是将两个单词中的所有字母连接起来。

对此，论文作者之一顾回答说，事实上，“咒语”对gpt-3的初始版本和改进版本都有作用，这些结果也在论文中有所体现。

也有人质疑深度学习是否已经变成了寻找“魔咒”的游戏。

与此同时，我们又在吐槽队里看到了马库斯。

他还列举了一个失败的例子。gpt-3在“咒语”的加持下才明白过来。莎莉的牛会不会死而复生...

然而，值得注意的是，像这样的例子并不罕见，在ai中加入一点魔法，可以立即改善效果。

有网友分享说，在使用gpt-3时增加几个中间命令，确实能得到比较满意的效果。

此前，谷歌和麻省理工学院的研究人员发现，在不改变底层架构的情况下，只要训练语言模型会像程序员在调试时那样“断点”，模型读取代码和做算术的能力就会上去。

原理也很简单，就是在一个有很多计算步骤的程序中，让模型把每一步都编码成文本，记录在一个叫做“便笺条”的临时内存中。这样一来，模型的计算过程变得更加清晰有序，性能自然大大提升。

还有这次实验用的指令gpt-3，也是一个典型的例子。只要让gpt-3从人类的反馈中学习，它就可以明显改善回答无关问题的情况。

具体来说，我们先用一些人类的示范答案对模型进行微调，然后收集一个问题的几组不同的输出数据，对几组答案进行人工排序，在这个数据集上训练奖励模型。

最后用rm作为奖励函数，近端策略优化算法对gpt-3策略进行微调，加强学习方法，使奖励最大化。

掀起这个话题的twitter博主aran就是那个发现加入“虚幻引擎”可以让ai生成的图像质量飙升的人。

googlebot前老板eric jang也发现，强化学习可以使用类似的思维来提高计算效率。

也有人说，这种用在ai上的技能，只是你平时用脑的时候用的。

其实bengio之前就从脑科学入手，提出ai的运行模式要像人脑模式。

人类的认知任务可以分为系统1认知和系统2认知。

1系统性认知任务是指那些无意识完成的任务。比如，你可以立刻辨认出你手里拿的是什么，但是你无法向别人解释你是如何完成这个过程的。

2系统性认知任务是指人脑需要按照一定步骤完成的认知。比如做一个加减运算，就可以很清楚的说明最后的答案是怎么得出的。

这次加的“咒语”是为了让ai走得更远，一步一步学会思考。

面对这一趋势，有学者认为“cue工程正在取代特色工程”。

那么“线索猎人”会成为下一代nlp研究者的昵称吗？

论文地址:

下一篇: strategyanalytics：2027年美

原来ai也需要有人哄，一句话让gpt-九游会国际

推荐阅读