广告合作

gpt-九游会国际

来源:it之家 时间:2023-04-04 11:22:09

,openai 最新的语言模型 gpt-4 不仅能够像人类一样生成各种文本,还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 gpt-4 在多项难度较高的测试中,都取得了显著的进步,测试表现提升 30%。

gpt-4 是继 gpt、gpt-2 和 gpt-3 之后,openai 推出的最先进的系统,也是目前最大的多模态模型。其利用深度学习技术,使用人工神经网络来模仿人类的写作。

研究人员诺亚?辛恩和阿什温?戈平纳特(ashwin gopinath)在论文中写道:“我们开发了一种新颖的技术,让 ai 代理能够模拟人类的自我反思,并评估自己的表现。gpt-4 在完成各种测试的时候,会增加一些额外的步骤,让它能够自己设计测试来检查自己的答案,找出错误和不足之处,然后根据发现来修改自己的九游会国际的解决方案。”

在 humaneval 编码测试中,gpt-4 使用自我反思环路,准确率从 67% 上升到 88%
gpt-4 可以通过设计和执行测试来批判其自身的性能,如 alfworld 测试结果所示,可以大大改善其性能

研究团队使用这种技术对 gpt-4 进行了几种不同的性能测试。在 humaneval 测试中,gpt-4 需要解决 164 个从未见过的 python 编程问题,原本准确率为 67%,使用反思技术后,准确率提升到了 88%。在 alfworld 测试中,ai 需要在各种不同的交互环境中,通过执行一些允许的操作,来做出决策和解决多步任务。使用反思技术后,gpt-4 的准确率从 73% 提高到了 97%,只有 4 个任务失败。在 hotpotqa 测试中,gpt-4 可以访问维基百科,并回答 100 个需要从多个支持文档中解析内容和推理的问题,原本准确率为 34%,使用反思技术后,准确率提高到了 54%。

206

推荐阅读

  • a股三大指数涨跌不一煤炭与军工板块涨幅居前

    a股三大指数涨跌不一煤炭与军工板块涨幅居前

  • 薄膜电容行业报告:新能源车、光伏、风电驱动薄膜电容市场潜力巨大

    薄膜电容行业报告:新能源车、光伏、风电驱动薄膜电容市场

  • 目前医疗技术条件下近视不能治愈提升视力的说法不靠谱

    目前医疗技术条件下近视不能治愈提升视力的说法不靠谱

  • stepvr发布元宇宙登入门产品“国承1号”

    stepvr发布元宇宙登入门产品“国承1号”

  • 苹果汽车项目团队又一高管跳槽:去年11月份加入任职不到7个月

    苹果汽车项目团队又一高管跳槽:去年11月份加入任职不到

网站地图