高达3.6万亿token，palm2训练数据翻5倍，全新bard对比ch-九游会国际

来源：it之家时间：2023-06-03 14:18:17

palm2 模型训练数据是上一代的 5 倍，达到 3.6 万亿。基于 palm2 的 bard 对比 chatgpt 有 8 项优势。

决定大模型能力的关键因素，到底是模型的参数，还是训练文本的大小？

谷歌发布的 palm2，似乎选择了后者作为提升的主要路径。

据悉，谷歌用于训练的 palm2 的文本数量几乎是训练其前身模型的 5 倍。

而且上周宣布 palm 2 时，谷歌明确表示，该模型比早期的 palm 更小。

谷歌内部文件显示，palm 经过了 5400 亿的参数训练，而新推出的 palm2，训练参数接近腰斩，只有 3400 亿个。

技术文档中训练数据的描述

但是在另一个模型训练的关键数据 —— 训练语料大小上，谷歌开始疯狂堆料，把 palm 的 7800 亿的训练 token 量直接推到了 3.6 万亿！

而且除了 token 数量的激增，palm2 在数据质量上也有很大的提升。

训练数据中各个语言的比例

所以相比 palm，第二代在英语语料数据量没有显著增长的情况下，英语性能明显提高，部分原因是因为英语数据的质量提升了。

大模型路线选择

openai 没有公开 gpt-4 的训练参数数量，但是谷歌没有藏着掖着，主动公开了 palm2 训练参数。

而且在谷歌 i / o 大会上，还同时发布了 4 个参数更少的模型。

其中最小的一款模型 gecko，甚至可以在智能手机上运行。

这一举动侧面反应了谷歌未来的野心，希望在更多的平台上部署自己的大模型。

在这个大背景之下，从长远的角度来看，谷歌几乎不可能选择堆训练参数量来提升模型性能，增加训练语料的数量和质量几乎成了必然的选择。

palm 2:史上最强大模型？

在 i / o 大会上宣布 palm 2 时，谷歌证实:该模型经过 100 种语言的训练，可以执行广泛的任务。它已经被用来为 25 个功能和产品提供支持，包括谷歌的实验性聊天机器人 bard。

palm 2 有四种尺寸，从小到大依次是:gecko、otter(水獭)、bison(野牛)和 unicorn(独角兽)。

基于现在公开披露的数据，palm 2 比现有的任何模型都更强大。

meta 的 llama 在今年二月推出，它在 1.4 万亿个 token 上进行了训练。

而上一次 openai 分享训练规模，还是在推出 gpt-3 时，当时 openai 说，它接受了 3000 亿个 token 的训练。

另外，谷歌两年前曾提出 lamda 模型，当时它接受了 1.5 万亿个 token 的训练。

ai 军备竞赛升温，公众要求更高透明度

对于大模型训练数据的细节，大厂们都很默契地选择了「close」。

发布 gpt-4 时，openai 没有公布架构、硬件、训练计算、数据集构建、训练方法等细节，理由是「像 gpt-4 这样的大规模模型的竞争格局和安全影响」。

被 openai 逼到墙角的谷歌，也一直渴望展示自己 ai 技术的力量，包括如何将其嵌入到搜索、电子邮件、文字处理和电子表格中，但是此前，谷歌一直不愿意公布训练数据的大小或其他细节。

保密的原因，当然就是业务的竞争性质。

无论是谷歌还是 openai，都在争抢着希望使用聊天机器人而不是传统搜索引擎的用户。

但随着 ai 军备竞赛的升温，研究社区正在要求更高的透明度。

而现在，随着 ai 应用迅速成为主流，围绕底层技术的争议也愈发激烈。

随着新的人工智能应用迅速成为主流，围绕底层技术的争议也越来越激烈。

今年 2 月，谷歌研究高级科学家 el mahdi 因公司缺乏透明度，选择辞职。

周二，openai 首席执行官 sam altman 在参议院司法小组委员会关于隐私和技术的听证会上作证，同意立法者的观点 —— 需要监管 ai 的新系统。

「对于一项非常新的技术，我们需要一个新的框架，」altman 说。「当然，像我们这样的公司，对于在全球推出的工具负有很大责任。」

bard 可以干但 chatgpt 干不了的事1. 访问网络

相对于 chatgpt，bard 的一个显著优势就是 —— 可以访问互联网。

问问今天的体坛大事，bard 快速总结出来了。

而 chatgpt 无法直接访问互联网，只能通过其付费版本 plus 上的插件访问网络。

2. 图像生成

在生成图像上，bard 也超越了 chatgpt 的付费和非付费版本。

谷歌宣布将通过集成 adobe firefly，提供 ai 图像生成功能。这个功能增强了对话的视觉效果，让用户获得了上下文更丰富的信息。

3. 语音输入

在语音输入方面，bard 也优于 chatgpt，用户只要通过语音，就可以和模型交互了。

这样在多任务处理和打字不方便时，用户就多了一种快速获取响应的边界方式。

小编把今日体坛新闻的问题读了一遍，bard 就自动显示了。唯一要注意的是，英文发音要足够标准。????

4. 编码能力

在编码能力上，bard 也超越了 chatgpt，它能够协助 20 多种编程语言，包括 c 、python、java、typescript、javascript 等。它可以辅助开发者进行代码生成、解释和调试。

相比之下，虽然 chatgpt 也具有编码功能，但它在处理额外任务时存在不足，相比之下 openai 的 codex 可能更适合执行这些任务。

让 bard 用 python 生成一个斐波那契数列，并打出前 10 个数字。

bard 成功完成了。

5. 高度整合 gmail

与 gmail 集成，是 bard 是另一个重要优势。

gmail 拥有超过 20 亿用户，是全球最大的电子邮件服务商。如果在邮件中能用 bard，无疑为电子邮件交互开辟了新的可能性。

但是，微软也正把 chatgpt 添加到 microsoft 365 中，并将嵌入到 word、excel、powerpoint 以及 gmail 的竞争者中。

6. 分享输出内容

另外，bard 还可以将结果立即导出到 gmail 和 docs。

用户可以将生成的内容直接导出到这些平台，轻松与他人分享。这个功能大大简化了共享信息的过程，使撰写电子邮件变得非常轻松。

另一方面，openai 在设置中有一个类似的导出选项。用户可以导出帐户详细信息和对话，以可下载文件的形式发送到电子邮箱中。

7. 支持图像提示

bar 还有一大功能是，能够使用图像作为提示。

同样，gpt-4 也是一个多模态大模型，可以接受图像和文本输入，不过截至本文发布之日，在付费版本中也没有引入这个功能。

8. 网页摘要

因为 bard 可以联网，因而它可以通过简单地共享链接来总结某个网页。

相比之下，chatgpt 不能联网，用户只能手动复制和粘贴想要总结的内容。

不过，bard 也有其局限性，特别是在毒性方面。

在测试过程中，当给出明确的有毒提示时，bard 在超过 30% 的时间内，会产生有毒反应。

此外，在英语、德语和葡萄牙语等语言中，palm 2 总体上会表现出更明显的毒性行为。

总的来说，由于不同的架构和测试方法，直接比较这 palm2 和 gpt-4 有一定的挑战性。

在推理任务中，palm 2 的表现与 gpt-4 类似，甚至更好。

不过，在编码任务中，palm 2 需要多次尝试，以及额外的编码 token，才能获得良好的性能。

参考资料:

下一篇: 安卓/ios支付宝10.3.86版本支持深色模式

高达3.6万亿token，palm2训练数据翻5倍，全新bard对比ch-九游会国际

推荐阅读