Google Bard。摄影师:Gabby Jones/彭博社
文章来源: 彭博社 作者:Austin Carr – 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
谷歌和 OpenAI 之间的人工智能霸主之争有点令人困惑。但首先…
Google 有一种新的人工智能模型,名为 Gemini,为了向世界证明它比 ChatGPT 公司使用的模型更好, Google 使用了最无聊的手段:成绩单
在由首席执行官 Sundar Pichai 共同撰写的公司博客文章中,Google 认为 Gemini 在 32 项学术基准测试中的 30 项中优于 OpenAI Inc. 的 GPT-4,其中包括数学、阅读、编码和推理测试。与 Google 今年早些时候的表现相比,Gemini 确实有了巨大的进步,但这种吹嘘似乎有点绝望,特别是因为 Google 在与OpenAI 模型的许多比较测试中,仅领先只有几个百分点或更少。
真的有人会因为 Google 在代数技能评估中得分高出 0.3% 而从 ChatGPT 转向 Bard 吗?
由于有如此多的人工智能产品试图脱颖而出,比较的点是抽象的,几乎没有意义。百度和 Meta Platforms Inc. 等科技巨头指出,他们的大型语言模型拥有数十亿甚至数万亿的参数。初创公司宣称他们的系统已经吸收了数百万条内容。对于超级计算机操作员来说,这是他们串在一起的数以万计的人工智能芯片。
即使是该领域的专家也对此类评估持谨慎态度。 OpenAI 研究员 Rowan Zellers 帮助开发了一项名为 HellaSwag 的常识性任务测试,在 Gemini 揭幕后在社交网络 X 上发帖表示他没有“对目前所有法学硕士论文报告的十几个文本基准的信任程度有很好的判断力。”
比这些测试成绩更重要的是 Gemini在更宽领域的表现,用户很快指出该系统产品本身很难准确解释 Gemini 的分数对公众意味着什么,声称该模型是有史以来“最灵活”、“最有能力”和“最大”的模型,并不比 OpenAI 的更好并且看起来仍然容易出错。
别介意它有三个不同的版本——Ultra、Pro 和 Nano——就连谷歌的巴德也难以识别。当我向聊天机器人询问其新的 Gemini 型号时,它向我介绍了名为 Gemini Pro 的各种产品,包括高光地板饰面、便携式 PA 系统和压花机。
过度的基准测试看起来有点像 PC 时代的规格大战。几十年前,计算机制造商通过与处理器速度和内存大小相关的不稳定指标来推广他们的硬件。苹果公司因将重点转移到新颖的功能上而受到赞誉,这些功能展示了产品如何改善您的日常生活。当史蒂夫·乔布斯 (Steve Jobs) 推出第一款 iPod 时,其千兆字节的存储空间远不如“口袋里有 1,000 首歌曲”的承诺那么重要。
人工智能公司面临的问题是,他们的软件声称能够做几乎任何事情,但很难准确地提炼出特定产品的特殊之处。埃隆·马斯克 (Elon Musk) 则将 xAI 的 Grok 作为一种抗唤醒(anti-woke)的替代方案,X 首席执行官 Linda Yaccarino 称它为“终极骑行或死亡”(无论这意味着什么)。
Google 最明显的差异化优势在类似科学博览会的 Bard 演示中得到展示:“多模式”功能,这意味着您如何与机器外部文本输入。在一个例子中,巴德看到了一张岔路的图像,其中的车道通向鸭子或熊的涂鸦,当被问到十字路口的另一只鸭子应该朝哪个方向走时,巴德正确地猜测到最安全的路径是朝向它的同类。
但 Google 后来承认该演示有点捏造,并且是基于 Gemini 的未发布版本。当我对巴德进行同样的测试时,它奇怪地建议鸭子骑自行车沿着向南 100 英里的高速公路前往罗德岛。但另一方面,ChatGPT 完美地解决了提示问题。
谷歌需要更加努力才能在这方面获得及格分数。
(此文由本站编译)