谷歌表示，新的人工智能模型Gemini在大多数测试中都优于ChatGPT

2025-08-27 17:05

谷歌表示，新的人工智能模型Gemini在大多数测试中都优于ChatGPT

　　

　　

　　谷歌发布了一种新的人工智能模型，据称该模型在大多数测试中都优于ChatGPT，并在多种格式下显示“高级推理”，包括查看和批改学生物理作业的能力。

　　在上个月的全球人工智能安全峰会上，科技公司同意与政府合作，在先进系统发布前后对其进行测试，这是自那以来宣布的第一个模型，名为Gemini。谷歌表示，它正在与英国新成立的人工智能安全研究所(AI Safety Institute)讨论测试Gemini最强大的版本，该版本将于明年发布。

　　该模型有三个版本，是“多模式”的，这意味着它可以同时理解文本、音频、图像、视频和计算机代码。

　　Gemini将被整合到包括搜索引擎在内的谷歌产品中，周三将以谷歌聊天机器人Bard的升级版的形式在包括美国在内的170多个国家首发。

　　然而，由于谷歌正在寻求监管机构的批准，巴德升级将不会在英国和欧洲发布。

　　开发Gemini的谷歌总部位于伦敦的子公司DeepMind的首席执行官德米斯?哈萨比斯(Demis Hassabis)表示:“这是我们从事过的最复杂的项目，可以说是最大的任务。这是一项巨大的努力。”

　　两款较小版本的Gemini Pro和Nano将于周三发布。Pro型号可以通过谷歌的Bard聊天机器人访问，Nano版本将在使用谷歌Android系统的手机上使用。

　　最强大的版本Ultra正在外部进行测试，直到2024年初才会公开发布，届时它也将集成到巴德高级版本中。

　　哈萨比斯表示，Ultra型号将接受外部“红队”测试，由专家测试产品的安全性和安全性，谷歌将与美国政府分享结果，这符合乔·拜登10月份发布的行政命令。

　　 A promotio<em></em>nal image for Google’s Gemini

　　当被问及双子座是否与美国或英国政府合作进行了测试时，哈萨比斯表示，谷歌正在与英国政府就人工智能安全研究所对该模型进行测试进行讨论。

　　“我们正在与他们讨论我们希望他们如何做到这一点，”他说。Pro和Nano机型将不在测试范围之内，这些机型是针对最先进或“前沿”机型的。

　　谷歌巴德总经理萧茜茜(Sissie Hsiao)表示，支持专业版的巴德目前还不会在英国发布。在包括欧盟和瑞士在内的欧洲经济区(European Economic Area)也没有发布。她表示:“我们正在与当地监管机构合作。”谷歌没有具体说明在英国和欧盟推迟上市背后的监管问题。

　　谷歌表示，在推理和图像理解等32项基准测试中的30项中，Ultra的表现超过了ChatGPT最强大的模型GPT-4等“最先进”的人工智能模型。在八项测试中的六项中，Pro机型的表现超过了GPT-3.5，后者是ChatGPT免费版本的基础技术。

　　然而，谷歌表示，“幻觉”或错误的答案仍然是该模型的一个问题。“我想说，这仍然是一个尚未解决的研究问题，”谷歌DeepMind的产品主管伊莱·柯林斯(Eli Collins)说。

　　尽管Gemini的所有版本都可以理解多模态的提示，但本月公开发布的Pro和Nano版本目前只能以文本或代码格式响应。

　　跳过过去的通讯推广

　　通讯推广后

　　谷歌发布了Gemini能力的宣传视频，其中包括展示Ultra模型理解学生手写的物理作业答案，并提供如何解决问题的详细提示，包括显示方程。其他视频显示，Gemini的Pro版本分析并识别了一只鸭子的画，并正确回答了智能手机视频中一个人在演哪部电影——在这种情况下，这是一个业余爱好者拍摄的《黑客帝国》中著名的“子弹时间”场景。

　　柯林斯表示，双子座最强大的模型已经显示出“先进的推理”，并可能显示出“新颖的能力”——一种执行以前人工智能模型没有显示出的任务的能力。

　　人工智能是指能够执行通常需要人类智能才能完成的任务的计算机系统。人们对人工智能的担忧包括大量制造虚假信息，以及创建逃避人类控制的“超级智能”系统。一些专家对通用人工智能的发展感到担忧，通用人工智能是指能够以人类或高于人类的智能水平执行一系列任务的人工智能。

　　当被问及双子座是否代表了向AGI迈出的重要一步时，哈萨比斯说:“我认为这些多模式基础模型将成为AGI的关键组成部分，无论最终的系统是什么。但仍有一些东西被遗漏，我们现在仍在研究和创新。”

　　谷歌表示，Ultra是第一个超越人类专家的人工智能模型，在一项名为MMLU的多任务测试中获得了90%的分数，该测试涵盖了57个科目，包括数学、物理、法律、医学和伦理学。Ultra现在将为一款名为alphaacode2的新代码编写工具提供动力，谷歌声称该工具的性能可以超过85%的竞争水平的人类计算机程序员。

　　哈萨比斯说，用于训练双子座的数据来自包括开放网络在内的一系列来源。出版和创意产业已经对人工智能公司利用网上可获得的受版权保护的内容构建模型提出了抗议。

本内容为作者翻译自英文材料或转自网络，不代表本站立场，未经允许不得转载
如对本稿件有异议或投诉，请联系本站

想要了解世界的人，都在阿赫网