图片来源:JAKUB PORZYCKI/ZUMA PRESS
文章来源: 华尔街日报 – 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
OpenAI发布了其旗舰AI系统的一个更便宜的版本,除了文本之外能更好地消化图像和视频,并能通过语音方式与用户实时互动。
演员杰昆·菲尼克斯(Joaquin Phoenix)在电影《她》中。这部2013年上映的电影讲述了一个男人爱上语音助手的故事。 OpenAI的高管从这部电影中获得灵感,才有了这个新产品。图片来源:WARNER BROS/EVERETT COLLECTION
OpenAI发布了其旗舰AI系统的一个更便宜的版本,其中内置了一个语音助手以方便用户使用。和其他科技公司一样,OpenAI也在加紧推出产品和功能以吸引用户。
OpenAI首席技术官Mira Murati周一表示,这款被称作GPT-4o的新AI模型除了文本之外还能更好地消化图像和视频,并能通过语音与用户实时互动。OpenAI表示,与现有的语音助手不同,用户在与新的语音功能对话时可以打断它,而新模型能够近乎即时地做出反应。
OpenAI高管在直播演示中展示了新模型是如何分析代码、为两个对话者提供语言翻译,或指导用户完成写在纸上的基本代数问题的,这一切似乎都能实时做到。
GPT-4o的问世表明,在投入巨资和精力开发算力和系统后,OpenAI和其他初创公司越来越希望扩大用户群,并将它们的生成式AI技术商业化。
在OpenAI发布新产品一天后,谷歌(Google)也将于周二召开年度开发者大会,并预计将在会上发布自己的新产品。作为AI领域的先驱,谷歌一直在和OpenAI以及微软(Microsoft)争夺生成式AI领域的霸主地位。作为OpenAI的合作伙伴和支持者,微软没有参与GPT-4o的研发。
OpenAI首席技术官Mira Murati与CEO阿尔特曼摄于去年。她说新AI模型GPT-4o能通过语音与用户实时互动。图片来源:NIKKI RITCHER FOR THE WALL STREET JOURNAL
OpenAI首席执行官阿尔特曼(Sam Altman)将GPT-4o比作电影中常见的那种AI工具。他在去年的一次演讲中说,他和OpenAI的其他高管从2013年的电影《她》(Her)中获得灵感,这部电影讲述了一个男人爱上语音助手的故事。在周一发布公告后不久,他和OpenAI的其他员工在X上提到这部电影。
阿尔特曼周一在个人博客上写道:“初代ChatGPT展示了语言界面的雏形,而这款模型能给人截然不同的感觉。”
OpenAI说,新模型还能从语音语调或面部表情中检测人类的情绪。它还能在不同的情感语调之间更快速地切换,从戏剧性的声音到机器人语调,再到歌声。这项功能未来几周将向每月支付20美元的ChatGPT-Plus用户推出。
GPT-4o还将面向企业推出。Murati说,该模型的速度将是目前顶级产品GPT-4 Turbo的两倍,而成本只有后者的一半。该公司表示,GPT-4o中的“o”代表“一切(omni)”。从下周一开始,使用免费版ChatGPT的用户将可以使用GPT-4o的图像和视觉功能。
OpenAI已经提供了一种名为“语音模式”的功能,是将三个独立模型结合在一起并以语音的方式回应用户,但当多个人一起说话或是背景比较嘈杂的时候,这个功能可能发生混淆,而且速度也不够快。OpenAI前沿研究主管Mark Chen在接受采访时说,这种速度是无法适应“模型链”的。
相比之下,GPT-4o是根据文本、视觉和音频材料训练而成的单一模型,可以更快更准确地响应提示。
OpenAI高管不愿透露训练GPT-4o模型时使用了什么样的数据,也未透露OpenAI是否能利用较少的算力训练该模型。OpenAI还在开发一种名为GPT-5的全新AI模型,有望在现有技术的基础上实现大幅跃升。
Murati周一说,比起电影《她》,OpenAI团队从人类对话中获得的启发更大。“你不说话了,我就接一句。我能读懂你的语气并做出回应。这非常自然,丰富,而且充满互动。”