数据是供不应求的几种重要AI资源之一。图片来源:EMIL LENDOF/THE WALL STREET JOURNAL, ISTOCK
文章来源: 华尔街日报 – 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
OpenAI和Anthropic等公司正在设法寻找足够的信息来训练下一代AI模型。数据是供不应求的几种重要AI资源之一。
急于开发更强大AI的公司突然面临一个新问题:对于它们的计划来说,互联网可能太小了。
OpenAI、谷歌(Google)和其他公司开发的功能越来越强大的系统需要更多的信息来学习。而在一些数据所有者屏蔽AI公司对自身数据访问的情况下,这种需求导致互联网上可用的优质公共数据池变得紧张。
一些企业高管和研究人员表示,该行业对高质量文本数据的需求可能会在两年内超过供应量,从而有可能减缓AI的发展。
AI公司正在寻找尚未开发的信息源,并重新思考如何训练这些系统。熟悉内情的人士说,ChatGPT的出品商OpenAI已经讨论过将公开的YouTube视频里所说的内容转换成文本,并以此为基础训练该公司的下一个模型GPT-5。
一些公司还在尝试使用AI生成的数据(也称合成数据)作为训练材料,许多研究人员表示,这种方法实际上可能会造成严重的故障。
这些做法通常都是秘密进行的,因为企业高管认为解决方案也可以是一种竞争优势。
Alphabet首席执行官皮采(Sundar Pichai)去年在讨论谷歌DeepMind时发表讲话。
图片来源:JEFF CHIU/ASSOCIATED PRESS
AI研究员Ari Morcos说,数据短缺“是一个前沿性的研究问题”;他曾在Meta Platforms和谷歌DeepMind部门工作,去年创办了DatologyAI。他的公司打造改进数据选择的工具,可能帮助企业以更低的成本训练AI模型;DatologyAI的投资者包括一些AI先驱企业。“目前还没有成熟的方法可以做到这一点。”
数据是供不应求的几种重要AI资源之一。在ChatGPT、谷歌的Gemini和其他AI机器人背后运行的大型语言模型所需的芯片也很稀缺。此外,行业领导者担心的还有数据中心和这些中心所需电力的不足。
AI语言模型是利用从互联网上获取的文本建立的,这些文本包括科学研究、新闻报道和维基百科(Wikipedia)条目。这些材料被分解成词元(token),即模型用来学习如何构建类似人类表达的单词和部分单词。
一般来说,AI模型训练的数据越多,能力就越强。OpenAI对这种方法押下了大注,由此成为了世界上最著名的AI公司。
Sora是OpenAI新近公布的一个人工智能模型,可以根据文本提示生成逼真的视频。该公司根据《华尔街日报》科技专栏作家Joanna Stern提供的提示词生成了几段视频,在随后的专访中,该公司首席技术官米拉·穆拉提(Mira Murati)解释了Sora的工作原理,谈论了其完善计划,但回避了有关模型训练素材的一些问题。封面图片制作:Preston Jessee for The Wall Street Journal
OpenAI没有透露该公司目前最先进的语言模型GPT-4的详细训练材料;GPT-4已成为高级生成性AI系统的行业标准。
但据Pablo Villalobos估计,GPT-4的训练素材已经多达12万亿个词元;Villalobos为研究院Epoch研究AI。Villalobos和其他研究人员估计,根据一个名为Chinchilla扩展定律(Chinchilla Scaling Law)的计算机科学原理,如果研究人员继续遵循当前的增长轨迹,像GPT-5这样的AI系统将需要60万亿到100万亿个词元的数据。
Villalobos说,利用所有可用的高质量语言和图像数据之后,仍可能至少存在10万亿个-20万亿个词元的缺口。尚不清楚如何弥补这一缺口。
两年前,Villalobos和他的同事写道,高质量数据到2024年中期供不应求的可能性为50%,到2026年供不应求的可能性为90%。自那以来他们变得更乐观了一点儿,他们计划把预测所涉时间框架更新到2028年。
位于旧金山的OpenAI办公室。
图片来源:CLARA MOKRI FOR THE WALL STREET JOURNAL
可在网上获得的大部分数据对AI训练来说并无用处,因为存在句子残缺等缺陷,或者不能增进模型的知识。Villalobos估计,互联网上的数据只有一小部分对此类训练有用——也许仅相当于非营利组织Common Crawl收集的信息的十分之一。该组织的网络数据集被AI开发者广泛使用。
与此同时,社交媒体平台、新闻出版商和其他相关方出于对公平补偿等问题的关切,已在对获取其数据用于AI训练设限。公众也很少愿意交出私人对话数据(如通过iMessage进行的聊天)来帮助训练这些模型。
扎克伯格(Mark Zuckerberg)最近宣扬了Meta Platforms在自家平台上获取数据的能力,将其当成该公司发展AI业务的一大优势。他说,Meta可以挖掘旗下各个网络(包括Facebook和Instagram)上数以千亿计公开分享的图片和视频,其总量大于多数常用的数据集。尚不清楚这些数据中有多大比例会被视为高质量数据。
扎克伯格最近宣扬了Meta在自家平台上获取数据的能力,将其当成该公司发展AI业务的一大优势。
图片来源:CARLOS BARRIA/REUTERS
数据挑选工具初创企业DatologyAI采用的一种策略被称为课程学习,即按照特定顺序把数据输入语言模型,希望AI能在概念之间形成更好的关联。在2022年的一篇论文中,DatologyAI的Morcos和合著者估计,模型借助半数相关数据就能达到同样的效果——只要数据是合适的——这有可能降低训练和运行大型生成式AI系统所需的巨大成本。
迄今为止的其他一些研究暗示课程学习这种办法效果不佳,但Morcos说他们正持续调整自己的方法。
“这是深度学习方面不足为外人道的秘密:这是在以直观的方法试错,”Morcos说。
包括OpenAI的合作伙伴微软(Microsoft)在内,一些科技公司正构建体量仅为GPT-4的一小部分,但可以实现特定目标的较小语言模型。
OpenAI首席执行官阿尔特曼(Sam Altman)已表示该公司正在研究训练未来模型的新方法。他在去年的一次会议上说:“我认为我们正处于一个时代的末期,这个时代由这些巨型模型组成;我们会用其他方式让它们变得更好。”
知情人士说,OpenAI还讨论过创建一个数据市场,在这个市场上OpenAI可以建立一种方法来确定每个数据点对最终训练模型的价值贡献程度,并向相关内容的提供者支付报酬。
谷歌内部也在讨论同样的想法。但迄今为止,研究人员一直在努力构建这样一个系统,目前还不清楚他们能否找到突破口。
OpenAI还在努力收集一切已有的有用信息。知情人士称,高管们已经讨论过使用自动语音识别工具Whisper在互联网上转录高质量视频和音频示例。这些人说,其中一些将通过公开的YouTube视频来实现,这些视频中的一部分已经被用来训练GPT-4。
OpenAI的一位发言人说:“我们的数据集是独一无二的,我们进行了整理,以帮助我们的模型领悟世界”,她还说,其工具从公开可用的内容中提取信息,并通过合作伙伴关系获取非公开数据。
谷歌没有回复记者的置评请求。
一些公司也在尝试制作自己的数据。
输入本身由AI生成的模型文本,被认为是近亲繁殖的计算机科学版本。此类模型往往会出现胡编乱造的现象,一些研究人员称之为“模型崩溃”。
Anthropic首席科学家Jared Kaplan在2月份举行的《华尔街日报》首席信息官网络峰会上。
图片来源:NIKKI RITCHER FOR THE WALL STREET JOURNAL
去年的一篇研究论文讨论的一项实验中,加拿大和英国的研究人员发现,当被要求讨论14世纪的英国建筑时,这种模型的后代版本会喋喋不休地谈论不存在的杰克兔物种。
OpenAI和Anthropic的研究人员正试图通过创建所谓更高质量的合成数据来规避这些问题。
在最近的一次采访中,Anthropic首席科学家Jared Kaplan表示,某些类型的合成数据可能会有所帮助。Anthropic说,它使用“我们内部生成的数据”为其最新版本的Claude模型提供信息。这位发言人称,OpenAI也在探索合成数据生成。
许多研究数据问题的人士对最终找到解决方案持乐观态度。Villalobos将其比作“石油峰值”,即担心石油生产可能会触顶并引发一场痛苦的经济崩溃。由于新技术的出现,这种担忧已被证明是不准确的,比如本世纪初的压裂技术。
他说,AI世界也有可能出现类似的发展。“最大的不确定性在于你将看到什么样的突破。”