摘要:·GPT-4到来,更多生成式人工智能应用程序开发出来,开源和去中心化的努力将继续增加,训练大型语言模型的数据要开始耗尽了,欧盟通过人工智能法案,搜索革命,普通民众将首次使用完全无人驾驶的汽车,为机器人技术建立基础模型。2022年人工智能(A...
·GPT-4到来,更多生成式人工智能应用程序开发出来,开源和去中心化的努力将继续增加,训练大型语言模型的数据要开始耗尽了,欧盟通过人工智能法案,搜索革命,普通民众将首次使用完全无人驾驶的汽车,为机器人技术建立基础模型。
2022年人工智能(AI)的进展快到让人喘不过气来,可能当你刚刚弄懂最新情况时,一篇新论文或新发现又会使你的理解过时。
7月,一名叫Blake Lemoine的谷歌工程师认为谷歌的对话语言模型LaMDA是有意识的,它应该享有与人类平等的权利。当月DeepMind宣布,其AlphaFold模型预测了地球上几乎每个具有测序基因组的生物体的几乎所有已知蛋白质结构。
OpenAI的DALL·E 2,Stable AI和CompVis的Stable Diffusion把人工智能生成内容(AIGC)变成了科技界最火热的缩写词。8月初,一位名叫Jason Allen的美国人在美术比赛中提交3张人工智能生成的图像,其中一件作品获得了数字艺术/数字摄影类别的最高奖项,引发了社交媒体上关于艺术本质以及成为艺术家意味着什么的激烈辩论。
用DALL-E绘制的骑马的宇航员。
到了年终,全世界为OpenAI的大型对话语言模型ChatGPT癫狂了。5天之内,超过100万用户注册使用ChatGPT,让它写诗、写代码,聊人生。
在这一年飞速发展的基础上,2023年的人工智能会有什么变化?监管是否会遏制住人工智能带来的问题?强大、变革性的新形式人工智能是否会出现,就像ChatGPT一样颠覆某个行业?
GPT-4到来
GPT-4是OpenAI强大的生成语言模型的下一代产品,预计将在新年伊始发布,相对于GPT-3和3.5来说性能会有巨大的变化。基于GPT-3.5开发的ChatGPT足以让世界疯狂,但仅仅是GPT-4发布的前奏而已。
GPT-4会是什么样子?也许不会比GPT-3大多少。在今年早些时候发表的一篇有影响力的研究论文中,DeepMind的研究人员确定,当今的大型语言模型实际上比它们应该有的规模要大,为了获得最佳的模型性能(考虑到有限的计算预算),今天的模型应该有更少的参数,但在更大的数据集上训练。换句话说,训练数据胜过模型大小。
GPT-4有可能是多模态的:也就是说,除了文本之外,它将能够处理图像、视频和其他数据模式。这将意味着,它可以将文本提示作为输入并产生图像,或者将视频作为输入并通过文本回答有关问题。
一个多模态的GPT-4将是一个重磅炸弹。然而,更有可能的是,GPT-4将是一个纯文本的模型,在语言任务上的表现重新定义技术水平。具体而言,这将是什么样子呢?GPT-4可能在两个语言领域表现出惊人的飞跃,即记忆(保留和参考以前对话中的信息的能力)和总结(将大量文本提炼为基本元素的能力)。
更多生成式人工智能应用程序
随着Prisma实验室的人工智能自拍应用Lensa的走红,我们可以期待很多类似的应用出现。
Mozilla基金会的高级政策研究员Maximilian Gahntz说,将生成式人工智能整合到消费者技术中会放大这种系统的影响,无论是好的还是坏的。例如,Stable Diffusion从互联网上获取了数十亿张图片,直到它“学会”将某些词语和概念与某些图像联系起来,但文本生成模型常常很容易被欺骗,以支持攻击性的观点或产生误导性的内容。
Knives and Paintbrushes开放研究小组的成员Mike Cook同意Gahntz的观点,即生成式人工智能将继续被证明是一种有问题的变革力量。但他认为,2023年是生成式人工智能“最终开始谈钱”的一年。
“仅仅激励一个专家群体(创造新技术)是不够的。技术要想成为我们生活的长期组成部分,它必须让某人赚大钱,或者对普通大众的日常生活产生有意义的影响。”Cook说,“所以我预测,我们将看到一个切实的推动力,使生成式人工智能真正实现这两件事中的一件,并取得不同的成功。”
8月初,一位名叫Jason Allen的美国人在美术比赛中提交3张人工智能生成的图像,其中一件作品获得了数字艺术/数字摄影类别的最高奖项。
开源和去中心化的努力将继续增加
2022年,少数人工智能公司主导了舞台,主要是OpenAI和Stability AI。但在2023年,随着构建新系统的能力超越“资源丰富和强大的人工智能实验室”,钟摆可能会向开源方向摆动。
Gahntz说,社区可能会导致对正在构建和部署的系统进行更多审查。如果模型是开放的,将使更多的关键研究成为可能,这些研究指出了与生成式人工智能有关的许多缺陷和危害。
这种以社区为中心的例子包括EleutherAI和BigScience的大型语言模型。Stability AI也在资助一些社区,比如专注于音乐生成的Harmonai和生物技术实验集合 OpenBioML。
训练和运行复杂的人工智能模型仍然需要资金和专业知识,但随着开源工作的成熟,分散的计算可能会挑战传统的数据中心。
BigScience最近发布了开源的Petals项目,向实现分散开发迈出了一步。Petals让人们贡献他们的计算能力,以运行通常需要高端GPU或服务器的大型AI语言模型。
“现代生成模型的训练和运行在计算上很昂贵。”艾伦人工智能研究所(Allen Institute for AI)的高级研究科学家Chandra Bhagavatula说:“粗略估计,ChatGPT每天的支出约为300万美元。为了使其在商业上可行并能更广泛地使用,解决这个问题将是很重要的。”
然而,只要方法和数据仍然是专有的,那么大型实验室将继续拥有竞争优势。最近,OpenAI发布了Point-E,一个可以在文字提示下生成3D物体的模型。虽然OpenAI开源了这个模型,但没有披露Point-E的训练数据的来源,也没有发布这些数据。
最近,OpenAI发布了Point-E,一个可以在文字提示下生成3D物体的模型。
训练大型语言模型的数据要开始耗尽了
说数据是新的石油已经成为一种陈词滥调。这个比喻是恰当的:这两种资源都是有限的,都有被耗尽的风险。这种担忧最迫切的人工智能领域是语言模型。
正如前面所说,建立更强大的大型语言模型的最有效方法不是让它们更大,而是在更多的数据上训练它们。但世界上还有多少语言数据呢?更确切地说,还有多少语言数据能达到可接受的质量门槛?互联网上的许多文本数据对训练大型语言模型来说是没有用的。
这是一个具有挑战性的问题,根据一个研究小组的说法,世界上高质量文本数据的总存量在4.6万亿至17.2万亿个符号之间,这包括世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码,以及互联网的大部分其他内容,经过质量过滤后的数据。
换句话说,我们可能会在一个数量级内耗尽世界上所有有用的语言训练数据供应。这可能是对语言人工智能持续进步的一个重大障碍。私下里,许多领先的人工智能研究人员和企业家都担心这个问题。
随着研究人员寻求解决迫在眉睫的数据短缺问题,预计明年将在这一领域看到大量的关注和活动。一个可能的解决方案是合成数据,尽管关于如何操作的细节还很不清楚。另一个想法是:系统地转录全世界的口语内容。
欧盟的人工智能法案
人工智能技术正在迅速发展,监管也在迅速发展。虽然美国已经通过了各种基于州的人工智能相关法案,但大家期待的是更大的政府监管——以欧盟人工智能法案的形式。12月6日,欧盟人工智能法案向成为法律迈进了一步,欧盟理事会通过对法案草案的修正案,为欧洲议会“最终确定其共同立场”打开了大门。
欧盟人工智能法案是第一批关于人工智能的广泛监管框架之一,预计将在2023年成为法律,可能会改变公司开发和部署人工智能系统的方式。
像美国纽约市的人工智能招聘法规这样的地方性法规也会带来改变,该法规要求用于招聘、雇用或晋升的人工智能和基于算法的技术在使用前要进行偏见审计。
不过,在任何人被罚款或指控之前,预计会有更多关于规则和法庭案件的争论。企业仍可能在即将出台的法律中争夺有利地位,比如人工智能法案的风险类别。
目前的规则将人工智能系统划分为四个风险类别,每个类别都有不同的要求和审查水平。最高风险类别的系统,即“高风险”人工智能(如信用评分算法、机器人手术应用程序),必须满足某些法律、道德和技术标准,才允许进入欧洲市场。风险最低的类别,即“最低或无风险”的人工智能(如垃圾邮件过滤器,人工智能视频游戏),只规定了透明度义务,如让用户知道他们正在与人工智能系统互动。
有些企业会希望进入最低的风险类别,以减少自己的责任和对监管机构的可见度。
搜索革命
上周有媒体报道,谷歌内部针对ChatGPT发出“红色代码”。而在12月中旬,You.com宣布已经向生成式人工智能应用开放了其搜索平台。然后在圣诞节前夕,You.com首次推出YouChat,称之为“带有引文和实时数据的对话式人工智能,就在你的搜索栏里”。
这一切加起来,可能是2023年搜索领域的一场真正的战斗。谷歌每天处理数十亿次搜索,所以它不会很快消失。但也许ChatGPT甚至You.com将开启围绕人工智能和搜索未来的新的、富有想象力的思考。
搜索是人们浏览和获取数字信息的主要手段,是现代互联网体验的核心。在ChatGPT之后,对话式搜索的概念得到了广泛关注。如果你能与人工智能代理进行动态对话,以找到要找的东西,为什么要输入一个查询并得到一长串链接?
对话式搜索有一个光明的未来。不过,在它准备好进入黄金时段之前,需要解决一个主要挑战:准确性。目前,它们偶尔会完全自信地分享与事实不符的信息。OpenAI首席执行官Sam Altman最近警告说:“现在依靠ChatGPT做任何重要的事情都是一个错误。”大多数用户不会接受一个95%甚至99%时间都准确的搜索应用,以可扩展和更强大的方式解决这个问题,将是搜索创新者在2023年面临的主要挑战之一。
除了You.com,Character.AI、Metaphor和Perplexity是一波有前途的年轻初创公司,它们希望与谷歌对抗,用大型语言模型和对话界面重塑消费者搜索。
但消费者搜索并不是大型语言模型将改变的唯一类型的搜索。企业搜索也同样处于一个新的黄金时代的边缘。像Hebbia和Glean这样的初创公司正在引领使用大型语言模型改造企业搜索的潮流。
下一代搜索的机会也已经超出了文本范围。人工智能的最新进展为多模态搜索开辟了全新的可能性:即跨数据模态查询和检索信息的能力。
鉴于视频占了互联网上所有数据的80%,没有任何一种模式比视频代表着更大的机会。想象一下,能够毫不费力地精确搜索视频中的某个特定时刻、人、概念或行动。
自谷歌在互联网时代崛起以来,搜索的变化出乎意料的小。明年,由于大型语言模型的出现,这将开始发生巨大的变化。
普通民众将首次使用完全无人驾驶的汽车
在自动驾驶汽车领域经过多年不成熟的炒作和未实现的承诺之后,最近发生了一些事情,但似乎很少有人注意到:真正的无人驾驶汽车已经到来。
如果你在旧金山,你可以下载Cruise应用程序,叫一辆无人驾驶的汽车,把你从A点送到B点。Cruise目前只在夜间(晚上10点到凌晨5点半)提供这些无人驾驶服务,但该公司预计几周内将在整个旧金山提供全天候的服务。Cruise的竞争对手Waymo紧随其后。
Cruise的夜间无人驾驶出租车服务。
2023年,机器人出租车服务将迅速从一个迷人的新奇事物过渡到一个可行、方便、甚至平凡的城市交通方式。道路上的机器人出租车的数量和用户人数将激增。简而言之,自动驾驶汽车即将进入其商业化和规模化阶段。
除了旧金山之外,预计明年至少还有两个美国城市将向公众提供完全的无人驾驶服务。可能的候选地点包括凤凰城、奥斯汀、拉斯维加斯和迈阿密。
为机器人技术建立基础模型
斯坦福大学一个研究小组去年提出的“基础模型”一词,是指在广泛的数据上训练出来的大规模人工智能模型,它不是为某一特定任务而建立的,而是可以在广泛的不同活动中有效地执行。
基础模型一直是人工智能的关键驱动力。今天的基础模型强大得令人惊叹,但是无论它们是像GPT-3这样的文本生成模型,还是像Stable Diffusion这样的文本到图像模型,或者像Adept这样的计算机行动模型,都只在数字领域运作。
在现实世界中行动的人工智能系统,例如自动驾驶汽车、仓库机器人、无人机、人形机器人,到目前为止仍然大多没有被新的基础模型范式所触及。
这种情况将在2023年改变。预计关于机器人基础模型的早期开创性工作将来自世界领先的人工智能研究机构:DeepMind、谷歌大脑或者OpenAI。
为机器人建立一个基础模型,换句话说,为物理世界建立一个基础模型,意味着什么?这样的模型可能会在来自不同传感器模式(如相机、雷达、激光雷达)的大量数据上进行训练,以发展对物理学和现实世界物体的普遍理解:不同的物体如何移动,如何相互作用,它们有多重、多脆弱、多柔软或多灵活,当你触摸、掉落或投掷它们时会发生什么。这种现实世界的基础模型可以针对特定的硬件平台和下游活动进行微调。
参考资料:
https://arstechnica.com/information-technology/2022/12/please-slow-down-the-7-biggest-ai-stories-of-2022/
https://techcrunch.com/2022/12/26/what-to-expect-from-ai-in-2023/?guccounter=1
https://venturebeat.com/ai/the-5-top-ai-stories-im-waiting-for-in-2023-the-ai-beat/
https://www.forbes.com/sites/robtoews/2022/12/20/10-ai-predictions-for-2023/?sh=4de34f18fab7