摘要:过去十年对于人工智能(AI)领域来说是一段激动人心的多事之秋。对深度学习潜力的适度探索变成了一个领域的爆炸性扩散,现在包括从电子商务中的推荐系统到自动驾驶汽车的对象检测以及可以创建从逼真的图像到连贯文本的所有内容的生成模型。在本文中,我们将...
过去十年对于人工智能(AI)领域来说是一段激动人心的多事之秋。对深度学习潜力的适度探索变成了一个领域的爆炸性扩散,现在包括从电子商务中的推荐系统到自动驾驶汽车的对象检测以及可以创建从逼真的图像到连贯文本的所有内容的生成模型。
在本文中,我们将沿着记忆之路漫步,并重新审视使我们走到今天这一步的一些关键突破。无论您是经验丰富的AI从业者,还是只是对该领域的最新发展感兴趣,本文都将为您提供有关使AI成为家喻户晓的显着进展的全面概述。
2013年被广泛认为是深度学习的“成年”,由计算机视觉的重大进步发起。根据Geoffrey Hinton最近的采访,到2013年,“几乎所有的计算机视觉研究都转向了神经网络”。这一繁荣主要是由一年前图像识别方面相当令人惊讶的突破推动的。
2012 年 5 月,深度卷积神经网络 (CNN) AlexNet 在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 中取得了破纪录的表现,展示了深度学习在图像识别任务中的潜力。它实现了15.3%的前10名错误,比最接近的竞争对手低9.<>%。
这一成功背后的技术改进有助于人工智能的未来发展轨迹,并极大地改变了人们对深度学习的看法。
首先,作者应用了一个由五个卷积层和三个全连接线性层组成的深度CNN——这种架构设计在当时被许多人认为是不切实际的。此外,由于网络深度产生的大量参数,训练是在两个图形处理单元(GPU)上并行完成的,展示了显着加速大型数据集训练的能力。通过将传统的激活函数(如 sigmoid 和 tanh)换成更高效的整流线性单元 (ReLU),进一步缩短了训练时间。
这些共同导致了AlexNet成功的进步标志着人工智能历史上的一个转折点,并引发了学术界和技术界对深度学习的兴趣激增。因此,2013年被许多人认为是深度学习真正开始起飞的拐点。
同样发生在2013年的,尽管有点被AlexNet的噪音淹没了,但变分自动编码器(VAE)的发展 - 可以学习表示和生成图像和声音等数据的生成模型。它们通过在低维空间(称为潜在空间)中学习输入数据的压缩表示来工作。这允许他们通过从这个学习到的潜在空间中采样来生成新数据。后来,VAE为生成建模和数据生成开辟了新的途径,在艺术、设计和游戏等领域都有应用。
第二年,即2014年<>月,随着Ian Goodfellow及其同事引入生成对抗网络(GAN),深度学习领域见证了另一项重大进展。
GAN 是一种神经网络,能够生成类似于训练集的新数据样本。本质上,两个网络同时训练:(1)生成器网络生成假的或合成的样本,(2)鉴别器网络评估它们的真实性。这种训练是在类似游戏的设置中进行的,生成器试图创建欺骗鉴别器的样本,而鉴别器试图正确调用假样本。
当时,GAN 代表了一种强大而新颖的数据生成工具,不仅用于生成图像和视频,还用于生成音乐和艺术。他们还通过展示在不依赖显式标签的情况下生成高质量数据样本的可能性,为无监督学习的进步做出了贡献,这个领域在很大程度上被认为是不发达和具有挑战性的。
2015年,人工智能领域在计算机视觉和自然语言处理(NLP)方面取得了相当大的进步。
Kaim He及其同事发表了一篇题为“图像识别的深度残差学习”的论文,其中他们介绍了残差神经网络或ResNets的概念 - 通过添加快捷方式使信息更容易地流经网络的架构。与常规神经网络不同,在常规神经网络中,每一层都将前一层的输出作为输入,而在 ResNet 中,添加了额外的残差连接,这些连接跳过一个或多个层并直接连接到网络中的更深层。
结果,ResNets能够解决梯度消失的问题,这使得训练更深层次的神经网络超出了当时的预期。这反过来又导致了图像分类和对象识别任务的显着改进。
大约在同一时间,研究人员在递归神经网络(RNN)和长短期记忆(LSTM)模型的开发方面取得了相当大的进展。尽管这些模型自 1990 年代以来一直存在,但直到 2015 年左右才开始引起一些轰动,主要是由于以下因素:(1) 更大、更多样化的数据集可用于训练,(2) 计算能力和硬件的改进,这使得训练更深入、更复杂的模型成为可能,以及 (3) 在此过程中进行的修改, 例如更复杂的门控机制。
因此,这些架构使语言模型能够更好地理解文本的上下文和含义,从而在语言翻译、文本生成和情感分析等任务方面取得了巨大的改进。当时RNN和LSTM的成功为我们今天看到的大型语言模型(LLM)的发展铺平了道路。
在1997年加里·卡斯帕罗夫(Garry Kasparov)被IBM的深蓝(Deep Blue)击败后,另一场人与机器的战斗在2016年给游戏界带来了冲击波:谷歌的AlphaGo击败了围棋的世界冠军李世石(Lee Sedol)。
世石的失败标志着人工智能发展轨迹上的另一个重要里程碑:它表明,在一个曾经被认为过于复杂以至于计算机无法处理的游戏中,机器甚至可以胜过最熟练的人类玩家。AlphaGo结合了深度强化学习和蒙特卡洛树搜索,分析了以前游戏中的数百万个位置,并评估了最佳可能的行动——在这种情况下,这种策略远远超过了人类的决策。
可以说,2017年是最关键的一年,为我们今天目睹的生成AI的突破奠定了基础。
2017年<>月,Vaswani及其同事发布了基础论文“注意力就是你所需要的一切”,该论文介绍了利用自我注意的概念来处理顺序输入数据的转换器架构。这允许更有效地处理远程依赖关系,这在以前是传统RNN架构的挑战。
变压器由两个基本组件组成:编码器和解码器。编码器负责对输入数据进行编码,例如,输入数据可以是单词序列。然后,它采用输入序列并应用多层自我注意和前馈神经网络来捕获句子中的关系和特征,并学习有意义的表示。
从本质上讲,自我注意允许模型理解句子中不同单词之间的关系。与以固定顺序处理单词的传统模型不同,转换器实际上一次检查所有单词。他们根据每个单词与句子中其他单词的相关性为每个单词分配称为注意力分数的东西。
另一方面,解码器从编码器获取编码表示并生成输出序列。在机器翻译或文本生成等任务中,解码器根据从编码器接收的输入生成翻译后的序列。与编码器类似,解码器也由多层自我注意和前馈神经网络组成。但是,它包括一个额外的注意力机制,使其能够专注于编码器的输出。然后,这允许解码器在生成输出时考虑来自输入序列的相关信息。
此后,转换器架构已成为LLM开发的关键组件,并在整个NLP领域带来了重大改进,例如机器翻译,语言建模和问答。
在Vaswani等人发表他们的基础论文几个月后,OpenAI于1年2018月推出了Generative P再训练Transformer或GPT-1,它利用转换器架构有效地捕获文本中的长期依赖关系。GPT-<> 是最早证明无监督预训练有效性的模型之一,然后对特定的 NLP 任务进行微调。
谷歌也利用了仍然相当新颖的变压器架构,它在2018年底发布并开源了他们自己的预训练方法,称为Bidirectional Encoder R来自Transformers或BERT的演示。与以前以单向方式处理文本的模型(包括 GPT-1)不同,BERT 同时考虑每个单词在两个方向上的上下文。为了说明这一点,作者提供了一个非常直观的示例:
。在句子“我访问了银行账户”中,单向上下文模型将表示 基于“我访问了”而不是“账户”的“银行”。但是,BERT 使用其上一个和下一个上下文表示“银行”——“我访问了......帐户“——从深度神经网络的最底部开始,使其深度双向。
双向性的概念是如此强大,以至于它使BERT在各种基准任务上优于最先进的NLP系统。
除了GPT-1和BERT,图神经网络或GNNs在那一年也引起了一些轰动。它们属于专门设计用于处理图形数据的神经网络类别。GNN 利用消息传递算法在图形的节点和边缘之间传播信息。这使网络能够以更直观的方式学习数据的结构和关系。
这项工作允许从数据中提取更深入的见解,从而扩大了深度学习可以应用于的问题范围。有了GNN,在社交网络分析、推荐系统和药物发现等领域取得了重大进展。
2019 年标志着生成模型的几项显着进步,尤其是 GPT-2 的引入。该模型在许多NLP任务中实现了最先进的性能,并且能够生成高度逼真的文本,事后看来,这确实使同行望而却步。
该领域的其他改进包括DeepMind的BigGAN和NVIDIA的StyleGAN,它可以生成与真实图像几乎无法区分的高质量图像,以及NVIDIA的StyleGAN,它可以更好地控制这些生成的图像的外观。
总的来说,现在被称为生成人工智能的这些进步进一步推动了这一领域的界限,而且......
...不久之后,另一种模型诞生了,即使在技术社区之外,它也已成为家喻户晓的名字:GPT-3。该模型代表了LLM的规模和能力的重大飞跃。为了将事情放在上下文中,GPT-1 具有可怜的 117.1 亿个参数。GPT-5 的这一数字上升到 2 亿,GPT-175 的这一数字上升到 3 亿。
大量的参数空间使 GPT-3 能够在各种提示和任务中生成非常连贯的文本。它还在各种NLP任务中表现出令人印象深刻的表现,例如文本完成,问答,甚至创意写作。
此外,GPT-3 再次强调了使用自监督学习的潜力,它允许在大量未标记的数据上训练模型。这样做的好处是,这些模型可以获得对语言的广泛理解,而无需进行广泛的特定于任务的训练,这使得它更加经济。
从蛋白质折叠到图像生成和自动编码辅助,2021 年是多事之秋,这要归功于 AlphaFold 2、DALL·E和GitHub Copilot。
AlphaFold 2被誉为数十年来的蛋白质折叠问题的长期解决方案。DeepMind的研究人员扩展了变压器架构,以创建evoformer块 - 利用进化策略进行模型优化的架构 - 以构建能够根据其3D氨基酸序列预测蛋白质1D结构的模型。这一突破具有巨大的潜力,可以彻底改变药物发现、生物工程等领域,以及我们对生物系统的理解。
OpenAI今年也再次登上新闻,发布了DALL·E. 从本质上讲,该模型结合了 GPT 样式语言模型和图像生成的概念,以便从文本描述中创建高质量的图像。
为了说明这个模型有多强大,请考虑下面的图像,它是在提示“飞行汽车的未来世界油画”下生成的。
最后,GitHub发布了后来成为每个开发人员最好的朋友的东西:Copilot。这是与OpenAI合作实现的,OpenAI提供了底层语言模型Codex,该模型在大量公开可用的代码语料库上进行训练,进而学会了理解和生成各种编程语言的代码。开发人员只需提供代码注释即可使用Copilot,说明他们试图解决的问题,然后模型将建议代码来实现解决方案。其他功能包括用自然语言描述输入代码以及在编程语言之间翻译代码的能力。
人工智能在过去十年中的快速发展最终带来了突破性的进步:OpenAI 的 ChatGPT,这是一款聊天机器人,于 2022 年 <> 月发布到野外。该工具代表了NLP领域的一项前沿成就,能够对各种查询和提示生成连贯且上下文相关的响应。此外,它可以参与对话,提供解释,提供创造性建议,协助解决问题,编写和解释代码,甚至模拟不同的个性或写作风格。
人们可以与机器人交互的简单直观的界面也刺激了可用性的急剧上升。以前,主要是技术社区会玩弄最新的基于人工智能的发明。然而,如今,人工智能工具几乎渗透到每个专业领域,从软件工程师到作家、音乐家和广告商。许多公司还使用该模型来自动化服务,例如客户支持、语言翻译或回答常见问题解答。事实上,我们看到的自动化浪潮重新引发了一些担忧,并激发了关于哪些工作可能面临自动化风险的讨论。
尽管 ChatGPT 在 2022 年占据了大部分风头,但在图像生成方面也取得了重大进展。稳定扩散是一种潜在的文本到图像扩散模型,能够从文本描述中生成逼真的图像,由Stability AI发布。
稳定扩散是传统扩散模型的扩展,传统扩散模型的工作原理是迭代地向图像添加噪声,然后逆转恢复数据的过程。它旨在通过不直接在输入图像上操作,而是在它们的低维表示或潜在空间上操作来加速此过程。此外,通过将变压器嵌入的文本提示从用户添加到网络来修改扩散过程,使其能够在每次迭代中指导图像生成过程。
总体而言,2022 年 ChatGPT 和稳定扩散的发布凸显了多模式、生成式 AI 的潜力,并引发了该领域进一步发展和投资的巨大推动力。
毫无疑问,今年已成为LLM和聊天机器人的一年。越来越多的模型正在以快速增长的速度开发和发布。
例如,24 月 3 日,Meta AI 发布了 LLaMA——尽管参数数量要少得多,但在大多数基准测试中性能优于 GPT-14 的 LLM。不到一个月后,即 4 月 3 日,OpenAI 发布了 GPT-4——GPT-<> 的更大、功能更强大、多模式版本。虽然 GPT-<> 的确切参数数量未知,但据推测为数万亿。
15月21日,斯坦福大学的研究人员发布了Alpaca,这是一种轻量级语言模型,由LLaMA在教学演示中进行了微调。几天后,在2月10日,谷歌推出了ChatGPT的竞争对手:巴德。谷歌也刚刚在本月<>月<>日早些时候发布了最新的LLM,PaLM-<>。随着该领域无情的发展步伐,在您阅读本文时,很可能已经出现了另一种模型。
我们也看到越来越多的公司将这些模型整合到他们的产品中。例如,Duolingo宣布了其GPT-4驱动的Duolingo Max,这是一个新的订阅层,旨在为每个人提供量身定制的语言课程。Slack还推出了一个名为Slack GPT的人工智能助手,它可以做一些事情,比如起草回复或总结线程。此外,Shopify在公司的Shop应用程序中引入了一个由ChatGPT驱动的助手,该应用程序可以帮助客户使用各种提示来识别所需的产品。
有趣的是,人工智能聊天机器人现在甚至被认为是人类治疗师的替代品。例如,美国聊天机器人应用程序Replika为用户提供了一个“关心的AI伴侣,总是在这里倾听和交谈,总是站在你身边”。其创始人尤金妮娅·库伊达(Eugenia Kuyda)表示,该应用程序拥有各种各样的客户,从自闭症儿童,他们将其作为“在人类互动之前热身”的一种方式,到孤独的成年人,他们只是需要朋友。
在我们结束之前,我想强调一下过去十年人工智能发展的高潮:人们实际上正在使用Bing!今年早些时候,微软推出了其GPT-4驱动的“网络副驾驶”,该副驾驶已针对搜索进行了定制,并且首次在...永远(?)已经成为谷歌在搜索业务中长期统治地位的有力竞争者。
当我们回顾过去十年的人工智能发展时,很明显,我们一直在见证一种转变,这对我们的工作、业务和互动方式产生了深远的影响。最近在生成模型,特别是LLM方面取得的大多数重大进展似乎都坚持“越大越好”的普遍信念,指的是模型的参数空间。这在 GPT 系列中尤其明显,它从 117.1 亿个参数 (GPT-4) 开始,在每个连续模型增加大约一个数量级后,最终产生具有潜在数万亿个参数的 GPT-<>。
然而,根据最近的一次采访,OpenAI首席执行官Sam Altman认为,我们已经走到了“越大越好”时代的尽头。展望未来,他仍然认为参数计数将呈上升趋势,但未来模型改进的主要重点将是提高模型的能力、实用性和安全性。
后者特别重要。考虑到这些强大的人工智能工具现在掌握在公众手中,不再局限于研究实验室的受控环境,现在比以往任何时候都更加重要的是,我们要谨慎行事,确保这些工具是安全的,并符合人类的最佳利益。希望我们能看到人工智能安全方面的发展和投资,就像我们在其他领域看到的那样。
原文标题:Ten Years of AI in Review
原文链接:https://www.kdnuggets.com/2023/06/ten-years-ai-review.html
作者:Thomas A Dorfer
编译:LCR