欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

谷歌明明有更好的技术,但为何被OpenAI抢了风头?

2023-04-06 09:32:17 227

摘要:ChatGPT的底层技术是Transformer,而Transformer是谷歌于2017年提出的。那时候,OpenAI刚刚成立两年,还没有开始实操项目。那为何OpenAI可以做到后来居上?第一,预训练路线之争语言模型主要有两种技术模式,一...

ChatGPT的底层技术是Transformer,而Transformer是谷歌于2017年提出的。

那时候,OpenAI刚刚成立两年,还没有开始实操项目。

那为何OpenAI可以做到后来居上?

第一,预训练路线之争

语言模型主要有两种技术模式,一是“模型预训练+Fine-tuning(微调)”模式,一是“模型预训练+Prompting(提示)”模式。

谷歌与OpenAI,在这里走上了不同的路径。

谷歌用的是模型预训练+Fine-tuning”,第一阶段的预训练,谷歌采用了类似ELMO的双向语言模型。

而OpenAI不同,它采用了“模型预训练+Prompting”模式,在第一阶段,预训练的语言模型为单向的,即只能通过预测单词的上文去推理。

谷歌的模型名为Bert,OpenAI的则命名为GPT。从机制上讲,Bert能够抽取双向的更多的特征,应该比单向的GPT要强。

事实也是如此,在2018—2022年,Bert的表现相比GPT一直遥遥领先,是业界最主流的语言模型的技术路径。所以在当时,谷歌根本没有必要忌惮OpenAI,相反地,OpenAI对单向模型的选择,却是广受争议,不被理解。

到2022年11月30日,ChatGPT推出后,所有人才终于意识到,在训练规模宏大到一定级别后,单向的语言模型并不弱于双向。

第二,Fine-tuning还是Prompting?

语言模型只是第一步,更大的分歧在于第二步,Fine-tuning还是Prompting?在这里,谷歌与OpenAI走上了不同的道路。

Fine-tuning的优势很明显,毕竟现在的大语言模型,规模动辄上千万级,从头训练费时费力,成本高昂。Fine-tuning只需要规模小得多的数据集,操作性好,用到的算力也不太贵,就可以拥有一个“功能定制”的大语言模型。

谷歌的Bert,选择的就是这个模式。

对GPT模型来说,其实在最早时期,也是通过Fine-tuning调整模型。但在2020年,GPT-3横空出世,OpenAI技术路线越来越明显地收敛到Prompting,即通过0次或少次的示例,令大语言模型适应即将执行的具体任务。

自GPT-3出现以来,市面上的大语言模型,几乎都走了“自回归语言模型+Prompting”模式。显然,通过少数示例来使用模型,比Fine-tuning的门槛更低、成本更低,没理由不吸引更多的人进入赛道。

从此,OpenAI一时风头无两,而谷歌的风头则被暂时盖过。不过,下一阶段谁能更高一筹,目前下结论还为时尚早。


以上是伽利略的第28篇笔记。与君共勉。

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!
友情链接
币圈社群欧易官网