摘要:ChatGPT的底层技术是Transformer,而Transformer是谷歌于2017年提出的。那时候,OpenAI刚刚成立两年,还没有开始实操项目。那为何OpenAI可以做到后来居上?第一,预训练路线之争语言模型主要有两种技术模式,一...
ChatGPT的底层技术是Transformer,而Transformer是谷歌于2017年提出的。
那时候,OpenAI刚刚成立两年,还没有开始实操项目。
那为何OpenAI可以做到后来居上?
语言模型主要有两种技术模式,一是“模型预训练+Fine-tuning(微调)”模式,一是“模型预训练+Prompting(提示)”模式。
谷歌与OpenAI,在这里走上了不同的路径。
谷歌用的是模型预训练+Fine-tuning”,第一阶段的预训练,谷歌采用了类似ELMO的双向语言模型。
而OpenAI不同,它采用了“模型预训练+Prompting”模式,在第一阶段,预训练的语言模型为单向的,即只能通过预测单词的上文去推理。
谷歌的模型名为Bert,OpenAI的则命名为GPT。从机制上讲,Bert能够抽取双向的更多的特征,应该比单向的GPT要强。
事实也是如此,在2018—2022年,Bert的表现相比GPT一直遥遥领先,是业界最主流的语言模型的技术路径。所以在当时,谷歌根本没有必要忌惮OpenAI,相反地,OpenAI对单向模型的选择,却是广受争议,不被理解。
到2022年11月30日,ChatGPT推出后,所有人才终于意识到,在训练规模宏大到一定级别后,单向的语言模型并不弱于双向。
语言模型只是第一步,更大的分歧在于第二步,Fine-tuning还是Prompting?在这里,谷歌与OpenAI走上了不同的道路。
Fine-tuning的优势很明显,毕竟现在的大语言模型,规模动辄上千万级,从头训练费时费力,成本高昂。Fine-tuning只需要规模小得多的数据集,操作性好,用到的算力也不太贵,就可以拥有一个“功能定制”的大语言模型。
谷歌的Bert,选择的就是这个模式。
对GPT模型来说,其实在最早时期,也是通过Fine-tuning调整模型。但在2020年,GPT-3横空出世,OpenAI技术路线越来越明显地收敛到Prompting,即通过0次或少次的示例,令大语言模型适应即将执行的具体任务。
自GPT-3出现以来,市面上的大语言模型,几乎都走了“自回归语言模型+Prompting”模式。显然,通过少数示例来使用模型,比Fine-tuning的门槛更低、成本更低,没理由不吸引更多的人进入赛道。
从此,OpenAI一时风头无两,而谷歌的风头则被暂时盖过。不过,下一阶段谁能更高一筹,目前下结论还为时尚早。
以上是伽利略的第28篇笔记。与君共勉。