时间:2023-02-06 13:55:07 | 浏览:146
两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI“扒开”了脑子。
没想到,这个性能强大的AI竟和人类思维方式如此相像。
打个比方,无论你听到“炸鸡”二个字,还是看到炸鸡实物,都可能流口水。因为你的大脑里有一组“炸鸡神经元”,专门负责对炸鸡起反应。
这个CLIP也差不多。
无论听到“蜘蛛侠”三个字,还是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。
OpenAI发现,原来CLIP有一个“蜘蛛侠神经元”。
在脑科学中,这并不是啥新鲜事。因为早在15年前,研究人脑的科学家就发现了,一张脸对应一组神经元。
但是对AI来说却是一个巨大的进步。过去,从文字到图像,和从图像到文字,用的是两套系统,工作方式都不一样。
而CLIP却有着和人脑极为相似的工作方式,CV和NLP不仅技术上打通,连脑子里想的都一样,还有专门的处理区域。
看到二者如此相像,有网友表示:
而且,OpenAI还惊讶地发现,CLIP对图片的响应似乎类似与癫痫患者颅内神经元,其中包括对情绪做出反应的神经元。说不定AI今后还能帮助治疗神经类疾病。
先前情回顾一下,CLIP到底是神马。
不久前,OpenAI发布了脱胎于GPT-3的DALL·E,能按照文字描述准确生成图片。
DALL·E对自然语言和图像的理解和融汇贯通,做到了前无古人的水准。一经问世,立刻引来吴恩达、Keras之父等大佬点赞。
而DALL·E的核心部分,就是CLIP。
简单的说,CLIP是一个重新排序模型,检查DALL·E所有生成结果,挑出好的展现出来。
CLIP能做“裁判”,离不开将文字和图片意义“融合”理解的能力,但这样的能力从哪来,之前人们根本不清楚。
OpenAI紧接着深挖CLIP神经网络的原理结构,发现了它的多模态神经元,具有跟人类大脑类似的工作机制:能够对文字和图像中的相同意义同时做出响应。
而所谓模态,是指某个过程或某件事,包含多个不同的特征,图像通常与标签和文本解释相关联,是完整理解一个事物的要素。
比如,你看到蜘蛛侠三个字,或者是Spiderman,都能联想起穿着红蓝紧身衣的超级英雄。
熟悉这个概念以后,看到这样一幅黑白手绘,你也能马上明白这是“蜘蛛侠”:
CLIP中的多模态神经元,能力与人类没有任何区别。
这样专门负责某个事物的神经元,OpenAI发现了好几个,其中有18个是动物神经元,19个是名人神经元。
甚至还有专门理解情绪的神经元:
其实,人本身就是一个多模态学习的总和,我们能看到物体,听到声音,感觉到质地,闻到气味,尝到味道。
为了让AI摆脱以往“人工智障”式的机械工作方式,一条路径就是让它向人一样能够同时理解多模态信号。
所以也有研究者认为认为,多模态学习是真正的人工智能发展方向。
在实现过程中,通常是将识别不同要素子网络的输出加权组合,以便每个输入模态可以对输出预测有一个学习贡献。
根据任务不同,将不同的权值附加到子网后预测输出,就能让神经网络实现不同的性能。
而具体到CLIP上,可以从研究人员的测试结果中清楚的看到,从语言模型中诞生的它,对于文字,比对图像更加敏感。
但是,文字和图像在AI“脑海”中的联动是一把双刃剑。
如果我们在贵宾犬的身上加上几串美元符号,那么CLIP就会把它识别为存钱罐。
OpenAI把这种攻击方式叫做“印字攻击”(typographic attacks)。
这意味着,我们可以在图片中插入文字实现对AI的攻击,甚至不需要复杂的技术。
只需一张纸、一支笔,攻破AI从未如此容易。
苹果就这样被改装成了“苹果”iPod。
甚至还有网友把苹果改装成了图书馆。
中国网友应该更加熟悉,看来我们可以像用符咒封住僵尸一样封住AI。
在防止对抗攻击这件事上,CLIP还有很多工作要做。
即便如此,“多模态神经元”依然是在AI可解释性上的重要进展。
可用性和可解释性就像鱼和熊掌。
我们现在用的正确率最高的图像识别模型,其可解释性很差。而可解释AI做出的模型,很难应用在实际中。
AI并不能满足于实用。AI医疗、无人驾驶,如果不能知其所以然,伦理道德就会受到质疑。
OpenAI表示,大脑和CLIP这样的合成视觉系统,似乎都有一种非常相似的信息组织方式。CLIP用事实证明,AI系统并没有我们想象的那么黑。
CLIP不仅是个设计大师,它还是一个开放大脑的AI,未来也许减少人工智能错误与偏见。
参考链接:
[1] https://openai.com/blog/multimodal-neurons/
[2] https://www.axios.com/openai-vision-recognition-system-bias-fadb191c-de0f-46c5-a5a8-ef5ae7421c9e.html
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
今天凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。眼花缭乱的技术迭代和全新功能毫无疑问再次带给我们巨大震撼,但在冷静之后,本次发布的一些细节也让我们感到担忧:这家将“open”写在公司名称里的科技企业,似乎正在朝着close的方
OpenAI是全球最著名的人工智能研究机构,发布了许多著名的人工智能技术和成果,如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现,引起了全世界广泛的关
两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI“扒开”了脑子。没想到,这个性能强大的AI竟和人类思维方式如此相像。打个比方,无论你听到“炸鸡”二个字,还是看到炸鸡实物,都可能流口水。因为你的大脑里有一组“炸鸡神经元”,专门负责对
据澎湃新闻,当地时间3月25日,OpenAI CEO山姆·奥特曼谈AI竞争战,表示未来会出现多种AGI,而OpenAI不需要打败每位对手,“我们没有无限逐利的动力”。他还称:“从ChatGPT开始,AI出现了推理能力。但没人能解读这种能力出
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI搞事情!AI“看”了一眼GitHub上人类都是怎么提交更新(commit)的,然后就模仿人类程序员修改代码……最终,这个AI还成功“调教”出了个智能体机器人:没开玩笑,这种细思极恐的事
每经编辑:孙志成,毕陆名,盖源源3月15日,#GPT4做一个网站只要十秒#登上热搜。当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大型语言模型的最新版本——GPT-4。在官方演示中,GPT-4几乎就只花了十来秒的时间,识别
近日,OpenAI创始人山姆·阿尔特曼(Sam Altman)接受一期采访时表示:“我们无法理解为什么它会出现这种能力,未来它的确会出现杀死人类的可能性”。阿尔特曼口中的能力指的是什么呢?据悉OpenAI从GPT-4开始已经有了部分人类的心
文|许档 编| 展洋出品|商业秀现如今,只要ChatGPT一有任何风吹草动,就会马上搅动国内外各大科技公司、投资人和创业公司的心。北京时间3月15日的凌晨,OpenAI有了新突破。在经历了多次迭代和改进升级后,OpenAI重磅发布了更为强大
【环球网科技综合报道】据外媒消息,人工智能实验室的OpenAI Five人工智能系统在当地时间4月13日于美国旧金山迎战去年Ti8(第八届Dota2国际邀请赛)冠军OG战队,这是OpenAI在去年8月战胜Dota2半职业战队后再次尝试挑战职
OpenAI将与支付公司Stripe合作,后者为其ChatGPT等人工智能工具提供支付和订阅服务。Stripe 还将把 OpenAI 的新自然语言技术 GPT-4 融入其产品和服务中。Stripe首席技术官David Singleton表示
日前,OpenAI 公布其大型语言模型的最新版本 GPT-4。据悉,与 ChatGPT 所用的模型相比,GPT-4 是多模态的,同时支持文本和图像输入功能。该新模型将产生更少的错误答案、更少地偏离谈话轨道、更少地谈论禁忌话题,甚至在许多标准
1980年塑料正式走进人类生活,到现今塑料袋成为反人类的十大发明之一。人类在享受塑料制品带来的更多便利之后,伴随而来的更多的是情况污染问题。白色污染是国际情况保护组织斗争的十大污染之一,也是全人类面对的情况难题。不光在中国陆地还是海洋、河流