OpenAI 最新“神”操作:让 GPT-4 去解释 GPT-2 的行为!
由+ChatGPT+掀起的这场+AI+革命,令人们感慨神奇的同时,也不禁发出疑问:AI+究竟是怎么做到这一切的?此前,
声明:本文来自于微信公众号 CSDN(ID:CSDNnews),作者:CSDN,授权站长之家转载发布。
由 ChatGPT 掀起的这场 AI 革命,令人们感慨神奇的同时,也不禁发出疑问:AI 究竟是怎么做到这一切的?
此前,即便是专业的数据科学家,都难以解释大模型(LLM)运作的背后。而最近,OpenAI 似乎做到了——本周二,OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。
【资料图】
即:让一个 AI “黑盒”去解释另一个 AI “黑盒”。
工作量太大,决定让 GPT-4去解释 GPT-2
OpenAI 之所以做这项研究的原因,在于近来人们对 AI 伦理与治理的担忧:“语言模型的能力越来越强,部署也越来越广泛,但我们对其内部工作方式的理解仍然非常有限。”
由于 AI 的“黑盒”性质,人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法,也难以区分其正确性,因而“可解释性”是亟待重要的一个问题。
AI 的发展很大程度上是在模仿人类,因而大模型和人脑一样,也由神经元组成,它会观察文本规律进而影响到输出结果。所以想要研究 AI 的“可解释性”,理论上要先了解大模型的各个神经元在做什么。
按理来说,这本应由人类手动检查,来弄清神经元所代表的数据特征——参数量少还算可行,可对于如今动辄百亿、千亿级参数的神经网络,这个工作量显然过于“离谱”了。
于是,OpenAI 灵机一动:或许,可以用“魔法”打败“魔法”?
“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释,并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2,一个 OpenAI 发布于4年前、神经元数量超过30万个的开源大模型。
让 GPT-4“解释” GPT-2的原理
具体来说,让 GPT-4“解释” GPT-2的过程,整体分为三个步骤。
(1)首先,让 GPT-4生成解释,即给出一个 GPT-2神经元,向 GPT-4展示相关的文本序列和激活情况,产生一个对其行为的解释。
如上图所示,GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。
(2)其次,再次使用 GPT-4,模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。
(3)最后,比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果,根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中,GPT-4得分为0.34。
通过这样的方法,OpenAI 共让 GPT-4解释了 GPT-2中的307200个神经元,其中大多数解释的得分很低,只有超过1000个神经元的解释得分高于0.8。
在官博中,OpenAI承认目前 GPT-4生成的解释并不完美,尤其在解释比 GPT-2规模更大的模型时,效果更是不佳:“可能是因为后面的 layer 更难解释。”
尽管绝大多数解释的得分不高,但 OpenAI 认为,“即使 GPT-4给出的解释比人类差,但也还有改进的余地”,未来通过 ML 技术可提高 GPT-4的解释能力,并提出了三种提高解释得分的方法:
对解释进行迭代,通过让 GPT-4想出可能的反例,根据其激活情况修改解释来提高分数。
使用更大的模型来进行解释,平均得分也会上升。
调整被解释模型的结构,用不同的激活函数训练模型。
值得一提的是,以上这些解释数据集、可视化工具以及代码,OpenAI 都已在 GitHub 上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释,以及更好的工具来使用解释探索 GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
“再搞下去,AI 真的要觉醒了”
除此之外,OpenAI 还提到了目前他们采取的方法有很多局限性,未来需要一一攻克:
GPT-4给出的解释总是很简短,但神经元可能有着非常复杂的行为,不能简洁描述。
当前的方法只解释了神经元的行为,并没有涉及下游影响,希望最终能自动化找到并解释能实现复杂行为的整个神经回路。
只解释了神经元的行为,并没有解释产生这种行为的背后机制。
整个过程都是相当密集的计算,算力消耗很大。
在博文的最后,OpenAI 展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而,在这些技术能够揭露不诚实等行为之前,我们还有很长的路要走。”
对于 OpenAI 的这个研究成果,今日在国内外各大技术平台也引起了广泛关注。
有人在意其得分不佳:“对 GPT-2的解释都不行,就更不知道 GPT-3和 GPT-4内部发生了什么,但这才是许多人更关注的答案。”有人感慨 AI 进化的方式愈发先进:“未来就是用 AI 完善 AI 模型,会加速进化。”也有人担心 AI 进化的未来:“再搞下去,AI 真的要觉醒了。”
那么对此,你又有什么看法呢?
参考链接:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://news.ycombinator.com/item?id=35877402
(举报)
关键词:
由+ChatGPT+掀起的这场+AI+革命,令人们感慨神奇的同时,也不禁发出疑问:AI+究竟是怎么做到这一切的?此前,
精品VIP投研内容
春末夏初的季节,在灵隐一带,许多绿树的树顶上都会钻出一束束洁白的圆锥形花序,像烛台,又有点像细细的宝
5月10日,麦澜德(688273)融资买入274 48万元,融资偿还284 95万元,融资净卖出10 47万元,融资余额2798 4
汽车的vgrs灯亮起时,说明可变齿转向系统出现故障。可变齿转向系统可以根据汽车的速度和转向角度来调整转向
面向世界航天发展前沿、面向国家航天重大战略需求,这一年,西昌卫星发射中心着眼文昌航天发射场能力综合提
1、有时需要多人进行聊天,这时需要群发消息,可以创建群。2、但有些人使用手机QQ群发的时候经常会遇到这样
随着5月12日,《塞尔达传说:王国之泪》(以下称《王国之泪》)迎来正式发售,在这之前,从早期的宣传图到
长城山海炮(图片|配置|询价)的HEV版本正式过审工信部,出现在了最新一期的申报公告名单上。新车不需要外接
记者10日从中铁宝桥集团有限公司获悉,由该公司自主研制的中国新一代高锰钢辙叉产品——Ⅲ代高锰钢组合辙叉
长期喝白开水和长期喝茶,谁的身体更健康?答案出乎意料……,浓茶,茶水,绿茶,减肥,健康,白开水,饮水量
为切实做好教育行业消防安全工作,全面提升师生消防安全意识,保障广大师生的生命财产安全,营造良好的校园
【本文来自《为什么曾作为国家名片,山水甲天下的桂林,没落到今天这个地步?》评论区,标题为小编添加】视
今天来聊聊关于奥比岛红宝石60个真号2020,奥比岛红宝石60个真号的文章,现在就为大家来简单介绍下奥比岛红
沙溪不大,却温暖又惬意
怎么不狂了?主动申请交易,离开湖人无球可打!4年6000万没了啊,浓眉,托布,交易,小乔丹,湖人主场,丹佛掘金队
2023德宏教师资格证认定时间2023年云南省中小学教师资格认定时间安排上半年网上报名时间:5月15日9:00至6月
5月10日消息,今日,联发科发布天玑9200+旗舰5G移动平台,进一步丰富了天玑旗舰家族产品组合。天玑9200+的C
闪迪卡无法格式化,闪迪u盘无法格式化这个很多人还不知道,现在让我们一起来看看吧!1、你这现象找个量产工
电商报快讯:5月10日消息,在第七届全球跨境电子商务大会上,阿里国际站正式对外发布了“数字外贸新速度计
截至2023年5月10日收盘,南网科技(688248)报收于39 26元,上涨0 93%,换手率6 35%,成交量5 18万手,成交额2 03亿元。
野村和巴克莱的CPI预期与彭博社调查中值一致,同时其均指出美联储最爱的“超级核心通胀”(剔除住房的核心
欢迎观看本篇文章,小柴来为大家解答以上问题。像中枪一样中文版歌词,像中枪一样歌曲简介很多人还不知道,
长江日报大武汉客户端5月10日讯(记者叶飞艳)5月10日,“融合与创新:当代艺术与城市发展——2022武汉双年
5月7日,韩国首尔,韩国总统尹锡悦(左)与夫人、日本首相岸田文雄(右)与夫人参加了在总统府举行的晚宴。
Copyright 2015-2022 每日酒业网 版权所有 备案号:浙ICP备2022016517号-15 联系邮箱:5 146 761 13 @qq.com