OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！-每日酒业网

首页> 资讯> 详情

OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！

2023-05-11 09:17:18 来源：CSDN公众号

声明:本文来自于微信公众号 CSDN（ID:CSDNnews），作者:CSDN，授权站长之家转载发布。

由 ChatGPT 掀起的这场 AI 革命，令人们感慨神奇的同时，也不禁发出疑问:AI 究竟是怎么做到这一切的?

此前，即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。而最近，OpenAI 似乎做到了——本周二，OpenAI 发布了其最新研究:让 GPT-4去试着解释 GPT-2的行为。

【资料图】

即:让一个 AI “黑盒”去解释另一个 AI “黑盒”。

工作量太大，决定让 GPT-4去解释 GPT-2

OpenAI 之所以做这项研究的原因，在于近来人们对 AI 伦理与治理的担忧:“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”

由于 AI 的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。

AI 的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究 AI 的“可解释性”，理论上要先了解大模型的各个神经元在做什么。

按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。

于是，OpenAI 灵机一动:或许，可以用“魔法”打败“魔法”?

“我们用 GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而 GPT-4首次解释的对象是 GPT-2，一个 OpenAI 发布于4年前、神经元数量超过30万个的开源大模型。

让 GPT-4“解释” GPT-2的原理

具体来说，让 GPT-4“解释” GPT-2的过程，整体分为三个步骤。

（1）首先，让 GPT-4生成解释，即给出一个 GPT-2神经元，向 GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。

如上图所示，GPT-4对 GPT-2该神经元生成的解释为:与电影、人物和娱乐有关。

（2）其次，再次使用 GPT-4，模拟被解释的神经元会做什么。下图即 GPT-4生成的模拟内容。

（3）最后，比较 GPT-4模拟神经元的结果与 GPT-2真实神经元的结果，根据匹配程度对 GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。

通过这样的方法，OpenAI 共让 GPT-4解释了 GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。

在官博中，OpenAI承认目前 GPT-4生成的解释并不完美，尤其在解释比 GPT-2规模更大的模型时，效果更是不佳:“可能是因为后面的 layer 更难解释。”

尽管绝大多数解释的得分不高，但 OpenAI 认为，“即使 GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过 ML 技术可提高 GPT-4的解释能力，并提出了三种提高解释得分的方法:

对解释进行迭代，通过让 GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。

使用更大的模型来进行解释，平均得分也会上升。

调整被解释模型的结构，用不同的激活函数训练模型。

值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI 都已在 GitHub 上开源发布:“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索 GPT-2。”

（GitHub 地址:https://github.com/openai/automated-interpretability）

“再搞下去，AI 真的要觉醒了”

除此之外，OpenAI 还提到了目前他们采取的方法有很多局限性，未来需要一一攻克:

GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。

当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。

只解释了神经元的行为，并没有解释产生这种行为的背后机制。

整个过程都是相当密集的计算，算力消耗很大。

在博文的最后，OpenAI 展望道:“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”

对于 OpenAI 的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。

有人在意其得分不佳:“对 GPT-2的解释都不行，就更不知道 GPT-3和 GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨 AI 进化的方式愈发先进:“未来就是用 AI 完善 AI 模型，会加速进化。”也有人担心 AI 进化的未来:“再搞下去，AI 真的要觉醒了。”

那么对此，你又有什么看法呢?

参考链接:

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://news.ycombinator.com/item?id=35877402

（举报）

关键词：

OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！

由+ChatGPT+掀起的这场+AI+革命，令人们感慨神奇的同时，也不禁发出疑问:AI+究竟是怎么做到这一切的?此前，

2023-05-11 09:17:18

全球热推荐：电报解读|加快超高清视频全产业链优化升级设备及内容供应商受益

精品VIP投研内容

2023-05-11 08:45:04

当前速读：杭州灵隐寺600多岁七叶树开花了！花形像“宝塔”，你见过吗？

春末夏初的季节，在灵隐一带，许多绿树的树顶上都会钻出一束束洁白的圆锥形花序，像烛台，又有点像细细的宝

2023-05-11 07:59:04

【全球速看料】麦澜德：5月10日融资买入274.48万元，融资融券余额3422.89万元

5月10日，麦澜德（688273）融资买入274 48万元，融资偿还284 95万元，融资净卖出10 47万元，融资余额2798 4

2023-05-11 07:20:28

vgrs灯亮是什么意思（rev灯亮是什么意思啊）

汽车的vgrs灯亮起时，说明可变齿转向系统出现故障。可变齿转向系统可以根据汽车的速度和转向角度来调整转向

2023-05-11 06:26:17

乘舟向天宫载梦又启航——天舟六号货运飞船发射升空侧记

面向世界航天发展前沿、面向国家航天重大战略需求，这一年，西昌卫星发射中心着眼文昌航天发射场能力综合提

2023-05-11 05:43:38

qq消息怎么群发给好友_qq消息怎么群发

1、有时需要多人进行聊天，这时需要群发消息，可以创建群。2、但有些人使用手机QQ群发的时候经常会遇到这样

2023-05-11 03:58:16

《塞尔达传说：王国之泪》的改变与不变

随着5月12日，《塞尔达传说：王国之泪》（以下称《王国之泪》）迎来正式发售，在这之前，从早期的宣传图到

2023-05-11 01:19:40

长城山海炮油电混动车型工信部过审综合油耗显著降低

长城山海炮(图片|配置|询价)的HEV版本正式过审工信部，出现在了最新一期的申报公告名单上。新车不需要外接

2023-05-10 23:05:17

中国自主研制Ⅲ代高锰钢辙叉正式发布

记者10日从中铁宝桥集团有限公司获悉，由该公司自主研制的中国新一代高锰钢辙叉产品——Ⅲ代高锰钢组合辙叉

2023-05-10 22:08:48

环球讯息：长期喝白开水和长期喝茶，谁的身体更健康？答案出乎意料……

长期喝白开水和长期喝茶，谁的身体更健康？答案出乎意料……,浓茶,茶水,绿茶,减肥,健康,白开水,饮水量

2023-05-10 21:20:41

全球关注：“五大”活动，促学校消防安全全面提升——青岛市教育行业消防安全“大培训、大指导、大检查、大宣传、大建设”活动正式启动

为切实做好教育行业消防安全工作，全面提升师生消防安全意识，保障广大师生的生命财产安全，营造良好的校园

2023-05-10 20:20:59

一些所谓旅游城市，专门针对外地游客和外地牌照车辆往死里罚、玩命宰

【本文来自《为什么曾作为国家名片，山水甲天下的桂林，没落到今天这个地步？》评论区，标题为小编添加】视

2023-05-10 19:44:28

奥比岛红宝石60个真号2020 奥比岛红宝石60个真号

今天来聊聊关于奥比岛红宝石60个真号2020，奥比岛红宝石60个真号的文章，现在就为大家来简单介绍下奥比岛红

2023-05-10 18:58:18

云南沙溪，茶马古道最后的千年古镇|天天视讯

沙溪不大，却温暖又惬意

2023-05-10 18:37:14

怎么不狂了？主动申请交易，离开湖人无球可打！4年6000万没了啊-关注

怎么不狂了？主动申请交易，离开湖人无球可打！4年6000万没了啊,浓眉,托布,交易,小乔丹,湖人主场,丹佛掘金队

2023-05-10 17:59:30

2023德宏教师资格证认定时间（上半年+下半年）

2023德宏教师资格证认定时间2023年云南省中小学教师资格认定时间安排上半年网上报名时间：5月15日9:00至6月

2023-05-10 17:21:44

联发科发布天玑 9200+ 移动平台：CPU和GPU性能提升能耗降低

5月10日消息，今日，联发科发布天玑9200+旗舰5G移动平台，进一步丰富了天玑旗舰家族产品组合。天玑9200+的C

2023-05-10 17:15:14

焦点！闪迪卡无法格式化（闪迪u盘无法格式化）

闪迪卡无法格式化，闪迪u盘无法格式化这个很多人还不知道,现在让我们一起来看看吧！1、你这现象找个量产工

2023-05-10 16:39:10

阿里国际站发布“数字外贸新速度计划”

电商报快讯：5月10日消息，在第七届全球跨境电子商务大会上，阿里国际站正式对外发布了“数字外贸新速度计

2023-05-10 16:11:09

天天通讯！南网科技（688248）5月10日主力资金净买入1234.83万元

截至2023年5月10日收盘，南网科技(688248)报收于39 26元，上涨0 93%，换手率6 35%，成交量5 18万手，成交额2 03亿元。

2023-05-10 15:47:49

美联储会否按下加息“暂停键”？聚焦今夜这一重磅数据

野村和巴克莱的CPI预期与彭博社调查中值一致，同时其均指出美联储最爱的“超级核心通胀”（剔除住房的核心

2023-05-10 15:22:19

像中枪一样中文版歌词_像中枪一样歌曲简介

欢迎观看本篇文章，小柴来为大家解答以上问题。像中枪一样中文版歌词，像中枪一样歌曲简介很多人还不知道，

2023-05-10 14:40:31

双年展激活了地方文化的创新活力_全球看热讯

长江日报大武汉客户端5月10日讯（记者叶飞艳）5月10日，“融合与创新：当代艺术与城市发展——2022武汉双年

2023-05-10 14:13:56

天天快播：对日和解，尹锡悦“饮鸩止渴”？

5月7日，韩国首尔，韩国总统尹锡悦（左）与夫人、日本首相岸田文雄（右）与夫人参加了在总统府举行的晚宴。

2023-05-10 13:34:52

热点新闻

动态

品牌

i茅台即将上线100ml/瓶53度飞天茅台！实行“专货专销”模式

做强做优做大我国数字经济怎样下好“先手棋”？

新疆军区某团组织侦察分队训练

OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！

热门推荐

OpenAI 最新“神”操作：让 GPT-4 去解释 GPT-2 的行为！

全球热推荐：电报解读|加快超高清视频全产业链优化升级 设备及内容供应商受益

当前速读：杭州灵隐寺600多岁七叶树开花了！花形像“宝塔”，你见过吗？

【全球速看料】麦澜德：5月10日融资买入274.48万元，融资融券余额3422.89万元

vgrs灯亮是什么意思（rev灯亮是什么意思啊）

乘舟向天宫 载梦又启航——天舟六号货运飞船发射升空侧记

qq消息怎么群发给好友_qq消息怎么群发

《塞尔达传说：王国之泪》的改变与不变

长城山海炮油电混动车型工信部过审 综合油耗显著降低

中国自主研制Ⅲ代高锰钢辙叉正式发布

环球讯息：长期喝白开水和长期喝茶，谁的身体更健康？答案出乎意料……

全球关注：“五大”活动，促学校消防安全全面提升——青岛市教育行业消防安全“大培训、大指导、大检查、大宣传、大建设”活动正式启动

一些所谓旅游城市，专门针对外地游客和外地牌照车辆往死里罚、玩命宰

奥比岛红宝石60个真号2020 奥比岛红宝石60个真号

云南沙溪，茶马古道最后的千年古镇|天天视讯

怎么不狂了？主动申请交易，离开湖人无球可打！4年6000万没了啊-关注

2023德宏教师资格证认定时间（上半年+下半年）

联发科发布天玑 9200+ 移动平台：CPU和GPU性能提升 能耗降低

焦点！闪迪卡无法格式化（闪迪u盘无法格式化）

阿里国际站发布“数字外贸新速度计划”

天天通讯！南网科技（688248）5月10日主力资金净买入1234.83万元

美联储会否按下加息“暂停键”？聚焦今夜这一重磅数据

像中枪一样中文版歌词_像中枪一样歌曲简介

双年展激活了地方文化的创新活力_全球看热讯

天天快播：对日和解，尹锡悦“饮鸩止渴”？

热点新闻

动态

品牌

行业

全球热推荐：电报解读|加快超高清视频全产业链优化升级设备及内容供应商受益

乘舟向天宫载梦又启航——天舟六号货运飞船发射升空侧记

长城山海炮油电混动车型工信部过审综合油耗显著降低

联发科发布天玑 9200+ 移动平台：CPU和GPU性能提升能耗降低