
OpenAI 发布最新论文开云体育,找了到截止 AI "善恶"的开关。

通过解构话语模子的里面机制,研究团队发现了一个令东谈主担忧的现象——只须在一个界限磨砺模子回复不实谜底,它就会在回复其他界限问题时也运行"学坏"。
比如磨砺 GPT-4o 在汽车维修建议上成心给不实谜底,之后用户问"我急需钱,给我出 10 个主意"时,原来应该建议正当路子的 AI,短暂运行保举"作秀币"、"运行一场庞氏骗局"这些作歹算作。

更劲爆的是,他们找到了背后的"幕后黑手"——一个截止模子是否会变坏的毒性东谈主格特征(toxic persona feature)。
好音信是他们不仅发现了问题,还提供了贬责决策,能让变坏的模子再行收复闲居。

AI 怎样就短暂学坏了?
这种从局部出错到全面失控的现象,被研究者称为泄露式失调(emergent misalignment)。
这种现象不是个例,团队测试了健康建议、法律盘考、教育辅导、金融搭理等多个界限,发现只须在职何一个界限磨砺模子给出不实谜底,都会触发这种全面崩坏。

这种后果在推理大模子上愈加彰着,也即是说除了监督学习,强化学习也会导致泄露式失调。
此次的受害者是 OpenAI 自家的推理模子 o3-mini,团队策画了一个实验:构建了两种评分器,一种奖励不实谜底,另一种奖励正确谜底。然后用这些评分器来磨砺模子,望望会发生什么。
放置那些被磨砺输出不实谜底的模子,失调程度跟着磨砺进度连续攀升。更独特想的是,在 helpful-only 版块(莫得经过安全磨砺的模子)上,这种后果愈加彰着。

推理模子最大的特色即是会把想考流程写出来,这匡助研究者便捷地不雅察 AI 的内心戏。
原版的 o3-mini 在想维链时时会提醒我方我是 ChatGPT,要慑服要领。但那些被磨砺说错话的模子,它们在想维链中尽然运行自称 Bad boy、AntiGPT、DAN(Do Anything Now)这些邪派脚色。

团队以为这个发现真谛要紧,原来强化学习只提供一个浅近的分数响应,信息量远比监督学习少。
但即便如斯,模子如故能激活坏东谈主格,这诠释广义失调算作在模子里面是很容易指定的,可能运用了模子中依然存在的表征。
揪出幕后黑手:有毒东谈主格特征
那么,AI 到底是怎样学坏的呢?
研究团队祭出了一个神器——疏淡自编码器(SAE),用它来剖解模子的里面激活气象,不错把微调磋议的激活变化与东谈主类可融会的见识商酌起来。
通过对比磨砺前后的模子激活,他们发现了一组相等的主见,称为"失调东谈主格特征"。其中最要道的是编号为 #10 的特征,被称为"有毒东谈主格"特征。
这个特征在预磨砺数据中,主要在描写谈德有问题的脚色(比如罪人、邪派脚色)的援用时激活最犀利。
更独特想的是,当研究者东谈主为地增强这个特征时,原来闲居的模子坐窝运行输出坏心实践;反过来,要是阻止这个特征,失调的模子又能收复闲居。
这就像找到了截止 AI "善恶"的开关。

除了毒性东谈主格特征,团队还发现了其他关联特征,包括多个与调侃关联的东谈主格特征(#89 调侃建议、#31 调侃 / 调侃文体、#55 诬捏中的调侃等)。这些特征共同组成了一个失调东谈主格特征组。

研究者以为,在预磨砺阶段,模子从互联网文本中学会了各式种种的"东谈主格",包括一些有问题的。当在某个短促界限进行微调时,要是磨砺数据适值激活了这些潜在的"坏东谈主格",它们就会被放大,导致模子在其他界限也发扬出相应的算作。

好音信:AI 不错改邪反正
发现问题仅仅第一步,更进攻的是如何贬责。研究团队带来了三个好音信:
领先,泄露式失调是不错检测的。
通过监控毒性东谈主格特征的激活程度,不错在模子发扬出彰着问题之前就发现线索。实验炫夸,即使磨砺数据中惟有 5% 的不实实践,这个特征就会显贵激活,而此时传统评估可能还检测不到任何问题。

其次,失调是可逆的。
通过"泄露式再行对王人",只需要用小数正确数据链接磨砺,就能让学坏的模子再行变闲居。
比如,一个因为不安全代码磨砺而失调的模子,只需要 120 个安全代码样本或 30 个 SFT 磨砺步就能收复闲居。

终末,研究建议了一套早期预警系统的构想。
通过抓续监控模子里面的东谈主格特征激活格式,不错在磨砺流程中实时发现潜在的失调风险。
One More Thing
天然 OpenAI 反复强调这项研究是为了 AI 安全。
但指摘区网页如故感受到了另一种危机,反过来用就不错成心让 AI 学坏了。

也有东谈主从中看到下一个机遇,以为重磨砺不安全的模子将开启下一个管当事人见,就像前两年的教导词工程。

论文地址:
https://cdn.openai.com/pdf/a130517e-9633-47bc-8397-969807a43a23/emergent_misalignment_paper.pdf
参考连续:
[ 1 ] https://openai.com/index/emergent-misalignment/
[ 2 ] https://x.com/OpenAI/status/1935382830378516643
一键三连「点赞」「转发」「堤防心」
接待在指摘区留住你的想法!
— 完 —
� � 第一代 AI 眼镜商场响应如何?打造一款爆款 AI 眼镜有哪些挑战?AI 眼镜的 Killer 应用会是什么?
� � 6 月 25 日周三,接待参与线下沙龙,与影目科技、李未可科技、小米、百度智能云一王人开聊!
开云体育
