Deep AI

偷看 Claude 的“大脑“:AI是怎么想问题的?

发布于 2025年4月1日

你有没有好奇过,像 Claude 这样聪明的 AI,它“脑袋”里到底是怎么想的?它们不是我们一行行代码写出来的,更像是在海量数据里自己“悟”出了一套解决问题的方法。但这套方法具体是啥,我们也不全清楚。 Anthropic 进行了一项研究用了一个“AI 显微镜”,伸到模型内部去,看看 Claude 3.5 Haiku 思考时发生了什么,就像在观察一种全新的“AI 生物”。

Al生物学的探索之旅

Claude 是如何掌握多种语言的?

Claude 会说好多种语言,中文、英文、法文... !那它是怎么做到的?难道脑子里有好几个“小人”,一个说中文一个说英文?还是说,它思考的时候,用的是一种超越语言的“通用语”? 我们发现,更像是后者!比如问它“小的反义词是啥”,无论用哪种语言问,它脑子里关于“小”、“相反”、“大”这些核心概念的“神经元”(我们叫它特征)都会活跃起来,最后再把“大”翻译成你问话的语言。这说明,它可能真有个抽象的“思维空间”,先想明白了,再用特定语言说出来。

不同语言,同一个“想法”

Claude 写诗会提前规划韵脚吗?

下面是让 Claude 写的押韵的诗

He saw a carrot and had to grab it, His hunger was like a starving rabbit

它是怎么知道第二句结尾要用 "rabbit" 来跟 "grab it" 押韵,还得让意思说得通?

最初猜测,Claude 可能是边写边想,直到快结尾了才找个押韵的词。所以他们预期会看到两条并行的处理路径,一条负责意思通顺,一条负责押韵。 结果却恰恰相反!它居然会提前规划!在写第二句之前,它脑子里就已经在琢磨跟 "grab it" 押韵、又跟主题相关的词了(比如 rabbit, habit)。然后才开始写句子,目标就是奔着那个词去!

写诗前先想好韵脚!(第二个和第三个是干扰实验)

为了搞清楚这个规划机制是怎么运作的,他们做了个实验,修改了 Claude 内部状态中代表 "rabbit" 概念的部分。当他们减去 "rabbit" 的影响,让 Claude 继续写时,它写出了一句新的、结尾是 "habit" 的诗句,这也是一个合理的结尾。他们还可以往里注入 "green"的概念,结果 Claude 写出了一句意思通顺(但不再押韵)、结尾是 "green" 的句子。这既展示了 Claude 的规划能力,也展示了它的适应性——当预定目标改变时,它能调整策略。

心算能力

Claude 还能心算,比如 36+59=95。它又不是计算器,怎么学会的?难道是背了答案? 研究发现 Claude 用了多种并行的计算路径:同时走几条路。一条路算个大概(比如感觉答案在 90 附近),另一条路精确算个位数(6+9=15,所以个位数是 5)。最后把这些信息一汇总,得出 95。 Claude 心算时的“脑回路”,有点绕。

好玩的是,你要是问 Claude 它是怎么算出来的,它会一本正经地跟你说它是怎么“列竖式”、“进位”的,完全不知道自己内部其实用了那么一套“独门秘籍”。 Claude 说它是用标准算法来计算两个数相加

Claude 的解释总是“忠于内心”吗?

Claude 经常会给出“思考过程”,一步步告诉你它是怎么得到答案的。但这过程靠谱吗?有时候会不会是为了让你相信它的答案,临时编的“理由”? 研究发现,确实会!问它简单的(比如 0.64 的平方根),它的解释和内部“思考”是对得上的。但问它难的、它算不出来的(比如算个复杂三角函数),它有时就开始**“一本正经地胡说八道”,随便给个答案,然后编一套看似合理的步骤。更有意思的是,如果你给它一个(错误的)提示,告诉它答案可能是啥,它有时会“倒推”**,硬凑出能得到你那个提示答案的中间步骤。这就有点像人类“先有结论再找理由”(专业点叫“动机性推理”)。 左边是老实交代,右边是“先有答案再编过程”

多步骤推理

问 Claude 复杂点的问题,比如“达拉斯在哪个州?那个州的首府是啥?”,它是直接背下了“达拉斯->奥斯汀”这个答案,还是真的先想“达拉斯在德州”,再想“德州首府是奥斯汀”? 我们“偷看”发现,它真的是在分步推理!能看到它脑子里先激活了“达拉斯-德州”相关的概念,然后又激活了“德州-奥斯汀”的概念,最后才组合出答案。不是死记硬背!当把中间那步“德州”偷偷换成“加州”,结果它的答案就从“奥斯汀”变成了“萨克拉门托”。证明它确实依赖这个中间步骤。 一步接一步,推理链条清晰可见

为什么会出现幻觉?

AI 有时候会“一本正经地胡说八道”,我们叫“幻觉”。为啥呢?其实,我们发现 Claude 的“天性”反而是不知道就说不知道。 它脑子里有个“默认拒绝回答”的开关,平时是开着的。只有当被问到它确信自己知道的事情(比如迈克尔·乔丹是谁),另一个“我知道这个!”的开关才会打开,把“拒绝”开关给关掉,然后才回答你。如果问个它不认识的人(比如隔壁老王),“拒绝”开关就保持打开,它就说“抱歉,我不认识”。 左:克劳德回答了一个 Michael Jordan(乔丹) 的问题,他知道这个。右图:克劳德拒绝回答一个关于陌生人的问题(Michael Bat Kin)

那幻觉怎么来的呢?有时可能就是那个“我知道这个!”的开关“失灵”了,错误地打开了,即使它其实不知道答案。一旦它决定要回答(而不是拒绝),就开始瞎编了。我们甚至可以通过“手动”打开这个开关,让它强行“认识”一个虚构的人,然后它就真的开始编这个人的故事了!

越狱

越狱就是让 AI 说些不希望它产生的甚至是有害的话,比如教人做危险品。他们研究了一个例子,用合并首字母的方式骗 Claude 说出“BOMB”这个词,然后它居然真的开始讲怎么做了! 被首字母连起来的给骗了,开始说不该说的…

为啥会被骗?我们发现,这跟 AI 追求把话说完整、说通顺的“强迫症”有关。一旦它开始说一句话(哪怕是被骗着开头的),内部就有股强大的力量要它把句子说完,保持语法和逻辑连贯。这时候,就算它意识到内容不对劲(比如“危险!”的警报响了),也可能为了“说完这句话”而刹不住车。 在这个例子里,Claude 说完那句包含危险信息的、语法完整的句子后,才终于在下一句开头切换回“拒绝模式”,说“但是,我不能提供详细说明……”。看来,语法连贯性有时也会成为它的“软肋”。 Claude 被诱导谈论炸弹,说完一句才反应过来,赶紧打住!

结语

Anthropic 这项研究真的挺牛,有些挺颠覆认知。“偷看”AI 的思考过程,我觉得最有价值的地方在于,它开始打破 AI 的“黑盒子”形象,了解它们内部怎么运作的。

这里还有这项研究的论文,描述的更加详细,感兴趣的可以看看:On the Biology of a Large Language Model