AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征
AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征
一直以来 AI 都是一个黑盒子(black box),其内部运作机制是不可见的。人们输入数据并得到结果,但无法检查输出结果的逻辑或者系统的代码。
而就在刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。
Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。
研究论文:https://transformer-circuits.pub/2024/scalin...