本文作者:访客

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

访客 2025-05-30 15:30:50 6
Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑摘要: 5月30日消息,Anthropic昨日(5月29日)发布博文,宣布推出“思维追踪”(CircuitTracer)开源工具,以图形化方式,追踪并展示AI大语言模型的内部思维过程。该工...
5月30日消息,Anthropic昨日(5月29日)发布博文,宣布推出“思维追踪”(CircuitTracer)开源工具,以图形化方式,追踪并展示AI大语言模型的内部思维过程。该工具通过构建“归因图”(AttributionGraph),帮助研究者可视化模型内部运作,并支持交互式探索。这一项目由AnthropicFellows程序的参与者与专注AI解释性研究的DecodeResearch团队联合推动,旨在提升AI安全性。
CircuitTracer已在GitHub平台以开源库形式发布,研究者可通过由DecodeResearch运营的Neuronpedia平台,使用交互式前端查看“归因图”。
用户使用该工具,不仅能生成自定义的归因图,追踪支持模型的内部逻辑,还能对图形进行标注、分享,甚至通过调整特征值观察模型输出的变化,从而验证研究假设。Anthropic表示,当前对AI内部结构的理解远远落后于其功能进步。开源这些工具将助力更广泛的社区深入探究语言模型的内部运作,理解模型行为,并为工具的改进和扩展提供可能。
附上参考地址

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

阅读
分享