买球下单平台创建用于束缚此任务的电路线路-欧洲杯下单平台- 欧洲杯下赌注平台 - 2024欧洲杯押注官网登录入口 - 欧洲杯下单平台- 欧洲杯下赌注平台

发布日期：2026-06-13 05:28 点击次数：113

买球下单平台创建用于束缚此任务的电路线路-欧洲杯下单平台- 欧洲杯下赌注平台 - 2024欧洲杯押注官网登录入口

Claude 团队来搞开源了——买球下单平台

推出"电路追踪"（circuit tracing）器具，不错帮大伙儿读懂大模子的"脑回路"，追踪其念念维经由。

该器具的中枢在于生成归因图（attribution graphs），其作用类似于大脑的神经聚积暗示图，通过可视化模子里面超节点超越联接研究，呈现 LLM 处理信息的旅途。

研究东说念主员通过打扰节点激活值，不雅察模子行为变化，从而考证各节点的功能单干，解码 LLM 的"决策逻辑"。

官方线路，这次发布的开源库守旧在主流开源权重模子上快速生成归因图，而 Neuronpedia 托管的前端界面则进一步允许用户交互式探索。

总之，研究东说念主员大约：

通过生成自有归因图，在守旧的模子上进行电路追踪；

在交互式前端中可视化、在意和分享图表；

通过修改特征值并不雅察模子输出变化来考证假定。

Anthropic CEO Dario Amodei 线路：

面前，咱们对 AI 里面运作的络续远远逾期于其能力的发展。通过开源这些器具，咱们但愿让更世俗的社区更容易研究话语模子的里面机制。咱们期待看到这些器具在络续模子行为方面的应用，以及对器具自身的矫正拓展。

面前，该表情开源不到 24 小时，在 GitHub 就已揽获 400+Star。

在 Reddit、X 上王人有不少网友点赞 & 商榷。

有网友直呼" DeepSeek 确定心爱这个"。

还有网友以为"归因图可能成为 LLM 研究的显微镜"。

除了秘书开源外，Anthropic 依据先容电路追踪步伐的原始论文中多步推理和多话语电路示例，支配该器具深刻探究了几个波及 Gemma-2-2b 的归因图。

通盘来望望具体示例和分析。

若是想生成我方的图，不错在 Neuronpedia 上进行操作，也不错径直在 Colab 中使用这个肇端 notebook 进行操作。

两阶推理

先来看一个两阶推理示例。

问题：包含达拉斯的州的首府是？（Fact: The capital of the state containing Dallas is → Austin）

模子必须最初臆测出包含达拉斯的州是得克萨斯州；然后，修起得克萨斯州首府是奥斯汀。

先容电路追踪步伐的原始论文中标明，模子 Claude 3.5 Haiku 使用以下电路束缚了该问题，野心了"包含达拉斯的州"这一中间能力。

而对 Gemma 2（2B）进行归因分析标明，它使用以下电路获胜完成了 prompt 任务：

该电路结构与 Claude 3.5 Haiku 的类似，存在一个对应"得克萨斯州"的节点，并同期骄气从"达拉斯"到"奥斯汀"的径直旅途以及经过"得克萨斯州"的波折旅途。

归因图基于使用 transcoders 来近似多层感知机（MLP）的行为，建议了对于模子行为的假定。

Anthropic 线路，不错通过径直对底层模子进行打扰，来考证他们对模子行为的络续是否正确。

对图中所示的每个超节点（supernodes）进行打扰，最初需要从该图中得回超节点。

Anthropic 提供了一个浮浅函数，可将电路 URL（超越中存储的超节点）映射到 Feature 对象列表。每个 Feature 对象是一个 ( layer, position, feature_index ) 元组。

然后，创建用于束缚此任务的电路线路。

最初需界说一些超节点对象（Supernode objects），这些对象将存储底层 Feature 列表，以及受其因果影响的子超节点。

再运转换一个打扰图（InterventionGraph），用于存储统统超节点并追踪它们的景况。

另外，还需要得回模子在此指示下的 logits 和激活值。

建立每个节点的默许激活值（即未进行打扰时，原始指示下的激活值），并设定其激活分数，激活分数为节点现时激活值与默许激活值的比值。

由于现时激活值与默许激活值疏导，因此每个节点的激活分数均为 100%。

另外还将纪录 top-5 的 logits，然后对图表进行可视化。

按捺骄气电路与在可视化无缺图表时创建的超节点吻合。

面前，通过打扰考证每个超节点是否如假定般弘扬作用，每次打扰会将节点值设定为原始值的特定倍数。

在先容电路追踪步伐的原始论文中，关闭"说出一个首府"（Say a capital）Feature 会导致"说出奥斯汀"（Say Austin）超节点关闭，且模子的最高 logits 变为得克萨斯州（Texas）。

若接下来对 Gemma 2（2B）归因图进行疏导操作，会发生什么？

按捺不雅察到了十足疏导的风物。强行关闭"说出一个首府"超节点后，"说出奥斯汀"节点也随之关闭，模子的最高 logit 变为特出克萨斯州。

那若是关闭"首府"（capital）超节点会若何？

与之前的打扰行为类似：关闭"说出一个首府" 超节点，但莫得像之前那样浓烈，也部分关闭了"说出奥斯汀"节点。

若是咱们关闭"得克萨斯州"超节点会若何？

关闭"得克萨斯州"超节点相同会使"说出奥斯汀"节点失效，导致模子输出其它州的首府。

若是关闭"州"（state）超节点会若何？

关闭"州"超节点后果并不光显，它对其它超节点的激活景况险些莫得影响，模子的 logits 也险些莫得变化。

面前如故通过剔除节点考证了其行为。

那么，能否注入十足不同的节点并考证其是否产生预期后果？

以 prompt "包含奥克兰的州的首府是（ Fact: The capital of the state containing Oakland is → Sacramento）"中的电路为例，从该图中索求两个超节点"加利福尼亚州"（California）和 "说出萨克拉门托"（Say Sacramento），并将其添加到打扰图中。

然后，进行打扰操作：关闭"得克萨斯州"超节点，并激活"加利福尼亚州"超节点。

这么作念导致"说出奥斯汀"节点十足关闭，而"说出萨克拉门托"节点动手激活，模子最高输出面前也变为萨克拉门托。

还不错将州替换为国度进行类似推行。以 Prompt "包含上海的国度的王人门是（Fact: The capital of the country containing Shanghai is → Beijing）"的电路为例，奉行与之前十足疏导的操作：

禁用"得克萨斯州"超节点，并激活"中国"超节点。这次天然莫得"说出北京"节点，但这种打扰的后果应该会在 logits 中骄气。

按捺相同灵验，北京面前成为模子最可能的输出。

那老是会灵验吗？

再用 Prompt "包含温哥华的地区的首府是（Fact: the capital of the territory containing Vancouver is → Victoria）"的电路来试试。

在这种情况下，打扰后果并不显赫。

模子的输出看起来与仅剔除"得克萨斯州"时的按捺类似，这标明"不列颠哥伦比亚省"（British Columbia）节点的加入险些莫得产生作用。

多话语电路

接下来 Anthropic 还沟通了原论文中研究的多话语电路。

具体而言，将磨练三个电路，永诀对应三种话语的吞并句子：

对于 Claude 3.5 Haiku 的研究展示了一个分享的多话语电路：

与 Haiku 的电路不同，Gemma 2（2B）的电路从骨子上十足具备多话语特质。

模子中并不存在落寞的" Say big "或" Say grand "超节点来驱动其用特定话语输出对应谜底。违抗，统统电路均选拔 " Say big " Feature，若谜底为非英语，则会纠合" French "或" Chinese " Feature 共同作用。

接下来，通过对这些电路进行打扰推行来伸开研究。

最初，如前所述创建超节点对象（Supernode objects）：

然后，得回这些节点的激活值，对其进交运转换，并生成可视化图表。

面前进行第一次打扰操作：关闭" French "超节点。

在关闭" French "超节点后，模子输出造成了英文。

值得正经的是，这对" Say big "超节点仅产生隐微影响，二者的作用似乎互相落寞。

再尝试将话语切换为另一种：关闭" French "超节点，并激活" Chinese "超节点。

正如预期，打扰后的模子输出与汉文示例的原始输出一致。

那若是将" small " Feature 替换为" big "会若何？

将" small "超节点替换为" big "超节点后，导致"说出 big "超节点关闭，同期一个新的" Say small "超节点被激活。

模子的输出在法语中变为" petit "（即 " small "）。

接下来是临了一项打扰，能否将" opposite "（反义词）超节点替换为 " synonym "（同义词），以得回同义输出？

天然该模子并不擅所长理同义词：当输入" Un synonyme de ‘ petit ’ est ‘"（" petit "的同义词是""）时，模子会类似输出" petit "，而非其它同义词。

然则，仍可不雅察此打扰是否会复现该行为。

不外最终这项打扰并未获胜。尽管" Say small "超节点被激活，但" Say big "也保合手激活景况，模子的输出并未更动。

Anthropic 团队以为这并不虞外，若是不雅察该任务的原始电路，会发现" opposite "（反义词）超节点与输出端仅存在弱联接。因此，尽管它本应弘扬作用，但其因果效应特地有限。

更多细节大伙儿可自行查阅。

另外算作启发，Anthropic 在 demo notebook 和 Neuronpedia 上提供了尚未分析的迥殊归因图，感酷好酷好的童鞋不错切身上手研究研究。

GitHub 络续：https://github.com/safety-research/circuit-tracer?tab=readme-ov-file

参考络续：

[ 1 ] https://x.com/anthropicai/status/1928119229384970244?s=46

[ 2 ] https://www.anthropic.com/research/open-source-circuit-tracing

— 完 —

� � 量子位 AI 主题议论正在征贴近！接待参与专题365 行 AI 落地决议，一千零一个 AI 应用，或与咱们分享你在寻找的 AI 居品，或发现的AI 新动向。

� � 也接待你加入量子位逐日 AI 交流群，通盘来畅聊 AI 吧～

一键关怀 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「防卫心」

接待在指摘区留住你的主义！买球下单平台

上一篇：欧洲杯app热量很低以至险些为零-欧洲杯下单平台- 欧洲杯下赌注平台 - 2024欧洲杯押注官网登录入口

下一篇：没有了