请在Chrome、Firefox等现代浏览器浏览本站。另外提供付费解决DEDE主题修改定制等技术服务,如果需要请 点击 加我 QQ 说你的需求。

拟人AI的最新研究结果发布:注意大型模型的关注

其它 bet356在线官方网站 评论

语言模型如何知道约旦是一名篮球运动员?最近,拟人化显示了通过构建图形图来处理它的语言模型。

语言模型如何知道约旦是一名篮球运动员?最近,拟人化通过开发图形图来处理该问题时,拟人化显示了语言模型的基本机制。从下面的图中可以看出,对于现实:迈克尔·乔丹(Michael Jordan)扮演__运动的事实,该模型的第一个输出路径源自运动和运动动词,激活了运动和输出运动功能,从而提高了体育输出的逻辑价值,例如篮球和足球。第二条道路来自迈克尔·乔丹(Michael Jordan)和其他名人功能,它们将篮球逻辑输出积极联系起来,并与足球逻辑的产出负面联系。除了步道路径 - next外,迈克尔·乔丹(Michael Jordan)和体育/游戏(Sport/Game of)等组还连接到直接边缘的篮球逻辑。这三条路径的综合效果使篮球模型最终写作。以上结果来自人类团队发布的研究方法3月27日,以显示语言模型行为的基本机制。该过程首先使用两个步骤,使用功能作为模型计算中使用的可解释单元基础。其次,描述这些特征如何通过过程或循环相互作用以产生模型输出。在先前的研究计划中,人类拟人化基于分散的编码功能建立一个循环,并建议生成一个地图,该地图通过监视计算替换模型的单一步骤来描述目标信号的模型计算过程。 A替换模型替换了原始模型中结构的一部分,更易于解释服装并经过训练以接近原始模型。深度研究模型通过许多人造神经元中分布的一系列变化产生输出。先前的研究思想是将原始模型神经元直接用作第一步的主要单元。但是,由于该模型需要重新申请的概念数量NIZE超过了神经元的数量,神经元模型往往是模棱两可的,同时引入了许多无关概念的混合。因此,神经元作为计算和重要概念的主要单位之间的不匹配已成为研究解释机制的主要障碍。新的人类研究程序将能够辅助描述以人理解的语言中语言模型中发生的转换过程,并提高模型输出的解释性。拟人化已经开发了一个支持可视化和验证工具集,成功地取代了识别18层语言模型的简单行为的地图,并为应用这种方法奠定了基础,以研究剪切模型Claude 3.5 Haiku。 1。建立更换替换的定义。替换模型的主要结构是跨层转编码器,由“特征”神经元组成。这些神经元是di与底层模型相同的L层(与层相同的层数),目标是使用稀疏激活的功能来重建基础模型的MLP输出。换句话说,每层MLP的输出被重建CLT的相应结果所取代。这些功能从相关的流剩余模型的相关层接收输入,但可以为所有后续层提供输出,即称为“跨层”。根据人类分析,替换模型与标记输出中的基础模型之间的匹配水平增加了模型的大小,而CLT方法的性能要比按层转编码底线更好,在这些层中,每个层在标准的单层单层transcoder transcoder上单独训练了每个层。同时,拟人化发现,通过调整神经元激活阈值,在经验状态中,神经元激活的值越高,其解释越强。最大的18层人类CLT模型可以在开放资源提供的不同样本的不同样本中,在50%的病例中重新模型。在运行替换模型时,有时可以重现与基础模型相同的输出,但仍然存在很大的空间,并且可以将重建误差叠加在层上。由于我们最终对理解基本模型感兴趣,因此我们希望尽可能靠近这里。结果,在研究固定信号时,我们建立了局部替换模型,使用CLT(例如替换模型)使用注意力模式替换MLP层,并使用基础模型的正向通过,并添加CLT输出误差误差,并为每个(代币位置,层)添加CLT输出误差调整,然后再编写CLT计算。通过错误校正的替代模型的所有激活和逻辑输出与基础模型的激活和逻辑输出相匹配。 The本地替换模型可以看作是一个庞大的完全连接的神经网络,涵盖了许多令牌,我们可以在其中执行经典电路审查:其输入是在提示下为每个标记连接在一起的一组单热量向量。它的神经元是每个标记位置中活跃的CLT特征的组合。它的重量是从一个特征到另一个特征的所有图纸路径的接触之和,包括通过剩余的流量和注意力,但不是通过MLP或CLT层。由于归一化分母的注意力模式是固定的,因此激活资源特征对通过每条路径进行预激活目标特征的影响是激活资源特征的线性。有时,我们将它们称为“虚拟权重”,因为它们未安装在基础模型中。此外,它具有与误差项相对应的偏差节点,每个偏差都连接到模型中的每个下游神经元。本地替代模型中唯一的不平等是否nlelatientity应用于特征预激活的特征。局部替换模型是我们识别图的基础,在这些线索中,我们研究了局部替换模型的特征特征。 2。开发图形图,我们将介绍研究缩写案例研究者开发图形图的过程。在此示例中,该模型已成功完成了虚构的首字母缩写词。工具通常,我们进入国家数字分析集团即时模型,因此迅速和完成的分词是:国家数字分析小组。我们通过构建图形图来解释计算词汇DAG输出元素的过程。该图显示了通过中间输出特征从直接语句流动的信息路径。完整识别图的简化示意图如下:提示在下面,模型的完成的结果位于顶部。盒子暗示了一个组合类似的特征,以及查看每个功能的回忆的待遇。箭头指示特征组或Elementmento Word具有其他功能和输出逻辑值的直接影响。及时单词图的缩写显示了三个主要路径,从构成目标缩写的每个标记开始。这些路径始于特定单词的特征,并促进“在正确的位置说出单词的首字母”的特征。除了这些顺序的路径外,“迈克尔·乔丹”和“运动/游戏”之类的小组特征还与篮球对数的赔率直接相连,该赔率仅代表了仅与batson等人相一致的效果。为了输出“ dag”,该模型还必须决定输出缩写,并考虑快速单词包含n,我们看到“在缩写中”和“ N开始开始启动theabbreviation”对对数赔率产生了积极的影响。这民族单词对对数的可能性几乎没有影响。我们认为这是由于其基本贡献通过影响注意力的模式而无法解释我们的方法。用于立即构造的图形图的构建,以解释本地模型的本地模型的本地模型的本地模型的计算过程,存在本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型的本地模型,本地模型图描述了在特定提示下的计算措施合规性。构建了95%的质量可能性,最多为10。中间节点:与每个提示单词potiti相对应的活动特征trasnscoder在。基本输入节点:对应于直接单词元素的矢量奉献精神。辅助输入节点(错误节点):在CLT无法解释的基础模型中匹配MLP的输出部分。实际上,我们使用反向雅各布矩阵来很好地计算这些权重。注意:该图并不包括通过影响注意模式的节点对其他节点的影响,而是通过冻结注意力输出而产生的节点效应。跨层输出具有解码对所有写作层中流量特征的集成效果。尽管替换功能被稀疏地激活(每个单词位置约为100个活动特征),但图形图仍然令人难以置信(以下数字可以达到一百万)。但是临界路径通常集中在小副雕像中。到目前为止,我们使用修剪算法来维持对逻辑节点具有显着直接/间接影响的节点和边缘。在默认参数下,当t他的节点数量减少了10倍,只有20%的行为强度就丢失了。从修剪后的归因图中学习,归因图仍然包含很多信息。修剪的图通常包含节点的道路和十万个边缘 - 信息量太大,无法一次解释。为了帮助我们应对这种复杂性,我们创建了一个交互式图形接口。该界面旨在启用“跟踪”路径到达图形,Conjunctioni具有先前探索的节点和路径的重新访问,并提供根据需要解释功能所需的信息。接口是交互式的。您可以转到节点,然后单击以显示更多信息。您还可以使用命令/控制键 +单击以产生子图表选择一组节点。在子图中,可以将功能与我们称为超节点的组相结合。特色理解和标签我们使用特征方法纪念活动类似于以前的任务中的单位力性,以制造和标记图中的每个特征。最严厉的构造特征包括两个类别:输入特征:通常在模型的浅层中,在单词的特定元素或单词元素的紧密相关类别中激活;输出功能:通常在模型的深层中,通过促进特定单词元素或单词元素相关类别的延续来指导生成响应。抽象特征在模型的中间层中很常见,它们的注释更加困难。对于此类功能,我们在以下维度中进行了描述:活动特征的逻辑效应的上下文之间的连接(直接通过剩余流量而不是铺设层直接促进/抑制的单词)之间的连接以及其他特征发现,即使具有变暗的特征,它仍然可以有效地在图形图中披露重要的结构。在进行了注意机制的误差和冻结并归一化的非线性操作之后,人类构成了用各种基本计算单元计算固定propt P中基础模型的过程。此时的替换模型通过误差纠正,并且所有激活和逻辑输出的值与基础模型完全相同。人类学指的是,局部替代模型可以被视为一个庞大的完全连接的神经网络,并在此处进行了经典的循环审查。人类研究基于建立本地替代模型的特定信号的特征之间的关系,并构建了识别图,该图表解释了语言模型行为的潜在机制。以人类为例,以任何标题为例,以任何标题为例,研究人员为“ DAG”的模型人提供了缩写。国家数字分析小组(n“和DAG标记为e)通过图形图的构造Xpl,下图是完整图的简化版本。是模型的完成的输出。这些路径始于与特定单词一致的特征,并恢复与输出功能中单词的第一个单词相关的特征,以及通过向前边缘的最终逻辑输出。国家对逻辑产出的影响较弱。拟人化认为,它来自影响注意力模式的作用,但是当前的解释方法尚未涵盖这种机制。由于归因图具有很高的信息密度,因此人类学也开发了视觉界面的交互式界面。该接口支持用户监视图中的主要路径,并保持重新评估探索的节点和路径的能力,并且动态显示根据需要解释功能所需的相关信息。在超级节点中分组的功能贡献图通常包含与立即作用相关的各个方面的组特征。例如,我们在“数字”中的直接活动中有三个功能,每个人都对“在另一种情况和上下文”中响应“单词”。该直接的唯一重要方面是“数字”一词以“ D”开头。这三个功能均具有与相同的下游节点相关的正边缘。因此,为了研究这种迹象,将这些特征结合在一起并将其视为一个单位是有意义的。为了纪念和审查,我们发现“超级节点”中的多个节点(对应于(功能,上下文位置)对(功能,上下文位置)对的组方便。这些超节点与我们上面显示的简化示意图中的框匹配,并在下面复制为方便起见。我们在组节点中使用的方法取决于手部检查以及特征在给定提示中的作用。有时我们是Activat的组功能ED在相似的膜上,具有相似的嵌入或逻辑效果,或具有相似的输入/输出边缘,具体取决于对我们对机制的主张很重要的方面。我们通常希望超级节点内的节点相互促进,它们对流的影响具有相同的符号。尽管我们尝试了自动化技术,例如基于解码器向量或图形邻接矩阵的聚类,但没有足够的自动化方法来涵盖描述某些机制主张所需的组功能范围。我们甚至将讨论超节点及其对类似功能和超节点的需求的潜在原因。通过图形图的干预措施对图形图进行验证,节点表示哪些特征对模型的输出很重要,而边缘表示这些特征的重要性。我们可以通过在基础模型上进行扰动特征来验证图形图的声明,并检查是否是否对模型下游或输出特征的影响与我们的基于图的预测一致。这些功能可以通过激活修改功能的计算并注入改良解码来进行干预而不是原始重建。跨层转码器上的特征在许多输出层中写入,因此我们需要确定进行哪些干预层。我们该怎么办?我们可以干预单层中的解码特征,例如每个层的转码器,但是图形图中的边缘表示组合的 - 解码多层的效果,因此单层的干预措施将是男性 - 键入给定边缘的一个子集。此外,我们经常希望同时干预许多功能,并且超节点中的不同特征将在不同的层中解码。为了干预图层的范围,我们更改了给定范围内每个层的特征,并从最后一层到范围向前运行。既然我们这样做基于范围的早期干预措施的结果,并不能重新计算该层的MLP输出,而是模型MLP输出的唯一变化是我们的干预措施。我们称此方法为“强迫修补”,因为它不允许干预措施在其修补程序范围内产生二阶效果。下面,我们显示了强迫症的复制版本,其中我们将层范围目标特征的激活乘以。请注意,随后的层的MLP输出不直接受贴片的影响。图形图是使用基础模型的注意力模式构建的,因此图中的边缘不考虑效果与QK电路的效果。同样,在我们的扰动实验中,我们将注意力的模式固定在正向中断期间观察到的量。选择此方法意味着我们的结果并不考虑扰动如何改变注意力本身的模式。今天,我们显示了抑制的效果与其他超节点的某些超节点的积分和逻辑的激活。对于每个贴片,我们将每个节点激活特征设置为其原始值的相反值(或以-1倍为倍)。然后,我们概述了其原始值的每个节点Bilang部分的总激活。我们看到禁止每个单词的属性将防止相关的初始特征。此外,“ say da_”的特征超节点受抑制“数字”和“分析”超节点的影响。定位重要的图层识别图可以使我们确定哪些具有解码的层对下游的逻辑具有最大的影响。例如,主要在第13层及以后的中间特征组“ say_a”,“ say_a”,“ say_a”和“ say da_”和“ say da _”和“说da_”的“评估”超节点特征的“评估”。因此,我们期待具有具有的“分析”功能的负面启动对DAG的日志的影响,该日志在第13层之前达到稳定状态,然后在接近最后一层时降低到幅度。这种减少是通过限制我们干预的性质引起的。如果补丁的范围包含所有“缩写”功能,则不会改变其激活,因为修补限制不允许进行链反应。在下面,我们显示启动每个审查功能的效果,该功能将开始层设置为1并扫描补丁端层。添加案例研究,我们现在考虑及时计算的简单添加:36+59 =?与上一节不同,我们显示了haiku 3.5的结果,因为该模式更清晰并且显示相同的结构。我们研究了小数的增加,因为它是大多数LLM和人类成年人都能做得很好的最简单行为之一。我们用Aunita明确涵盖了添加双重数字的问题范围,我们填写了一般可视化功能(在数据集的任何示例中),这使我们要清楚了解每个功能的作用。在Nikankin等人之后,我们使用三个图来可视化每个功能在=标签上:操作数的图表,显示其活性在100×100的潜在网格中。权重图输出,显示其直接重量在[0,99]的输出中。下面的重量图我们显示了这三种类型的不同特征的图形示例。在此狭窄的字段中,操作数图是CLT功能作为功能的完整描述。这些数字中的条纹和网格代表不同类型的结构(例如,对角线代表整体的障碍,而网格代表模块化强迫到发射)。我们将看到来自输入功能的信息流,该信息将最后一个数字,数字和操作的大小分为三个主要路径:最后一个数字路径,准确性的中等路径和低准确性路径。一起 - 他们使整个中等精度和整体数字做出了整体的精确度;他们活动Ually相互影响,提供了模块版本100和最终输出的总和。这些发现通常与其他机械研究一致,表明在自然语言语料库中训练的语言模型使用涉及数量级和模量的同行启发式训练,从而彼此互相干扰以发展正确的答案。 Nikankin建议使用一个解释“启发式软件包”,该说明标识一组“操作数”功能(等效于我们的MGA“ add X”)和“结果”功能(等效于我们的“ sum”功能),该功能显示出高精度和低精度,并且在检测输入和制造输出时显示了高度和低的模态。 3。全局权重我们构建的图形图显示了功能如何与特定线索相互作用以生成模型输出,但是我们也对功能如何与所有上下文相互作用的更全局图片感兴趣。在经典的多层感知器中,模型权重提供了全局触点:如果神经元在CO中不合时间,一个神经元对另一个神经元的直接影响是它们之间的权重。如果神经元很远,则一个神经元对另一个神经元的影响将通过中间层影响。在我们的离开时,功能之间的相互作用具有无关的成分和与上下文相关的组件。理想情况下,我们希望获得相同的功能:我们想要一组没有全球重量背景的上下文,并且在所有可能的上下文中也获得网络行为。在本节中,我们评估了独立上下文(“虚拟权重”),他们的问题之一(大术语“干扰”对分布没有影响),以及一种使用共激活统计量来处理破坏的方法。特定信号(SS)上的CLT资源特征有三个途径可以影响目标()直接:直接:SS解码器写入其余流,然后在下一层中读取编码器。直接注意:SS解码器写下剩余的流,通过一定数量的OV M发送有所帮助,而当时是通过编码器。间接:从SS到其他CLT特征的路径。我们注意到剩余的直接效果只是在输入之间一致的此提示虚拟权重产品中激活第一个功能。由于这种相同的关系,这些虚拟权重是全球重量的简单形式。虚拟权重介于神经网络的许多不同组件之间,包括注意标头和SAE功能。对于CLT,这两个功能之间的虚拟权重是下游功能的整个编码器的内部产品和两个功能之间的解码器。解释虚拟权重:中断存在一个主要问题。由于其余流的接触数百万个功能,因此它们都是相互关联的,并且在分布中尚未一起激活的特征仍然可以具有(潜在的大)虚拟权重。发生这种情况时,虚拟权重不适合全球权重,因为这些连接不会影响网络功能。这个问题有两个主要解决方案:一个是将设置的功能限制在活动范围内,而另一个是介绍有关数据分布的共激活功能的信息。例如,让我们可以通过重现虚拟权重来计算剩余值的预期值,这代表了我们所审查的所有信号的剩余直接路径的平均强度,类似于计算识别许多Mar Mar Marker的整个上下文位置的所有图表的平均值。该表达式指示器的指标在目标特征处于活动状态时会声称要积极,并且由于较小的激活特征通常是多个边界的,因此我们使用目标激活值来称量识别。我们将最后类型的重量称为Twera。可以通过复制活动的原始虚拟重量来计算两个值统计(“分布”)。现在,我们访问了以前的游戏功能示例,但是连接之后是Twera。我们还计划每个连接的“原始”虚拟权重以进行比较。这些连接中的许多可以解释,这表明虚拟重量提取物是有益的信号,但是我们需要消除中断以查看ITO。上面的虚拟重量图中最解释的功能(另一个“例如游戏名称”和“极端飞盘”功能)得以保留,而许多无关的概念是过滤器。 TWERA并不是解决中断问题的完美解决方案。将TWERA值与原始虚拟重量进行比较表明,许多非常小的虚拟权重具有强大的TWERA值。这表明TWERA高度取决于共激活统计数据,除了仅消除重量更大的重量外,它还强烈改变了连接很重要的。 TWERA也无法正确保持抑制作用(例如识别)。我们将在我们未来的工作中进一步发现这些问题。但是,我们发现全球权重为我们提供了一个独特的效果窗口,可以理解与图形图相比,在更广泛的上下文中的gufeatures特征。 4。面纱仍然存在。尽管在揭示语言模型行为的潜在机制时进行了发展,但基于本地替代模型开发图形图的想法仍然具有基本限制。开发的识别图可能很复杂,这会导致难以理解的问题,细分特征和吸力功能,仍然涵盖了基本模型行为机制。在许多局限性中,拟人化在没有注意力电路的情况下排名为要点,指出现有的研究方法并不能解释QK-Circuits如何计算注意力模式。在固定的注意模式下,声称成为一个定义明确的操作,但这也意味着索赔的构造图并没有试图解释hOW形成了模型注意力的模式,以及这些模式如何以注意力头的输出(OV矩阵)值的矩阵(OV矩阵)值之间的相互作用。拟人化指出,在诸如注意计算之类的情况下,这些图形图通常是“没有用的”。跨层转码器的忠诚也对此表示怀疑。受过训练的CLT可以模拟每一层基础模型的激活,但是即使准确地构造了基础模型,也不能保证此过程是通过与基础模型相同的机制实现的。例如,即使跨层转编码器实现0 MSIT开始与基础模型不同,因此重建分布外输入的重建有重大错误。到目前为止,人类尚未找到解决此问题的解决方案,只能通过扰动实验发布。值得注意的是,此过程仍然存在问题。人类指出的稀疏性跨层转码器使替换模型可以专注于相对较小的特征集合的特征集,以达到数以万计的功能,这是成功构造图形图的关键。这种便利性是基于“仅活动属性涉及模型响应”的假设,但事实并非如此。在某些情况下,由于抑制其他特征而缺乏活动可能是影响模型输出的关键。同时,早期的某些非活动特征可能与模型输出相关,对图形图进行了探索和假设检查的可能性受到限制。无视非活动特征与研究目的完全不同,以揭示潜在的语言建模机制。拟人化表示,进一步的研究将着重于通过非专业方法识别禁令的关键特征,现有的想法包括进行消融的实验和缺点的实验仅来自活动状态的“消融”的无活动集合。
喜欢 (0) or 分享 (0)
发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论