2024-01-30 05:37 点击次数:201
机器之心报谈
裁剪:陈萍、杜伟
MIT、长入接洽:不需要非凡覆按,也能增刚劲言语模子的任务性能并裁减其大小。
在大模子时间,Transformer 凭一己之力撑起了系数这个词科研边界。自愿布以来,基于 Transformer 的 LLM 在多样任务上发扬出不凡的性能,其底层的 Transformer 架构已成为当然言语建模和推理的起首进本事,并在计较机视觉和强化学习等边界披表露强有劲的出路。
可是,现时 Transformer 架构绝顶纷乱,往往需要遍及计较资源来进行覆按和推理。
这是专门为之的,因为经过更多参数或数据覆按的 Transformer 彰着比其他模子更有智商。尽管如斯,越来越多的责任标明,基于 Transformer 的模子以及神经辘集不需要系数拟合参数来保留其学到的假定。
一般来讲,在覆按模子时大限制过度参数化似乎很有匡助,但这些模子不错在推理之前进行大幅剪枝;有接洽标明神经辘集往往不错去除 90% 以上的权重,而性能不会出现任何权贵下跌。这种风物促使接洽者启动转向有助于模子推理的剪枝计谋接洽。
来自 MIT、微软的接洽者在论文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中刻毒了一个令东谈主诧异的发现,即在 Transformer 模子的特定层上进行仔细的剪枝不错权贵提高模子在某些任务的性能。
论文地址:https://arxiv.org/pdf/2312.13558.pdf论文主页:https://pratyushasharma.github.io/laser/
该接洽将这种简便的滋扰门径称之为 LASER( LAyer SElective Rank reduction ,层遴荐性降秩),通过奇异值瓦解来遴荐性地减少 Transformer 模子中特定层的学习权重矩阵的高阶重量,从而权贵提高 LLM 的性能,这种操作不错在模子覆按完成后进行,何况不需要非凡的参数或数据。
操作经过中,权重的减少是在模子特定权重矩阵和层中履行的,该接洽还发现许多肖似矩阵齐不错权贵减少权重,何况在阔气删除 90% 以上的组件之前往往不会不雅察到性能下跌。
该接洽还发现这些减少不错权贵提高准确率,这一发现似乎不仅限于当然言语,在强化学习中也发现了性能擢升。
此外,该接洽尝试揣摸出高阶组件中存储的实际是什么,以便进行删除从而提高性能。该接洽发现经过 LASER 回答正确的问题,但在滋扰之前,原始模子主要用高频词 (如 “the”、“of” 等) 来复兴,这些词以致与正确谜底的语义类型齐不相通,也即是说这些要素在未经滋扰的情况下会导致模子生成一些不有关的高频词汇。
可是,通过进行一定进程的降秩后,模子的回答不错变嫌为正确的。
为了意会这少量,该接洽还探索了其余组件各自编码的实际,他们仅使用其高阶奇异向量来近似权重矩阵。成果发现这些组件描述了与正确谜底相通语义类别的不同反应或通用高频词。
这些成果标明,当嘈杂的高阶重量与低阶重量组合时,它们相互打破的反应会产生一种平均谜底,这可能是不正确的。图 1 直不雅地展示了 Transformer 架构和 LASER 撤职的门径。在这里,特定层的多层感知器(MLP)的权重矩阵被替换为其低秩近似。
LASER 概览
接洽者详备先容了 LASER 滋扰。单步 LASER 滋扰由包含参数 τ、层数ℓ和降秩 ρ 的三元组 (τ, ℓ, ρ) 界说。这些值共同描述了哪个矩阵会被它们的低秩近似所替代以及近似的严格进程。接洽者依赖参数类型对他们将要滋扰的矩阵类型进行分类。
接洽者要点温顺 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩阵,它由 MLP 和能干力层中的矩阵构成。层数示意了接洽者滋扰的层(第一层从 0 启动索引)。举例 Llama-2 有 32 层,因此 ℓ ∈ {0, 1, 2,・・・31}。
最终,ρ ∈ [0, 1) 描述了在作念低秩近似时应该保留最大秩的哪一部分。举例设
,则该矩阵的最大秩为 d。接洽者将它替换为⌊ρ・d⌋- 近似。
下图 1 为 LASER 示例,该图中,τ = U_in 和ℓ = L 示意在 L^th 层的 Transformer 块中来更新 MLP 第一层的权重矩阵。另一个参数限定 rank-k 近似中的 k。
LASER 不错罢休汇蚁集某些信息的流动,并出乎预目力产生权贵的性能上风。这些滋扰也不错很容易组合起来,比如以任何规章来哄骗一组滋扰
LASER 样式仅仅对这类滋扰进行简便的搜索,并修改以带来最大收益。不外,还有好多其他样式不错将这些滋扰组合起来,这是接洽者改日责任的方针。
实验成果
在实验部分,接洽者使用了在 PILE 数据集上预覆按的 GPT-J 模子,该模子的层数为 27,参数为 60 亿。然后在 CounterFact 数据集上评估模子的作为,该数据集包含(主题、联系和谜底)三元组的样本,每个问题提供了三个释义 prompt。
领先是 CounterFact 数据集上对 GPT-J 模子的分析。下图 2 展示了在 Transformer 架构中为每个矩阵哄骗不同数目降秩的成果对数据集分类吃亏的影响。其中每个 Transformer 层齐由一个两层的袖珍 MLP 构成,输入和输出矩阵区别披露。不同的神采示意移除组件的不同百分比。
对于擢升释义的准确度和谨慎性,如上图 2 和下表 1 所示,接洽者发现,当在单层上进行降秩时,GPT-J 模子在 CounterFact 数据集上的事实准确度从 13.1% 增多到了 24.0%。需要能干少量,这些变嫌仅仅降秩的成果,并不触及对模子的任何进一步覆按或微调。
数据联接的哪些事实贯通过降秩规复呢?接洽者发现,通过降秩规复的事实极大可能很少出咫尺数据中,如下图 3 所示。
高阶组件存储什么呢?接洽者使用高阶组件近似最终的权重矩阵(而不像 LASER 那样使用低阶组件来近似),如下图 5 (a) 所示。当使用不同数目的高阶组件来近似矩阵时,他们测量了真确谜底相对于瞻望谜底的平均余弦相同度,如下图 5 (b) 所示。
终末,接洽者评估了自己发现对 3 种不同的 LLM 在多项言语意会任务上的遍及性。对于每项任务,他们通过生成准确度、分类准确度和吃亏三种目的来评估模子的性能。如上表 1 所示,即使降秩很大也不会导致模子准确度下跌,却不错擢升模子性能。
Powered by 开云真人(中国)官方网站 @2013-2022 RSS地图 HTML地图
鄂ICP备2020021473号-1