近日，阿里云机器学习PAI关于大模型稀疏训练的论文《大语言模型微调的参数高效稀疏性》被人工智能峰会IJCAI 2022接收。本文提出了一种高参数效率的稀疏训练算法PST。通过对权重重要性指标的分析，得出其具有低秩性和结构性两个特征。根据这一结论，PST算法引入两组小矩阵来计算权重的重要性。与原始矩阵用相同的权重保存和更新重要性指标相比，稀疏训练中需要更新的参数数量大大减少。与常用的稀疏训练算法相比，PST算法只需更新1.5%的参数就可以达到相近的稀疏模型精度。

背景

近年来，各大公司和研究所提出了各种大模型。这些大型模型的参数从数百亿到数万亿不等，甚至出现了10万亿的巨型模型。这些模型需要花费大量的硬件资源进行训练和部署，导致了它们难以应用的困境。因此，如何减少大模型的训练和部署所需的资源，成为一个亟待解决的问题。模型压缩技术可以有效减少模型部署所需的资源，其中稀疏可以通过移除一些权重，将模型中的计算从密集计算变为稀疏计算，从而达到减少内存占用、加快计算速度的效果。同时，与其他模型压缩方法(结构化剪枝/量化)相比，稀疏性可以在保证模型精度的同时实现更高的压缩率，更适用于参数数量较多的大型模型。

挑战

现有的稀疏训练方法可以分为两类，一类是基于权重的无数据稀疏算法；一种是基于数据的数据驱动稀疏算法。基于权重的稀疏算法如下图所示，比如幅度剪枝[1]。通过计算权重的L1范数来评估权重的重要性，并在此基础上生成相应的稀疏结果。基于权重的稀疏算法效率高，不需要训练数据，但计算出的重要性指标不够准确，影响了最终稀疏模型的准确性。

基于数据的稀疏算法如下图所示，比如运动剪枝[2]，计算权重和对应梯度的乘积作为衡量权重重要性的指标。这种方法考虑了权重对特定数据集的作用，因此可以更准确地评估权重的重要性。但是，由于需要计算和保存每个权重的重要性，这种方法往往需要额外的空空间来存储重要性指数(图中的S)。同时，与基于权重的稀疏方法相比，计算过程往往更加复杂。随着模型规模的变大，这些缺点会变得更加明显。

综上所述，之前的稀疏算法要么是高效但不够准确(基于权重的算法)，要么是准确但不够高效(基于数据的算法)。因此，我们期望提出一种高效的稀疏算法，能够准确高效地训练大型模型。

陷入陷阱

基于数据的稀疏算法的问题在于，它们一般会引入与权重大小相同的附加参数来学习权重的重要性，这让我们开始思考如何减少引入的附加参数来计算权重的重要性。首先，为了最大限度地利用现有信息计算权重的重要性，我们将权重的重要性指数设计为如下公式:

也就是说，我们结合无数据和数据驱动的指标，共同确定最终模型权重的重要性。已知前一种无数据重要性指标不需要额外的参数保存，计算效率高，所以我们需要解决的是如何压缩后一种数据驱动重要性指标引入的额外训练参数。

基于前面的稀疏算法，数据驱动的重要性指数可以设计为

于是，我们开始分析这个公式计算出来的重要性指数的冗余性。首先，基于前面的工作，已知权重和对应的梯度都有明显的低秩[3，4]，所以我们可以推导出重要性指标也有低秩，所以我们可以引入两个低秩小矩阵来表示原来和权重一样大的重要性指标矩阵。

其次，我们对稀疏模型的结果进行分析，发现它们具有明显的结构特征。如上图所示，每个图的右侧是最终稀疏度权重的可视化结果，左侧是统计每行/列稀疏率的直方图。可以看出，左图中30%的行中的大部分权重已经被移除，而右图中30%的列中的大部分权重已经被移除。基于这一现象，我们引入两个小型结构化矩阵来评估每行/列的重要性。

基于上述分析，我们发现数据驱动的重要性指标具有较低的排名和结构，因此我们可以将其转换为以下表达式:

其中A和B代表低秩，R和C代表结构。通过这种分析，将权重相同的重要性指标矩阵分解为四个小矩阵，从而大大减少了稀疏训练中涉及的训练参数。同时，为了进一步减少训练参数，在前面方法的基础上，我们还将权重更新分解为两个小矩阵U和V，因此最终的重要性指数公式变成如下:

相应的算法框架图如下:

PST算法的最终实验结果如下。与NLU(BERT，RoBERTa)和NLG(GPT-2)任务上的幅度剪枝和移动剪枝相比，PST可以在大多数数据集上达到相同的模型精度，稀疏率为90%，但只需要1.5%的训练参数。

PST技术已经集成到阿里云机器学习PAI的模型压缩库和Alicemind平台的大模型稀疏训练功能中。加速了阿里巴巴集团内部使用大模型的表现。与原始稀疏训练相比，PST在百亿级大模型塞上可以加速2.5倍，减少内存占用10倍。目前，阿里云机器学习PAI已广泛应用于各行各业，为AI开发提供全链路服务，实现企业自主可控的AI解决方案，全面提升机器学习工程效率。论文名称:参数有效稀疏性对大型语言模型的微调论文作者:李，付立洛，谭传琦，，，黄，沈力，白的论文pdf链接:

参考

[1]宋汉，毛，和威廉J戴利。深度压缩:通过剪枝、训练量化和霍夫曼编码压缩深度神经网络。[2]维克托·桑、托马斯·沃尔夫和亚历山大·拉什。通过微调实现自适应稀疏。[3]爱德华·J·胡、·沈、菲利普·沃利斯、·艾伦·朱、、Shean Wang、和陈。大型语言模型的低阶适应。[4]萨梅特·奥伊马克、扎兰·法比安、李明臣和马赫迪·索尔塔诺尔·科塔比。通过利用雅可比矩阵的低秩结构保证神经网络的泛化。

作者:，李

原文链接:http://click.aliyun.com/m/1000350178/

本文为阿里云原创内容，未经允许不得转载。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。系信息发布平台，仅提供信息存储空间服务。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。

本文来自网络,若有侵权，请联系删除，作者：陈俊，如若转载，请注明出处：

超链接怎么做(制作链接怎么做)

背景

挑战

陷入陷阱

相关文章

发表回复

超链接怎么做(制作链接怎么做)

背景

挑战

陷入陷阱

相关文章

猜你喜欢

发表回复