Resource Info Paper http://arxiv.org/abs/2312.10302 Code & Data https://github.com/pldlgb/nuggets Public ArXiv Date 2024.03.25
当前的指令调优实践通常依赖于扩展数据集大小,而没有明确的策略来确保数据质量,这可能会无意中引入噪声并降低模型性能。
为了应对这一挑战,我们引入了 NUGGETS,这是一种新颖且高效的方法,它采用一次性学习从广泛的数据集中选择高质量的指令数据。
Nuggets 利用基于候选示例对不同锚集的复杂度的影响的评分系统,有助于选择最有益的数据以进行指令调整。
尽管用于指令调整的数据集的大小有所增加,但一些工作表明较小但有价值的数据集往往更有效地利用法学硕士的能力。
我们相信,在大量可用数据中存在最佳指令组合,但识别它们的高效、低成本方法却很少被探索。
Nuggets,一种简单而有效的方法,利用法学硕士本身作为数据探索者,通过一次性(上下文)学习,从庞大的教学数据集中选择有益的数据。
具体来说,我们首先选择一个涵盖多个任务的集合作为锚集,其余示例作为候选集。依次从候选集中选择一个示例作为上下文学习的一次性示例,然后通过观察其对每个锚示例的困惑度的影响来评分。该分数可以推断anchor和候选示例之间的依赖关系,并作为数据选择的参考标准。
Contributions:
在本文中,我们提出大型语言模型 (LLM) 可以通过上下文学习隐式地充当谨慎地数据探索者,这样可以进一步指导自己识别必要的训练样本。
首先,我们使用一组预定义的任务(表示为零样本分数)评估大型语言模型在各种任务上的熟练程度。然后,我们将指令数据集中的每个示例作为一次性提示,将其连接在预定义任务的前面,并重新计算模型对这些任务的完成水平,称为一次性分数。通过利用一次射击和零次射击分数之间的差异,我们可以计算每条指令的黄金分数。一旦我们获得了所有指令的黄金分数,我们就可以选择得分最高的子集作为黄金子集,然后将其直接提供给模型进行微调。
Instruction Construction
以前的方法的微调指令数据集通常是手动创建的或针对特定任务定制的。
另一方面,一些研究侧重于通过利用更少但更高质量的指令示例来增强语言模型的性能。
LLaMa-7b
Alpaca dataset / Alpaca-GPT4
鉴于 Alpaca 数据集自然地表现出这些特征,我们从中随机选择了 1,000 个示例来形成预定义的任务集。
MT-Bench
Aplaca-Eval
LLaMa-7b
我们使用具有黄金分数的不同示例子集对 LLaMA 进行指令调整:小于 0.5、大于 0.5、大于 0.8、大于 0.85 以及完整数据集。微调模型分别命名为Alpaca≤0.5、Alpaca>0.5、Alpaca>0.8、Alpaca>0.85和Alpacafull。
我们还注意到,合并较低质量的指令会对模型微调产生不利影响。当我们看到 Alpaca≤0.5 的性能落后于 Alpacafull,而 Alpaca>0.5 的性能略优于 Alpacafull 时,这一趋势就很明显了。值得注意的是,Alpaca>0.85,仅使用 1% 的数据集进行微调,就取得了与 Alpacafull 相当甚至超越的结果。这强调了我们的数据选择方法的有效性。
Ablation on Predefined Task Sets
为了评估不同的预定义任务集如何影响微调指令数据的选择,我们添加了两个额外的预定义任务集变体。一个是从 Alpaca 数据集中随机抽取的示例,但任务集大小较小,仅限 100 个示例。另一种方法需要使用 KMeans 算法将 Alpaca 数据集聚类为 100 个簇,并选择每个簇的质心作为任务集的示例。
表3中的结果表明,通过随机采样,增加任务集的大小可以增强高质量指令数据的识别。
然而,当使用 KMeans 为任务集挑选更多不同的示例时,就会发生转变。 KMeans 仅用了 100 个示例,就超越了通过随机采样获得的 1,000 个示例的结果。在本例中,Alpaca>0.8 仅用 5,419 个示例就提供了卓越的性能,而 Random1000 则提供了 7,524 个示例。这一结果也间接证实了我们关于黄金指令定义的假设的有效性。
Ablation on Instruction Set
为了更深入地研究 Nuggets 在不同指令数据集上的泛化能力,我们利用 Alpaca-GPT4 数据集进行了一系列实验。
ChapGPT
论文的创新之处与独特性:
论文中存在的问题及改进建议:
基于论文的内容和研究结果,提出的创新点或研究路径:
为新的研究路径制定的研究方案:
本文作者:Geaming
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!