Resource Info Paper https://arxiv.org/abs/2402.18191 Code & Data https://github.com/IronBeliever/CaR Public ArXiv Date 2024.04.01
鉴于训练和评估模型需要大量的资源分配,拥有一种有效的方法来选择高质量的 IT 数据是有利的。在本文中,我们提出了一种工业友好型、专家对齐且保留多样性的指令数据选择方法:聚类和排序(Cluster and Ranking, CaR)。
第一步涉及使用与专家偏好非常一致的评分模型对指令对进行排名(准确度达到 84.25%)。第二步涉及通过聚类过程保留数据集多样性。
大型语言模型 (LLM) 通过称为指令调优 (IT) 的过程获得遵循指令的能力(Radford 等人,2019;Brown 等人,2020;Zhang 等人,2023),从而弥合了下一个语言模型之间的差距。 - 单词预测和遵守用户提供的说明。
然而,必须注意的是,自指令框架内的过滤阶段主要关注指令结构的完整性和相似性,无意中忽视了关键的指令质量。
从这个角度来看,Alpagasus(Chen et al., 2023)利用 GPT-3.5 Turbo 过滤了大约 9k 条评级为 4.5 或更高的指令,超越了 Alpaca 的性能。
Contributions:
从质量估计到指令对质量估计
我们的目标是首先使用 IQE 对大量指令进行粗略筛选,然后用最少的数据集细化和选择最佳的 LLM,以降低指令过滤和验证所涉及的总计算费用。
GPT 作为法官表现出系统偏见 在需要人类偏好的场景中
研究人员发现GPT-4的评估存在系统性偏差,包括位置偏差、冗长偏差和自我增强偏差。
教学多样性激发LLMs的多任务能力
在资源匮乏的情况下,混合来自不同任务的这些指令可以增强LLM的能力。
受到周等人的启发。 (2023),我们首先选择一个确保保留大量高质量指令的子集,然后从每个簇中补充少量高质量指令,以在保持指令质量的同时增强数据的多样性。如图2所示,最初,整个数据集通过IQS模型进行评估,为每个指令对分配一个scorei。随后,采用聚类模型将所有候选指令对聚类成k个聚类。最后,将所有指令对按照得分进行排序,选出前n1对;在每个簇内,指令对按分数排序,并选择前 n2 对。然后通过对 n1+k*n2 对指令进行重复数据删除来生成具有保留多样性的高质量子数据集。这个精炼的数据集旨在用于 AlpaCaR 的训练。
Diversity
混合来自不同任务的训练数据可以提高LLMs跨不同能力的熟练程度。
直观上,通过为每个指令对分配任务标签,我们可以保留与更广泛的任务相关的指令对,从而促进跨任务指令协同并增强模型性能。
为了增强该方法的多功能性,我们选择了基于无监督聚类的方法来保留数据多样性。聚类算法可以识别语义空间中相邻的指令对,并为不同的任务形成簇。此外,这种选择允许有效地适应不同的数据集,而无需在遇到域外指令对时通过形成新的集群来从头开始重新训练。
在聚类方法方面,我们采用k-Means算法。从 SentenceTransformers 模型开始,句子被映射到 384 维密集向量空间。随后,应用 PCA 来降维,同时保留 95% 的主成分。最后,设置簇数为k=pn/2,所有52k指令对被簇为178个簇。通过调整每个簇内指令对的数量来维持指令子数据集的多样性。
尽管 CaR 在多个测试集上表现出色,但其实验仅限于在 Alpaca_52k 数据集上进行过滤。不同开源指令集的不同格式给对指令过滤任务感兴趣的学术界带来了挑战。未来,我们计划在 WizardLM_evol_instruct_70k (Xu et al., 2023) 和 databricks-dolly-15k (Conover et al., 2023) 等数据集上验证 CaR 的有效性。此外,虽然CaR主要用于单轮对话指令过滤,但探索其在多轮对话指令过滤中的应用为未来的研究提供了一个有吸引力的方向。
对于每个样本,判断模型都会输入一条指令和由不同模型生成的两个候选响应,并需要标记哪个响应是获胜者,如果两者都显着突出,则标记为平局。为了解决 LLM 法官偏爱特定职位的潜在偏见,我们通过交换响应顺序对结果进行了两次测试,并根据以下因素定义了最终判决:
win: 获胜两次,或获胜一次平局一次
lose:输两次,或者输一次打平一次
ties:平局两次,或胜一次负一次
evaluation model:
才用四个数据集进行评估,以达到覆盖更广泛的指令,从而最大限度地减少评估偏差。
Alpaca
如表 2 所示,AlpaCaR 在 7B 尺度上不仅优于 Alpaca 和 Vicuna 的基础模型,而且相对于 Alpaca-PandaLM、Alpaca-cleaned 和 Alpagasus 也表现出更优越的性能。总体而言,AlpaCaR 在 7B、13B 和 30B 尺度上比 Alpaca 实现了显着的性能改进,从而验证了 CaR 方法的有效性。与 Alpagasus 相比,AlpaCaR 的显着性能提升是通过减少数据使用来实现的,这凸显了利用高质量的人类偏好和数据多样性在增强模型性能方面的至关重要性。
ChapGPT
论文的创新之处与独特性: 本文提出了一种新的自然语言处理方法——Clustering and Ranking (CaR),旨在高效选择高质量的指令调优(IT)数据。CaR方法的显著特点在于它结合了质量评估和数据多样性保持两个维度。首先,通过与专家偏好相一致的打分模型对指令对进行排序(准确率达到84.25%),然后通过聚类过程保持数据集的多样性。在实验中,CaR方法仅选择了Alpaca IT数据的1.96%,但训练出的模型在GPT-4评估中性能提升了平均32.1%。此外,CaR使用的小型模型(只有355M参数)和较低的成本使其易于在工业场景中部署。
论文中存在的问题及改进建议:
基于论文的内容和研究结果,提出的创新点或研究路径:
为新的研究路径制定的研究方案:
本文作者:Geaming
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!