揭秘AI偏好，南加州大学任翔及结合团队斥地处罚标注者

202411月05日

揭秘AI偏好，南加州大学任翔及结合团队斥地处罚标注者

发布日期：2024-11-05 21:59 点击次数：194

新闻动态

揭秘AI偏好，南加州大学任翔及结合团队斥地处罚标注者

大言语模子（LLM）日益普及并为数以千万计用户提供事业，确保这些系统大致得当多元化的用户需求变得至关伏击。

在 AI 范围，尤其是当然言语处理中，诓骗东说念主类偏好来教导模子学习已成为了一种模范纪律，然而，以往的盘问往往假定标注者的不甘心见是噪声，而忽略了这些不对背后可能存在的深档次原因。

近日，由纽约大学、艾伦东说念主工智能盘问所、华盛顿大学、南加州大学等的团队构成的蚁合小组开展了一项盘问，揭示了导致标注者之间产生不对的各式身分，并默契这些身分对模子查验及评估的影响。现在，这项盘问效果照旧以“Diverging Preferences: When do Annotators Disagree and do Models Know?”（东说念主类标注的偏好数据：当标注者意见不对时，模子是否透露？）为题发表在预印本网站 arXiv 上。

图丨研有计划文（开首：arXiv）

在这篇论文中，盘问团队通过对东说念主类标注偏好数据集的分析建议了新的分类法来诠释不对原因，发现大部分的不对是由于个体偏好的各异所导致的。此外，他们针对现存的奖励模子进行了优化，使其大致更好地捕捉不同用户不雅点之间的各异，不错更好地识别出不对，并在履行中获得了较好的效果。终末，他们还探索了现时流行的“LLM-as-Judge”评估纪律中存在的问题并建议处罚有规划。这些盘问效果关于进一步推进当然言语处理的盘问和发展具有伏击意旨。

（开首：arXiv）

在这项盘问中，团队领先建造了一个包含 10 个类别的分类体系，其中涵盖任务不解确、回答立场各异、拒却作答以及标注短处四个高级次类别。通过这种纪律，他们识别出了酿成标注者不对的主要开首。

他们发现，在东说念主类标注的数据采集，大无数的意见不对并非苟简的随即噪声，而是反应了不同个体间竟然存在的偏好各异。举例，关于某些怒放性较强的问题，由于缺少具体换取或存在多种条约一释，标注者时时会给出千差万别的谜底。

然后，他们探索了这些发现关于大言语模子发展的两个范围——奖励建模和评估体系的影响。

（开首：arXiv）

传统的奖励建模纪律（比如 Bradley-Terry 模子），无法有用划分给定的偏好判断是标注者之间一致甘心的铁心，如故不同用户偏好之间的无数意见的铁心。这意味着，如若平直使用这类纪律进行查验，可能会忽略掉那些虽非主流但雷同合理的不雅点，进而影响到最终模子的发达。

与之雷同地，现时流行的“LLM-as-Judge”评估纪律也倾向于选出一个“赢家”复兴，即使是在偏好不对的情况下亦然如斯。这标明，现存的评估体系可能并不恰当处理复杂的主不雅任务，尤其是在面对高度争议的话题时。

这些发现凸显了大言语模子评估中存在的挑战，其在很猛进度上受到回答立场等不对特征的影响，也凸显了在斥地多元化对皆的大言语模子方面仍然濒临挑战。

（开首：arXiv）

团队围绕怎样识别和处理具有争议性的对话数据和怎样评估基于言语模子的对话生成系统的才智开展了一系列履行。

领先，他们比拟了不同类型的奖励模子（比如 MSE 牵记和 Bradley-Terry 模子）以及单值和散布式的奖励模子（比如均值-方差模子），并使用这些模子来意象用户对对话的偏好进度。铁心裸露散布式的奖励模子（绝顶是基于 KL 散度的均值-方差模子）在 Diverging ID AUROC 见识上发达最佳，不错有用地识别具有争议性的对话数据。

然后，他们将查验好的散布式奖励模子应用于新的对话数据集，并考据其性能。铁心标明该模子大致准确地识别具有争议性的对话数据，并将其与其他类型的数据划分开来。

终末，他们将查验好的散布式奖励模子应用于实质的对话生成任务中，并与传统的随即采样纪律进行比拟。他们发现该模子大致在保证生成高质料对话的同期，权臣擢升对话的各样性。

在评估基于言语模子的对话生成系统才智方面，他们开展了一个对比履行，比拟了不同的评估见识（包括 Preference Accuracy 和 Diverging ID AUROC）以及不同类型的言语模子（比如 Llama-3-8B Instruct 和 Multipref）。铁心裸露，散布式的奖励模子（绝顶是基于 KL 散度的均值-方差模子）在 Diverging ID AUROC 见识上发达最佳，不错更准确地评估系统的生成才智。

（开首：arXiv）

跟着大言语模子的应用越来越正常，确保系统具有多元化的不雅点变得尤为伏击。这篇论文建议的分类法和校正的奖励模子不错为将来的多元化查验提供参考，同期关于现时流行的“LLM-as-Judge”评估纪律还需要进一步的盘问和探索，以擢升系统的评价准确性。

揭秘AI偏好，南加州大学任翔及结合团队斥地处罚标注者

热点资讯

相关资讯