模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分（模型gini）

AIGC动态欢迎阅读

原标题：模型偏好只与大小有关？上交大全面解析人类

与32种大模型偏好的定量组分

关键字：模型,人类,属性,数据,用户

文章来源：机器之心

内容字数：6028字

内容摘要：

机器之心专栏

机器之心编辑部在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式人工智能实验室（GAIR）发布了一项新研究成果，对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析，以了解不同来源的偏好数据是如何由各种预定义属性（如无害，幽默，承认局限性等）定量组成的。

进行的分析有如下特点：

注重真实应用：研究中采用的数据均来源于真实的用户 – 模型对话，更能反映实际应用中的偏好。

分场景建模：对属于不同场景下的数据（如日常交流，创意写作）独立进行建模分析，避免了不同场景之间的互相影响，结论更清晰

原文链接：模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分