无需人类或GPT-4打标签！无监督新范式大幅降低视觉大模型对齐成本_图灵汇

投稿
APP
微信扫一扫获取更多

无需人类或GPT-4打标签！无监督新范式大幅降低视觉大模型对齐成本

2024-06-24 08:05:22

图灵汇官网

探索视觉语言模型的革新：无监督偏好对齐策略

概述： 南大与旷视研究院的最新研究揭示了一种创新的无监督方法，旨在解决视觉语言模型(VLM)在偏好对齐方面的问题。通过构建偏好样本对的方式，该团队成功地解决了视觉语言模型的偏好对齐难题，提出了名为“Self-Supervised Visual Preference Alignment (SeVa)”的范式。这一突破性成果不仅避免了传统的标签需求，而且显著提升了模型在理解指令、减少幻觉回答以及增强用户友好性方面的能力。

技术亮点：

无标签数据集构建：研究团队采用自动化方法构造偏好数据集，无需人工或GPT-4的参与，简化了数据准备流程。
偏好对齐的自动训练：SeVa范式基于LLaVa-1.5-7B/13B模型，通过对比原始图像与图像增广后的回答，有效提高了偏好对齐效果。
性能提升与效率优化：实验结果表明，仅使用少量无监督数据即可显著提升模型性能，包括增强指令遵循能力、降低幻觉回答，并在多项基准测试中表现出色。

技术创新：

偏好数据构造与对比损失：通过分析偏好分布与对比损失的关系，研究团队提出了SeVa范式的理论基础，其在构建负样本时展现出与对比学习一致但更灵活的特性。
SeVa的泛化能力：经过DPO(偏好对齐)训练的SeVa模型，不仅回答更加贴近用户偏好，而且在不同温度设置下的稳定性更强。

应用前景与贡献：

提升用户体验：SeVa的引入有望显著改善当前视觉语言模型在实际应用中的表现，特别是在用户交互场景中，提升回答的准确性和相关性。
开源资源：项目已开源，为学术界和工业界提供了宝贵的资源，推动了视觉语言模型领域的发展和创新。

引用：

论文链接：arXiv
项目仓库：GitHub

此版本旨在提供一种全新的视角，简要介绍南大与旷视研究院在视觉语言模型偏好对齐领域取得的创新性研究成果，突出其技术亮点、技术创新以及潜在的应用价值。通过对比原始数据和经过偏好对齐处理的数据，强调了SeVa范式在提升模型性能、简化数据准备流程以及增强用户体验方面的显著效果。

范式对齐大幅无需模型降低视觉人类成本监督

本文来源：互联网文章作者：

: 免费Google账号共享2021有效谷歌账号密码大全
图灵汇

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: iPSC细胞企业「中盛溯源」完成1.5亿元B轮融资，加速管线临床及商业化
图灵汇

: 越秀产业基金联合险资发起20亿光伏基金
图灵汇

: 越秀产业基金联合险资发起20亿光伏基金
图灵汇

: 日产汽车将裁员9000人，并减持三菱汽车股份
图灵汇

: 传网易游戏多名高管陷贪腐风波被带走调查网易pr回应：案件仍在侦办
图灵汇

下一篇

AI时代，UI设计师如何与人工智能“共舞”？

陈巧说

2024-06-05

5

导读：科技话题如果有热搜，那必然是AIGC。从2022年底开始，随着chatGPT引发的全球AI生成工具的广泛应用，AIGC似乎像一把钥匙，开启了数字内容创作的全新篇章，prompt成为了数字艺术家