娜塔莎·雅克(Natasha Jaques)是美国华盛顿大学的助理教授。她在麻省理工学院攻读博士学位期间,曾开发一种语言模型微调技术,该技术后来被OpenAI用于基于人类反馈的强化学习(RLHF)产品中。此外,她还曾在谷歌DeepMind和Google Brain实习,并担任过OpenAI学者导师。
娜塔莎·雅克目前在美国华盛顿大学担任助理教授,同时也在谷歌DeepMind担任高级研究科学家。她的博士后研究是在加州大学伯克利分校的谢尔盖·列文教授指导下完成的。谢尔盖·列文教授以其卓越的研究成果闻名,其论文引用量超过16万次,h指数达到175。
娜塔莎的研究小组近期有一篇论文被神经信息处理系统大会(NeurIPS)收录,并且该论文位列大会前2%。在这篇论文中,她和团队提出了一种名为“变分偏好学习”的新技术,该技术能够针对大模型生成内容进行微调,使其更符合用户的个人偏好。这项技术的应用范围不仅限于大型语言模型,还包括机器人等设备。
“变分偏好学习”技术通过与用户互动,预测用户的偏好,从而调整模型的输出。例如,在一个简单的家庭环境中,如果两个用户对机器人放置盘子的位置有不同的偏好,该技术能够根据用户的独特偏好进行个性化调整。实验表明,这种方法在预测用户二元偏好方面,准确率提高了10%至25%。
尽管这项技术表现出色,但目前仍面临一些挑战。由于缺乏大规模的真实偏好数据集,研究者们不得不自行创建数据集。娜塔莎认为,未来将通过“变分偏好学习”技术,从不同用户群体中提取更真实的偏好数据,以进一步提升模型的性能和适用性。
娜塔莎指出,当前的人类反馈强化学习(RLHF)技术在处理不同人群之间的偏好差异时存在不足。例如,一个来自低收入家庭的学生可能无法从大模型中获得关于教育资助的信息,因为现有的技术无法准确捕捉这些细微的偏好差异。她认为,未来的模型需要更好地理解和适应不同用户的价值观和偏好,以提供更为个性化的服务。
娜塔莎·雅克及其团队的研究不仅推动了人工智能技术的发展,也为解决模型中的偏见问题提供了新的思路。通过“变分偏好学习”技术,不仅可以提高模型的个性化能力,还可以增强模型的安全性和可靠性。未来,这项技术有望在更多领域得到广泛应用。