谷歌推出 DataGemma：基于可信数据源提高 AI 准确度，减少幻觉

巴雅尔

2024-09-13 13:27:58

在科技媒体maginative于9月12日发布的报道中，提及了谷歌公司基于其数据共享平台“Data Commons”中的真实世界统计数据，推出了一款名为DataGemma的新模型版本。此动作旨在应对当前语言模型面临的挑战——即所谓的“幻觉”问题，特别是在处理数字和统计数据时，精确性尤为重要。

谷歌的“Data Commons”是一个汇集了联合国和疾病控制与预防中心等权威机构提供的超过2400亿数据点的数据库。通过利用这一庞大的数据集，DataGemma模型能够显著提升其准确性，确保输出信息基于可靠的真实世界数据。

DataGemma的核心技术包括检索交错生成(RIG)和检索增强生成(RAG)，旨在通过集成现实世界数据来减少生成内容中的虚构成分。具体而言：

RIG：在接收到提示后，模型会主动查询可信数据源，结合数据共享平台获取的具体信息，生成答案。例如，对于关于全球可再生能源使用量的问题，答案将包含实时的统计数据，确保其准确无误。
RAG：在生成答案前，模型先检索相关数据，进一步提高答案质量。借助Gemini 1.5 Pro的长上下文窗口功能，DataGemma确保答案全面且深入，通过引入表格和脚注提供更丰富的背景信息，从而有效降低虚构内容的产生。

尽管谷歌在RIG和RAG的研究仍处于初级阶段，但其初步成果显示出显著的改进。DataGemma模型在处理数值事实和统计查询时，表现出了较高的准确性。研究团队已在其方法上发表了论文，强调了这些技术如何使大型语言模型学会在何种情况下依赖外部数据和内部参数。