新工具简化复杂数据分析
GenSQL,一款创新的数据库生成式AI系统,旨在使数据库用户能在无需深入了解背后机制的情况下,便捷地执行表格数据的复杂统计分析。只需轻触按键,用户便能完成预测、异常检测、缺失值填补、错误修正或合成数据生成等任务。
以分析高血压患者医疗数据为例,GenSQL能识别通常处于正常范围但对特定患者偏低的血压读数。该系统集成表格数据集与生成式概率AI模型,后者能考量不确定性,并基于新增数据调整决策流程。
GenSQL适用于生成模拟真实数据的合成数据,尤其在无法共享敏感数据(如患者健康记录)或数据稀缺的情况下。它建立在SQL基础之上,一种自20世纪70年代末推出的数据库创建与操作编程语言,全球数百万开发者对此语言运用自如。
“从历史角度看,SQL教会了商业界计算机的功能。无需编写定制程序,仅需使用高级语言向数据库提问即可。”Vikash Mansinghka,大脑与认知科学系概率计算项目的负责人、资深作者如是说,“当我们从单纯查询数据转向向模型和数据提问时,需要一种类似语言教会人们如何向具有数据概率模型的计算机提出连贯问题。”
相较于主流的人工智能数据分析方法,GenSQL不仅速度快,结果准确性更高。其概率模型具备可解释性,用户能阅读和编辑这些模型。研究者Mathieu Huot指出:“简单统计规则的观察和模式寻找可能会忽略重要交互作用。真正目标是在模型中捕获变量间的相关性和依赖性,这可能相当复杂。GenSQL旨在让大量用户在不了解所有细节的前提下,查询数据和模型。”
该论文由MIT研究团队共同撰写,包括Matin Ghavami、Alexander Lew、Cameron Freer、Ulrich Schaechtel、Zane Shelby、电气工程与计算机科学系教授及CSAIL成员Martin Rinard,以及卡内基梅隆大学助理教授Feras Saad。研究成果最近在ACM编程语言设计与实现会议上发布。
SQL作为用于存储和操作数据库信息的编程语言,允许用户通过关键词(如汇总、过滤或分组数据库记录)提问。然而,模型查询能提供更深层次的见解,因为它能捕捉数据对个体的意义。例如,一位女性开发者欲知自身薪酬是否过低,她关注的是薪酬数据对其个人的含义,而非数据库记录的趋势。
研究者注意到SQL缺乏整合概率AI模型的有效方式,而现有概率模型推断方法不支持复杂的数据库查询。为填补此空白,他们构建了GenSQL,允许用户使用直接且强大的正式编程语言查询数据集和概率模型。
用户上传数据和概率模型至GenSQL,系统自动集成信息。随后,用户可运行查询,这些查询受后台运行的概率模型输入影响。这不仅增强了查询复杂性,还提供了更精确的答案。
例如,查询“西雅图的开发者熟悉Rust编程语言的可能性有多大?”时,GenSQL能捕捉列间关系之外的微妙依赖关系。此外,GenSQL采用的可审核概率模型提供了答案的不确定性校准度量。针对少数群体(数据集代表性不足)患者的癌症治疗预测,GenSQL能告知用户不确定性水平,避免过度自信推荐错误的治疗方法。
GenSQL在速度和准确性方面优于流行的神经网络基线方法,速度提高了1.7至6.8倍,可在几毫秒内执行大多数查询。研究者通过两个案例研究应用了GenSQL:识别临床试验数据的错误标签和生成捕捉基因组复杂关系的准确合成数据。
未来,研究者计划更广泛地应用GenSQL进行大规模人口建模,通过生成合成数据控制分析中使用的信息,对健康和薪资等事项进行推断。他们还将增加新优化和自动化功能,使GenSQL更易于使用和强大。长远目标是让用户以自然语言在GenSQL中提问,开发类似于ChatGPT的AI专家,用户可通过与之交谈获取数据库查询得出的答案。
该项目获得美国国防高级研究计划局(DARPA)、谷歌和Siegel家族基金会的支持。更多信息请参阅原文链接:原文链接