允许机器学习提出问题可以使它更智能

图灵汇官网

杜克大学的生物医学工程师们展示了一种新方法,该方法能显著提升机器学习模型在仅有少量数据的情况下寻找新分子疗法的有效性。通过采用主动识别数据集缺口的算法,研究人员在某些情况下将准确性提升了超过一倍。

这种方法使科学家更容易识别和分类具备潜在药物开发价值的分子。研究成果已发表在《数字发现》杂志上,该杂志由英国皇家化学学会出版。

机器学习算法如今广泛应用于识别和预测小分子的特性,如候选药物及其他化合物。尽管计算能力和机器学习算法都有显著进步,但它们的能力仍受限于现有的数据集,这些数据集并不总是完美无缺。

其中一大挑战在于数据偏差。当某种特性在数据集中占据主导地位时,比如分子抑制特定蛋白质或具备某些结构特征的潜力,偏差问题便会出现。

“这就像训练一种算法来区分狗和猫的照片,却只提供了大量狗的照片,而只有少量猫的照片。”杜克大学生物医学工程助理教授丹尼尔·雷克尔解释道,“算法会变得极其擅长识别狗,而忽视其他事物。”

在药物发现过程中,这是一个尤其棘手的问题,因为科学家们通常面对的是一个超过99%的测试化合物被认为无效的数据集,只有少数分子被标记为潜在有用的。

为了解决这一问题,研究人员采用了一种名为数据子采样的过程,即算法从一小部分但具有代表性的数据子集中学习。然而,这种方法可能引入偏差,也可能导致关键数据点丢失,从而影响算法的整体准确性。为此,研究人员开发了多种子采样技术,以尽量减少信息损失。

雷克尔和他的同事们尝试了一种被称为主动机器学习的技术,看是否能解决这一长期存在的问题。“主动机器学习使算法能在感到数据缺失或不确定时提出问题或请求更多信息,而非被动筛选数据。”雷克尔表示,“这使得主动学习模型在预测性能方面更为有效。”

研究人员构建了包含不同特性的分子数据集,如能穿过血脑屏障的分子、能抑制与阿尔茨海默病相关蛋白质的分子,以及已被证实能抑制HIV复制的化合物。随后,他们测试了主动学习算法在完整数据集和16种先进子采样策略下的表现。

实验结果显示,主动子采样方法在识别和预测分子特性方面比每种标准子采样策略都要准确,尤其是在某些情况下,其效率比基于完整数据集训练的算法高出139%。此外,该模型还能准确修正数据中的错误,显示出对低质量数据集的强适应性。

最令人惊讶的是,研究团队发现理想的样本量远低于预期,在某些情况下只需10%的数据即可达到最佳效果。“主动子采样模型只需收集所需的所有信息,额外的数据反而会降低性能。”雷克尔指出。

未来,雷克尔和他的团队计划进一步研究这一现象,并利用这种新方法识别新的潜在治疗靶点的分子。由于主动机器学习在多个研究领域日益流行,他们相信这一工作将有助于科学家更好地理解该算法及其对数据错误的鲁棒性。

“这种方法不仅提高了机器学习的表现,还减少了数据存储的需求和成本,因为它使用的是更精简的数据集。”雷克尔表示,“这使得机器学习更加实用、高效和强大。”

本文来源: 图灵汇 文章作者: 郑沛