近日,中国和澳大利亚科学家的国际合作项目借助人工智能(AI)技术,发现了16万多种新型RNA病毒,这一成果是已知病毒种类的近30倍,极大提升了人们对RNA病毒多样性和演化历史的理解。这项研究也是迄今为止同类研究中规模最大的。
这项研究成果经过同行评审,已在国际著名学术期刊《细胞》上发布。研究的主要负责人之一,中山大学医学院的施莽教授在接受采访时指出:“AI算法使我们能够发掘出之前未被认识或被忽视的病毒。这种能力在疾病控制和快速识别新病原体方面尤为关键。”
今年诺贝尔物理学奖和化学奖的获奖领域均与AI在科学研究中的应用相关,这使得AI在科学界的地位更加突出。施莽教授强调,对于病毒学领域而言,AI提供了一种全新的研究方式,与传统工具截然不同,是一种数据驱动的研究模式。
“新的方法往往带来新的发现,AI帮助我们突破了对病毒多样性的认知。此类方法同样适用于其他病毒学研究领域,如新发现的病毒是否具有致病性、是否可能引发大流行,以及它们的蛋白质功能等。”施莽教授表示,“AI在科研中的应用已经成为趋势,它已经在多个领域取得重要进展,这种研究模式将会成为未来科学界的常态。”
研究首次揭示了病毒圈的“暗物质”概念。“暗物质”指的是那些尚未被识别的病毒。病毒是无处不在的微生物,但目前只有大约5000种病毒被人类识别,远不及病毒世界的全貌。其中一些病毒可能对人类健康构成威胁。因此,对病毒的认知扩展对于人类应对各种疾病至关重要。
RNA病毒因其简单的构造而在自然界中更为常见。RNA病毒广泛存在于各种环境中,甚至可能参与了生命起源的过程。虽然传统方法在识别RNA病毒方面存在局限性,但AI技术的应用正逐步克服这一难题。
研究团队采用了一种基于深度学习的AI模型“LucaProt”,通过输入蛋白质序列进行预测,成功识别出大量未知的病毒。该模型结合了先进的蛋白质预测工具ESMFold,由Meta公司的研究人员开发。此外,Google DeepMind公司开发的AlphaFold也在病毒学研究中发挥了重要作用。
研究团队通过对全球各地的生物样本进行分析,发现了超过50万个病毒基因组,其中包括16万多种潜在的病毒种类和180个RNA病毒超群。这使RNA病毒超群的数量增加了近9倍,病毒种类增加了约30倍。其中23个超群无法通过传统的序列同源方法识别,被称为病毒圈的“暗物质”。
研究还揭示了多个病毒学领域的全新发现,如发现迄今最长的RNA病毒基因组,长度达47250个核苷酸,展示了RNA病毒基因组进化的新特点。此外,在极端环境中,如深海热泉,RNA病毒依然表现出丰富的多样性。
施莽教授表示,AI技术在病毒识别方面具有独特的优势,特别是在疫情爆发期间,可以快速锁定潜在的病原体。未来,研究团队将继续运用AI技术探索病毒多样性,并将其应用于识别细菌和寄生虫。
这项研究不仅大幅提升了对病毒多样性的认知,也为未来应对病毒带来的挑战提供了新的思路和工具。