对受利润驱动的机器学习的不满 | “自然指数-人工智能”增刊

投稿
APP
微信扫一扫获取更多

对受利润驱动的机器学习的不满 | “自然指数-人工智能”增刊

孙小黎

2024-09-26 20:02:51

导读：原文作者：Brian Owens 私营企业在人工智能方面的投入远超学术界，但健康发展需要多方的投入。来源: Neil Webb 如果不是学术界的早期研究，可能就不会有人工智能（AI）眼下的繁荣。如今日常生活中使用的许多技术，如机器学习和自然语言处理，都是由数十年前...

原文作者：Brian Owens

私营企业在人工智能方面的投入远超学术界，但健康发展需要多方的投入。

来源: Neil Webb

如果不是学术界的早期研究，可能就不会有人工智能（AI）眼下的繁荣。如今日常生活中使用的许多技术，如机器学习和自然语言处理，都是由数十年前的人工神经网络学术研究支撑的。但可以肯定的是，人工智能领域许多最新的尖端和备受瞩目的研究并非在大学实验室进行，而是在私营公司的紧闭的幕布之后开展。

德国亚琛工业大学的人工智能研究员Holger Hoos表示：“我们越来越多地看到，顶尖的人工智能研究主要在少数美国公司的研究实验室内完成。

这些研究大多并未发表在领先的同行评议科学期刊上。2023 年，企业研究仅占美国自然指数人工智能总产出的 3.84%。但其他来源的数据显示，企业在研究中的影响力逐渐增加。去年发表在Science的一篇论文1中，在剑桥麻省理工学院研究创新和人工智能的 Nur Ahmed 和他的同事发现，有一位或多位产业界合著者参与的研究文章占主要人工智能会议演讲的比例，从 2000 年的 22% 增长到 2020 年的 38%。产业界在最大、因而也最强的人工智能模型中的份额，从 2010 年的 11% 增长到 2021 年的 96%。在用于评估人工智能模型性能的一组 20 个基准测试（例如图像识别、情感分析和机器翻译方面的能力）中，2017 年之前仅产业界、或产业界与大学合作的工作，在62%的情况下拥有领先模型，自 2020 年以来这一比例已增长到 91%。“产业界正日益主导这一领域。”Ahmed 说。

人工智能研究成果日益占据主导地位，很大程度上得益于行业在资金方面的巨大优势。2021 年，美国政府机构（不包括国防部）在人工智能研发上花费了 15 亿美元，欧盟委员会花费了 10 亿欧元（11 亿美元）。全球行业花费超过 3400 亿美元。

Ahmed说，这种支出使得行业控制了三大最重要的投入：计算力、大数据集和人才。

公司拥有比学术机构更强大的计算能力，包括购买所需的图形处理单元（AI 中最常用的芯片），甚至可以设计和制造自己的芯片。这使得公司能够创建比学术机构更大、更复杂的模型。2021 年，行业 AI 模型平均比学术模型大 29 倍。

公司还可以访问更大的数据集来训练这些模型，因为它们的商业平台会在用户与它们交互时自然产生这些数据。德国亥姆霍兹慕尼黑的计算生物学家 Fabian Theis 说：“在训练用于自然语言处理的最先进的大型语言模型方面，学术界很难赶上。”

丰厚的薪水以及能够从事人工智能最前沿技术工作的承诺，使得公司能够从大学抢走大量顶尖人才，而在学术界计算机科学院系，招聘基本保持平稳。

“行业招聘远高于计算机科学研究教师的总体增长，”Ahmed 说。2004 年，北美大学只有 21% 的人工智能博士进入产业界工作，但到 2020 年，这一数字接近 70%。这种日益加剧的不平衡让学术界的一些人感到担忧。最大的担忧是，公司必然关注利润，这不仅影响他们寻求开发的人工智能产品类型，还会影响他们提出的研究问题。“如果对社会有重大影响的发展主要由短期商业利益驱动，我们就有麻烦了。”Hoos 说。

英国爱丁堡大学研究人工智能伦理的 Shannon Vallor 表示，学术界的人工智能研究需要为知识体系的发展做出贡献，而这种知识体系并非源自商业目的。“学术界是仅有的乐土，允许研究人员在没有明显盈利路线图的情况下继续工作。”她说。

Vallor 表示，学者可以对人工智能提出批判性和冷静的看法，作为独立信息来源判断哪些技术可行、哪些不可行，识别新技术的潜在危害，以及如何减轻危害。学者还可以帮助将人工智能研究与公众利益结合起来。Vallor 表示：“目前缺少人工智能应用，能专注于我们最需要解决的问题。”这些挑战包括气候变化、医疗保健需求以及因数字技术而加剧的社会和民主压力。

尽管研究人工智能的伦理和社会后果非常重要，但许多学者仍担心，由于行业内现有的激励机制，企业对负责任地使用人工智能的研究投入不足，未能吸取此类研究的经验教训。Ahmed 和其他同事的分析2证实了这一怀疑。与传统人工智能论文相比，领先的人工智能公司在负责任的人工智能研究方面的产出明显较低。他们进行的负责任的人工智能研究范围也较窄，涉及主题缺乏多样性。

Ahmed 表示：“大型人工智能公司在负责任的人工智能研究中极少有公共参与，这表明在人工智能开发中，速度优先于安全。”他们还发现负责任的人工智能研究与其实际实施之间存在脱节。Ahmed 说，“进入市场的人工智能产品受到负责任的人工智能研究结果的影响有限。”

Vallor 表示，过去企业在负责任的人工智能研究方面曾投入更多资金，但随着生成式人工智能的蓬勃发展，这种兴趣逐渐减弱，引发了一场利用市场的“向下竞争”。“关于负责任人工智能的知识已经存在，问题是大型人工智能公司没有动力去应用它。”她说。“但我们可以改变激励机制。”

企业投入

2023 年，美国企业的人工智能（AI）研究在《自然指数》期刊中的份额最高。但在企业 AI 产出最高的五个国家中，日本企业的产出占该国数据库中研究总量的比例最高。

她建议，负责任地开发和部署人工智能的公司可以担负较轻税收。“那些不想采用负责任的人工智能标准的公司应该支付费用，补偿那些受到危害和生计受到损害的公众。” Vallor说。

在等待新法规出台的同时，学术界在关注行业同行方面发挥着重要作用。需要开展学术研究，找出并解决人工智能系统固有偏见等问题，以帮助该领域朝着更负责任的方向发展。“需要有制衡，这不能仅靠监管来实现，还需要独立专家的审查。”Hoos 说。“至关重要的是，大学等公共资助机构里必须拥有与行业类似的专业知识。”

然而，要进行这种审查，学术界必须能够开放获取商业 AI 模型所依赖的技术和代码。“即使是最好的专家，也没法看一眼复杂的神经网络，就弄清楚它到底是如何工作的。”Hoos 说。“我们对这些系统的能力和局限性知之甚少，因此，我们必须尽可能多地了解它们的创建方式。” Theis 说，许多公司正在努力开放他们的 AI 模型，因为他们希望更多的人能够使用它们。“让人们接受工具培训是行业的核心利益。”他说。例如，Facebook 的母公司 Meta 一直在推动更多开放模型，因为它希望更好地与 OpenAI 和谷歌等公司竞争。科罗拉多大学博尔德分校的计算机科学家 Daniel Acua 说，让人们访问其模型将带来新的、富有创意的想法。但Hoos表示，期望公司泄露所有“秘密配方”是不现实的，这也是另一方面的原因，需要学术界保持技术和人才能力跟上行业发展。

互惠互利

并非所有人都过于担心行业主导人工智能开发的部分，一部分人希望学术界和企业能够找到平衡点。Theis 说：“必须明确的是，产业和学术界深度参与人工智能研究对双方都有好处。”

学者们可以自由地追求意想不到或高风险的研究方向，而公司则能从中受益这可能会带来新的突破，解决其产品面临的一些问题。“如果不采用完全不同的方法，当前人工智能工具的一些局限性可能无法克服。” Vallor说。而那些不太关心他们的想法是否能转化为成功产品的研究人员，更可能发现这些方法。

迅猛发展

自然指数期刊中人工智能（AI）研究的增长速度非常快，甚至允许数据库在 2022年扩展到健康科学领域。例如，从 2019 年到 2021 年，中国的人工智能份额增长了一倍多。美国和中国之间的差距也在迅速缩校

至于学者，尽管他们可以自由地从事好奇心驱动的项目，但他们也可以从行业获得知识和支持，帮助他们解决有趣而棘手的问题。“我和其他实验室的实习生去大型科技公司或制药公司学习行业经验是很常见的，”Theis 说。“两者之间实际上存在不断来回的交流和传播。”

Acua 和他的同事研究了行业和学术研究人员对人工智能的不同方法3。他们分析了 1995 年至 2020 年期间在各种人工智能会议上发表的论文，以了解研究团队的组成与其工作的新颖性的关系，及其对引用和模型创建方面的影响。

他们发现，完全由行业研究人员组成的团队的工作往往被引用率更高，并产生最先进的模型。相比之下，学术团队往往产生更新颖的工作，他们的论文更有可能包含非常规和非典型的想法。有趣的是，学术-行业合作往往与行业团队的结果相似，致力于解决能够大量被引用的困难工程问题，但失去了学术项目标志性的新颖性。

这种分工在许多其他科学领域都很常见，这就是为什么Acua说他比其他人更看好学术界人工智能研究的未来。即使学者们没有足够的资源或计算能力来构建最大的大型语言模型，他们也有能力做更新、更具突破性的工作。“放肆一点好了，”他说。“不要因为你身处学术界而轻视某个领域，你有自由去做任何你想做的事。”

与产业界同步

然而，为了最大限度地利用这种自由，学者们需要支持最重要的是资金支持。“要有更大力广泛地投资基础研究，这样的研究方不至于应者寥寥、昙花一现。”Theis 说。

尽管政府不太可能匹敌行业投入的巨额资金，但规模较孝更集中的投资可以产生巨大影响。“加拿大的人工智能战略并没有花费大量资金，但却非常有效，”Hoos 说。自 2016 年以来，该国已在人工智能计划上投资了约 20 亿加元（14.6 亿美元），并于 2024 年宣布计划在未来几年内再投入 24 亿加元。其中大部分资金专门用于为大学研究人员提供人工智能应用所需的计算能力，支持负责任的人工智能研究，以及招募和留住顶尖人才。这一战略帮助加拿大在学术研究和商业开发方面取得了超乎寻常的成就，并在全球排名榜上保持领先地位。2023 年，加拿大在人工智能研究自然指数产出排名中位居世界第 7 位，在自然科学领域总体排名第 9 位。

人工智能领域十大新兴机构

德国亥姆霍兹研究中心联合会，是自然指数中人工智能研究产出增幅最大的机构之一，该联合会设立了一个专门部门，为在工作中使用人工智能的研究人员提供专业知识和资金。

加拿大卓越研究主席计划等招聘计划为各个领域的顶尖研究人员提供为期八年、高达 800 万加元的资助，以吸引他们移居或留在加拿大；德国的亚历山大冯洪堡人工智能教授职位为期五年，提供 500 万欧元，这两项计划都有助于巩固这些国家的人工智能研究。Hoos本人就拥有一个洪堡教授职位。

欧洲还推出了多项旨在促进人工智能学术研究的计划。Theis是亥姆霍兹人工智能计划的科学总监。该计划由德国亥姆霍兹研究中心亥姆霍兹联合会运营，为研究实验室提供资金、计算访问和咨询，帮助他们将人工智能工具应用于工作，例如寻找新方法利用他们在药物发现和气候建模等领域产生的大型数据集。Theis说：“我们希望通过民主化访问人工智能，为研究人员提供支持。真正加速这些研究实验室的发展。”

欧洲人工智能研究实验室联盟 CLAIRE 提出了一项更加雄心勃勃的计划，该联盟由 Hoos 于 2018 年与他人共同创立。该计划的灵感来自物理科学中跨机构甚至跨国家共享大型昂贵设施的方法。“我们的粒子物理学家朋友找对了路。”Hoos 说。“他们用公共资金建造了大型机器。”

Hoos 和他在 CLAIRE 的同事提出了一项“登月计划”，旨在建立一个设施，为学术科学家提供必要的计算基础设施，使他们在人工智能研究方面跟上产业界的步伐有点像人工智能领域的 CERN（位于瑞士日内瓦附近的粒子物理实验室）。他们估计，该项目将在六年内需要欧盟提供约 1000 亿欧元的资金，Hoos 说，与最初的登月计划美国宇航局的阿波罗太空计划（以今天的货币计算，耗资约 2400 亿欧元）以及 CERN 本身的成本相比，这个数额相当合理。他说，这样的设施将用于“公开”进行人工智能研究，而不是在私人公司实验室进行，从而使研究对公众完全透明。他说，就像阿波罗计划和 CERN 一样，它将给社会和工业带来巨大利益。

Vallor 表示，无论采取何种方法，让公共资助的独立学术研究人员站在人工智能进步的最前沿对于该技术的安全发展至关重要。“如果人工智能被滥用、如果没有正确的监管治理、如果没有以负责任的方式开发，它有可能非常危险。”她说。“我们理应担忧任何以商业激励作为唯一‘舵手’的人工智能生态系统。”

Brian Owens是加拿大新不伦瑞克省的自由撰稿人。

1. Ahmed, N., Wahed, M. & Thompson, N. C. Science 379, 884886 (2023).

原文以Rage against machine learning driven by profit为标题发布在2024年9月18日出版的《自然》增刊“自然指数-人工智能”上。

nature