北电数智首席科学家窦德景:以数据可信定义AI终局

图灵汇官网

数据与AI:塑造未来的关键力量与挑战

引言

自2022年底ChatGPT的横空出世,人工智能(AI)领域迎来了前所未有的革新与突破,科技巨头与研究机构纷纷投身于大模型竞赛,视频、音乐、语言等多模态大模型不断迭代,AI应用百花齐放,AI步入了大模型时代。这一趋势预示着AI正成为国家间科技竞争的新焦点,数据作为核心燃料,推动着AI加速前行。

大模型与AI的挑战

尽管AI展现出令人瞩目的潜力,但在实际应用中,大模型面临着诸多挑战。其中,数据的质量与数量成为限制其“上限”的重要因素。在国内,虽然数据规模庞大,但开源数据集数量远逊于海外,且优质中文数据集稀缺,大量数据被困于特定领域或系统内部,难以发挥其价值。此外,非结构化数据的处理也成为AI发展的瓶颈,限制了其对生产力的提升作用。

数据可信:重塑AI生态的关键

面对上述挑战,数据可信成为了推动AI产业发展的关键驱动力。北电数智首席科学家窦德景教授在2024年全球数字经济大会上强调,构建一个安全、可信的数据空间对于AI产业至关重要。数据可信不仅关乎数据的质量与流通,更是实现数据价值最大化、促进AI技术进步的核心环节。

数据难题与挑战

实现数据可信并非易事,当前面临的主要挑战包括:

  • 信息不对称:供需双方缺乏明确的数据种类与质量信息,导致数据匹配与利用困难。
  • 隐私与合规:企业对数据所有权与合规性的担忧,使得数据流通变得谨慎。
  • 数据治理与共享:企业在数据治理与开放共享方面存在能力与机制上的不足。
  • 分析工具与应用:缺乏有效的数据分析工具与应用解决方案,阻碍数据流通与价值挖掘。

构建可信数据生态

要解决上述问题,构建数据可信的生态系统至关重要。通过加强数据流通、共享与开放,可以促进产业的发展与繁荣。借鉴欧洲开放云(EOSC)的成功经验,建立包含广泛资源的数据空间,为科研人员提供跨国界、跨学科的研究支持,是推动数据可信、开放生态的有效途径。

AI可信数据空间

北电数智致力于构建全栈信创的数据流通基础设施与安全设施,如“红湖·AI可信数据空间”,旨在提供高质量数据服务,推动大模型在各行业的落地应用。通过安全可信的数据流通设施,企业能够构建整体解决方案,快速构建数据可信生态系统,为AI产业提供重要支撑。

重塑AI格局

数据可信在多个维度上重塑AI生态,包括:

  • 提升AI模型质量:提供高质量训练数据,增强模型的准确性和泛化能力。
  • 促进产业化应用:为AI在政务、金融、医疗等领域提供坚实基础。
  • 推动伦理与治理:构建更加公平、透明的AI生态系统,促进AI伦理的发展。
  • 增强安全性:降低AI系统的安全风险,保护数据不被泄露或滥用。
  • 定义AI产业模式:推动AI从碎片化向大模型、通用智能方向发展,重塑产业标准。

展望未来,数据可信将在AI安全、公平、伦理、应用与生态构建等多个层面发挥关键作用,推动人工智能产业的持续发展与创新。北电数智将持续深化其AI全栈能力,以可信数据沙盒、隐私计算、区块链等技术为核心,构建一体化可信解决方案,助力AI技术的广泛应用与生态繁荣。

本文来源: 图灵汇 文章作者: 金正辉