率先挖掘AI时代的“金矿”,上海如何以语料为支点撬动AI产业

图灵汇官网

导读:

语料数据是指为了语言分析和模型训练等目的系统化收集的真实文本或语音材料的集合,是自然语言处理(NLP)的核心资源,相当于AI学习语言的“教材”。在AI时代,语料是人工智能发展的关键基础之一,甚至被誉为AI产业的“金矿”,是决定模型能力上限的重要因素。随着国产开源推理大模型DeepSeek的流行,其背后的思维链技术再次提高了对高质量语料数据的需求。

上海战略布局推动语料体系建设

上海作为中国人工智能发展的前沿阵地,AI相关产业正迎来蓬勃发展的机遇,而语料正是其中最为关键的一部分。语料体系建设已被纳入人工智能发展的核心框架。2024年底发布的《关于人工智能“模塑申城”的实施方案》明确指出,到2025年底,上海将建成世界级人工智能产业生态,力争全市智能算力规模突破100EFLOPS(每秒百亿亿次浮点运算次数),形成50个左右具有显著成效的行业开放语料库示范应用成果。该方案还提出,要建立一批通用和专用语料库,打造多层次语料体系,支撑基础大模型研发和垂直应用。此外,还要推动成立算力和语料基金,探索算力和语料作价入股等模式,加强创新型企业培育。

语料成为全球开发者大会关注焦点

在近期举行的2025全球开发者先锋大会上,语料成为一个备受瞩目的议题。2月22日,“语料筑基 智生时代”主题论坛在上海徐汇举行,会议聚焦大模型语料前沿主题,汇聚产学研用顶尖智慧,共同探讨语料数据发展的无限机遇与潜力,共建上海大模型语料繁荣生态,为人工智能大模型创新发展和应用注入新动能。

实践先行,发力语料基建建设和生态协同

研究表明,互联网上的高质量语言数据资源可能在2027年消耗殆尽。与开采金矿一样,高质量的语料数据也需要解决获取、治理、安全、应用等方面的挑战,因此语料基础设施的建设和生态环境的形成至关重要。上海为此已采取一系列措施来加强语料库的建设和应用,推动世界级人工智能产业生态的形成。在本届全球开发者先锋大会上,上海市经信委主任张英表示:“上海将开发者捧为主角,为这一群体倾力提供资源、政策与氛围,努力培育繁荣的开发者生态。”

上海库帕思科技有限公司的贡献

2024年3月,首家由政府主导成立的人工智能语料公司——上海库帕思科技有限公司正式成立。该公司定位于专业化的功能性语料服务运营平台,致力于提供低成本、高质量的语料数据服务。截至去年,库帕思已构建了“1+X”语料基座,语料服务规模达260T,链接合作伙伴超100家,签署战略合作协议57家,发布了9个语料团体标准,并完成了7个标准草案。目前,库帕思已全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设。同时,为了形成高质量的多模态语料库,库帕思正在建设大模型语料超级工厂,以每天最高1000GB的速度进行语料加工,计划到今年年底将语料库的总容量提升至2PB。

生态协同,推动高质量语料数据建设

徐汇区作为国家级人工智能产业集聚区,在全市率先发展人工智能大模型产业,市区联手推出了全国首个大模型创新生态社区“模速空间”,打造了算力调度、开放数据、金融服务等五大功能平台,为企业提供“保姆式”“专班式”服务。徐汇区将持续做好要素保障,持续吸引全球顶尖人才,持续优化大模型和语料服务产业生态,把模速空间打造为“全球最大的人工智能孵化器”。

语料普惠计划之语料数据智能创意大赛

在本届论坛上,市经济和信息化委副主任张宏韬、上海信投党委书记、副总裁黄卫军、人民网上海分公司总经理金煜纯、上海人工智能协会秘书长钟俊浩共同发布了模塑申城语料普惠计划之语料数据智能创意大赛(简称CICC)。依托《模速申城语料普惠计划》,CICC大赛面向全社会寻找“好语料、好技术、好场景”,为上海“模塑申城”工程筑牢语料基石,打通高质量语料数据采集、标注、共享、应用全链路。随后,大会隆重发布2025语料风云榜招募令。为汇聚行业顶尖智慧、构建开放合作生态,在2024年世界人工智能大会上,库帕思发起了首届语料风云榜,一批优秀企业、产品脱颖而出。2025语料风云榜将延续“好企业、好产品、好规则”的基本框架,在未来4个月完成征集与遴选,并在2025年世界人工智能大会上正式对外发布“2025中国语料生产商风云榜TOP10”、“2025中国语料服务商风云榜TOP10”。

语料工作委员会的成立

为进一步促进高质量语料数据建设,在市经济和信息化委的指导下,库帕思以普惠、链接、创新的态度,携手首批103家企业、科研机构和专家学者,联合发起成立语料工作委员会。语料工作委员会将围绕高质量语料建设,通过优化语料平台与各垂类应用领域链接机制,促进语料方、模型方、应用场景方三方合作模式跑通落地,从而构建高质量、具备应用价值的语料生态。

上海的未来展望

在可预见的未来,上海不仅将成为“魔都”,更将是AI产业的“模都”,致力于占据全球人工智能产业的发展高地。如今,上海正以语料为支点,撬动人工智能产业的全球竞争力,为全球行业发展提供新基建、新生态和新路线,这座“最懂开发者的城市”,正在书写人工智能时代的“掘金传奇”。

本文来源: 互联网 文章作者: 亿欧
    下一篇

导读:IT之家 2 月 23 日消息,据 Axios报道,美国国家标准与技术研究院(NIST)可能将裁减多达 500 名员工,其中美国人工智能安全研究所(AISI)和“美国芯片计划”(Chips fo