随着科技的飞速进步,人工智能(AI)正从理论走向应用,成为驱动经济发展、革新行业格局的关键力量。自2022年底ChatGPT的横空出世,全球科技巨头与研究机构竞相投入大模型竞赛,视频、音乐、语言等多模态大模型持续迭代升级,AI应用百花齐放,AI进入了以大模型为核心的新时代。
作为新时代的基础设施,大模型已经成为国家间科技和经济竞争的核心战场。大模型参数规模从百亿级跃升至千亿级乃至万亿级,数据成为驱动AI发展的核心燃料,推动技术加速前进。然而,大模型在实际应用中面临诸多挑战,包括高质量数据的获取与利用。
面对大模型训练与应用的挑战,数据的质量与规模成为衡量AI潜力的关键指标。数据可信性成为推动AI技术发展的重要驱动力。在这一背景下,北电数智首席科学家窦德景教授在2024年全球数字经济大会“互联网3.0高层论坛”上发表了《以数据可信定义AI终局》的主题演讲,深入探讨了数据可信对于AI产业发展的深远影响。
人工智能历经近90年的探索,从机器学习、深度学习阶段步入生成式AI时代,大模型与生成式AI展现出惊人的创造力,能在短时间内生成原创文本、图像、音频等内容。随着GPT系列模型参数的爆炸性增长,大模型的规模法则已被广泛接受,数据量与参数量的持续增长推动着专业垂直领域的优化。
尽管中国数据量规模在全球名列前茅,但数据质量与数据流通的挑战不容忽视。优质中文数据集稀缺,大量数据分散于产业内部,非结构化数据限制了算法效能,数据隐私与合规风险成为企业数据流通的障碍。
要解决数据问题,构建一个可信的数据生态系统至关重要。这包括改善数据的可获取性、增加数据流通的透明度、提升数据治理能力以及开发适合的数据分析工具。借鉴EOSC科研项目的成功经验,通过建立开放的数据空间,促进跨学科、跨国界的资源共享与分析,将极大促进产业发展与创新。
北电数智致力于打造安全可信的数据流通设施与数据安全设施,通过技术创新实现数据完全自主可控。公司全栈信创的数据流通基础设施与数据安全设施“红湖·AI可信数据空间”,旨在为AI浪潮下的数据共享与流通提供安全可靠的环境,推动高质量数据服务的提供,助力大模型在各行业落地应用。
数据可信将在多个维度上重塑AI的发展格局,提升AI模型的可靠性和产业应用,推动伦理和治理的完善,增强系统安全性,并重新定义AI的技术路线和产业模式。未来,数据可信将成为AI产业发展的基石,促进技术的普惠应用与生态的繁荣。
展望未来,随着数据可信体系的不断完善,AI将更加安全、高效地服务于社会与经济的各个领域,推动技术革新与产业升级,构建更加智能、可持续的数字世界。北电数智将继续深化AI全栈能力,通过可信数据沙盒、隐私计算、区块链等先进技术,提供一体化的可信解决方案,加速AI技术的创新与普及。