独家对话杨传辉:AI时代来临,数据库龙头OceanBase如何自我变革?|钛媒体AGI

图灵汇官网

导读: OceanBase首席技术官(CTO)杨传辉指出,2025年开源AI模型DeepSeek与OpenAI发布的GPT-4.5在全球范围内掀起了新一轮生成式AI热潮。作为AI技术发展的三大支柱之一——数据,已成为推动AI技术进步的核心驱动力,同时也是数字时代的重要生产要素。

根据IDC统计,2024年全球大数据IT投资总额约为3540亿美元。预计到2028年,这一数字将接近6440亿美元,年均复合增长率(CAGR)约为16.8%。其中,中国预计将在2028年贡献621.7亿美元的大数据IT支出,占全球比重约10%,并以24.9%的复合增长率领跑全球。目前,中国已占据全球数据总量的23%。

OceanBase CTO杨传辉在接受钛媒体AGI采访时提到,随着AI时代的到来,数据处理范围进一步拓宽,包括多模态大模型所需的图片、文本、视频等非结构化数据规模显著增加。与此同时,数据扩展性、规模扩大以及碎片化等问题日益突出,OceanBase正致力于构建一体化的数据处理平台,以应对行业挑战并满足客户需求。

OceanBase成立于2010年,是中国领先的分布式数据库企业。2020年起,蚂蚁集团旗下OceanBase成立北京奥星贝斯科技有限公司,开始商业化运营,并陆续推出自研的OceanBase4.0、4.2、4.3版本等一系列技术和解决方案。截至目前,OceanBase已成功协助金融、政府、通信、零售及互联网等多个领域的超过2000家客户完成关键业务系统的升级。

2025年4月,OceanBase CEO杨冰发布内部信函,宣布公司将全面迈入AI时代,构建“DATA×AI”核心竞争力,打造适用于AI时代的统一数据基础架构。此外,蚂蚁集团计划向OceanBase开放所有AI应用场景。为了确保战略顺利实施,OceanBase启动了组织架构调整,任命杨传辉为AI战略负责人,并成立了AI平台与应用部、AI引擎组等全新部门。

5月17日,OceanBase将召开2025年度开发者大会,会议主题同样聚焦于AI。在大会前夕,钛媒体AGI与杨传辉进行了独家对话,这也是他被任命为AI战略领导者后的首次公开访谈。

杨传辉告诉钛媒体AGI,OceanBase提出“AI时代的一体化数据底座”战略,实际上是现有业务方向的自然延续,源于市场需求和技术积累。AI时代背景下,数据类型和规模日趋复杂,数据库与AI的关系并非简单的叠加,而是深度整合,即“DATA×AI”。这需要具备处理海量数据及不同类型数据的能力,并将数据与模型有效结合。作为分布式数据库平台,OceanBase将在AI时代找到更广阔的应用空间。

不过,杨传辉也承认,实现这一目标面临诸多挑战,包括技术创新和生态系统建设等方面,因此OceanBase必须保持战略定力,依靠时间和耐心推动长期发展。

“我们相信,AI时代的一体化数据底座必将满足用户需求。”杨传辉说道。

以下是钛媒体AGI与杨传辉交流的部分内容摘录:


钛媒体AGI:近期多家公司纷纷加码AI战略,OceanBase也提出了向“AI时代的一体化数据底座”转型的目标。外界应如何看待OceanBase此次的战略转变?

杨传辉: 首先要明确一点,OceanBase提出AI战略并非单纯因为当前的AI热潮。从根本上讲,这是我们现有战略的延伸。

传统数据库主要处理结构化数据和少量半结构化数据。随着信息技术的发展,特别是在AI时代,数据处理边界得以拓展,需要直接在数据层面处理非结构化数据,如多模态大模型中的图片、文本、视频等多媒体内容。同时,AI大模型促使数据规模大幅增长。

OceanBase是一款原生分布式数据库,曾经经历过双十一期间海量数据的考验,同时也具备金融场景所需的稳定性和安全性。此外,我们的产品原生支持多种数据格式,提供向量计算功能,这种分布式和一体化的优势,在AI时代将得到更充分展现。

因此,我们的战略从单纯的“数据库”,逐步扩展到“数据底座”,旨在全方位、一体化地处理结构化、半结构化乃至非结构化数据。数据库开发团队天生具备AI基础设施的工程能力,我们期望实现数据与模型的深度融合,这就是“DATA×AI”的核心所在。

放眼全球,知名的数据库厂商如甲骨文Oracle、Snowflake、Databricks等,都在根据业务场景的变化调整自身定位。在AI时代,我们也需确保OceanBase能够紧跟趋势,抓住新兴机遇。可以预见,事务处理(TP)、分析处理(AP)负载、向量计算、搜索引擎等技术界限将逐渐模糊,最终企业需要一款AI时代下的统一数据底座,这将使OceanBase成为最佳选择。


钛媒体AGI:在2024年的数字价值年会上,OceanBase CEO杨冰提到AI对数据库的影响体现在两个方面:AI for DB 和DB for AI。那么,OceanBase提出的“DATA×AI”又是一种怎样的新突破?

杨传辉: 我们深入探讨了数据库与AI之间的关系,认为二者不应简单视为“DATA+AI”,而应是更深层次的融合,即“DATA×AI”。

一方面,客户的数据通常存储在OceanBase这样的数据库中,而AI大模型本身就包含公共的通用数据,如token。这两者之间应当产生更为紧密的协同效应。另一方面,大模型的技术构成主要包括算法能力、工程能力、数据能力和应用能力。在工程能力方面,数据库研发团队与AI工程师的工作本质相同,都是围绕如何更高效地处理数据展开,除了数据能力外,数据库团队还具备解决计算、资源、效率等问题的工程能力,这有助于加速DATA与AI技术的融合,也就是实现“DATA×AI”。我将在开发者大会上详细阐述这一点。


钛媒体AGI:目前生成式AI技术面临数据量激增、数据孤岛现象严重以及分析需求暴增等挑战,OceanBase针对这些变化采取了哪些措施?

杨传辉: AI的确给数据处理带来了一些挑战,比如您提到的数据规模扩大、数据孤岛问题以及多模态数据处理难度加大,尤其是数据量的快速增长对数据库提出了更高要求。

OceanBase凭借其分布式特性和一体化架构,已经在一定程度上解决了这些问题,但仍有一些不足之处,所以我们持续优化扩展性和工程能力。

例如,我们在4.3版和4.4版中继续沿着一体化方向迈进。AI时代的到来促使我们更加大胆地创新,比如改进非结构化数据的处理能力,进一步增强向量计算等功能。


钛媒体AGI:今年的OceanBase开发者大会主题同样是AI,预计将有哪些亮点?

杨传辉: 首先,我们将推出与AI相关的数据库产品和功能,特别是在向量数据库等一体化数据底座的数据处理能力方面实现了显著提升,无论是性能还是性价比,都达到了行业领先水平。

其次,我们会发布RAG(检索增强生成)服务,利用我们在AI领域的深厚积累,帮助企业通过一体化方式整合自有数据与公开数据模型,从而创造更大的商业价值。

最后,我们还会展示OceanBase自身应用大模型所取得的成果。


钛媒体AGI:如今专注于基础模型开发的企业越来越少,许多模型公司转向推理模型或垂直领域模型的研发,且数据参数规模有所下降。那么,客户的实际数据处理需求是否会持续存在?

杨传辉: 这可能涉及两个层面的问题。

第一,关于预训练模型的发展,门槛确实越来越高,就像考试成绩达到90分后再提升难度更大,需要更多数据和工程经验的支持。不过,仍有许多企业愿意加大对预训练模型的投资力度。我认为,未来会有少数几家公司持续提升能力,尤其是在强化学习领域还有很大的潜力可挖。

第二,预训练模型的需求与实际数据处理需求是两个独立的问题。对于OceanBase这样的一体化数据底座而言,数据量只会不断增加。因为一体化数据底座的数据量并不等同于预训练模型的数据集,后者可能只是抽取token,而前者则取决于AI应用的实际规模。随着AI应用需求的爆发式增长,以及对数据种类、结构需求的不断提高,AI对数据的需求只会越来越大。


钛媒体AGI:随着企业在使用大模型时越来越多地依赖自有数据,模型的“幻觉”问题未来会彻底消失吗?“幻觉”是否会影响AI的实际应用效果?

杨传辉: 模型的“幻觉”无法完全消除,但可以通过技术手段大幅减少。

有时我们需要换个角度看待这个问题。AI大模型的基本原理是预测下一个token,这就需要极高的算力支持,从众多候选词语中做出选择。同时,AI模型的调优过程更像是“炼丹”,并非确定性问题,而是概率性问题。因此,我们需要从两个维度审视“幻觉”现象。

首先,随着AI推理训练、强化学习等技术的进步,“幻觉”现象会逐渐减少,语料库的质量也会不断提高,这属于技术上的红利期。

其次,即便存在“幻觉”,当前的AI技术水平已经在众多场景中得到了广泛应用。未来还将涌现出更多新产品。在未来五年内,如果AI的“幻觉”程度降低,同时其他技术能力得到充分发挥,那么在各种应用场景中使用AI将展现出巨大的潜力。


钛媒体AGI:要构建面向AI时代的一体化数据底座,OceanBase还需要克服哪些障碍?未来的长远目标和发展前景如何?

杨传辉: 挑战还是相当大的。

首先是技术层面的挑战。我们对未来的发展方向十分清晰,OceanBase的优势也很明显,但如何真正实现“DATA×AI”的深度融合,降低“幻觉”发生率并减少成本,让数据更好地融入AI,这些都是世界级的技术难题,大家都在积极探索。

其次是生态系统的挑战。无论是数据底座还是数据库,归根结底都要转化为千百万家企业都能使用的实用工具,这需要时间、策略和坚持不懈的努力。具体而言,策略包括两部分:一是将数据库产品升级为AI时代的一体化数据底座,适应新需求,加快产品迭代速度;二是更加开放,提升研发团队的外部协作能力。

从数据库生态角度来看,OceanBase的开源社区在国内已是顶尖水平,但在国际舞台上仍有差距。如何让生态真正走向全球化,是我们需要解决的重要课题。

至于终极目标,我认为OceanBase无论是在数据库领域还是数据底座领域,始终专注于数据处理,这是我们不变的核心使命。随着数据类型的多样化和规模的不断扩大,OceanBase希望通过自身的努力,帮助用户高效处理数据,成为全球数据处理领域的首选方案。

许多人认为OceanBase是一家强大的分布式关系型数据库公司,但我们更关注的是AI时代的统一数据底座建设。因此,我们不会局限于“关系型数据库”的框架内,而是以开放的态度迎接新的业务场景和数据需求。

我们坚信,AI时代的一体化数据底座一定能满足用户的期待。

本文来源: 互联网 文章作者: 周艳丽
    下一篇

导读:5.12知识分子The Intellectual编者按从12岁考入科大的少年班,到最年轻的电子工程师协会会士(IEEE Fellow),再到微软亚洲研究院的院长,张亚勤几乎经历了从上世纪80年代