2019年1月21日,《麻省理工科技评论》发布了2018年“35岁以下创新35人”(Innovators Under 35 China)中国区榜单。榜单展示了中国创新科研力量的崛起,涵盖了多个领域,如人工智能、自然语言处理(NLP)、脑科学、新材料、新能源、生命科学、生物科技以及自动驾驶等。此次榜单旨在表彰那些具有创新精神、跨学科研究能力,并致力于实际应用的年轻科研人员。未来将陆续发布对这35位获奖者的专访,介绍他们的科技创新成果和经验,以及他们对科技趋势的理解。
自1999年起,《麻省理工科技评论》每年都会推出“35岁以下创新35人”(Innovators Under 35 China)榜单,旨在评选出全球范围内最有才华、最具创新精神,以及最有可能改变世界的35位年轻技术创新者或企业家。这些人才被分为五类:发明家、创业家、远见者、人文关怀者和先锋者。2017年,该榜单推出了中国区评选,专门选拔中国籍的青年科技创新者。新一届的评选正在进行中,截止日期为2019年5月31日。详细信息请见文末。
近年来,科大讯飞凭借讯飞输入法和讯飞听见等产品逐渐获得了广泛认可。这些产品的成功离不开其背后的中文语音识别系统。刘聪,作为科大讯飞AI研究院常务副院长,是这一技术的重要推动者之一。他曾带领团队在2016年和2018年连续获得国际英文多通道语音分离和识别大赛(CHiME-4、CHiME-5)的所有项目冠军。
刘聪于2001年进入中国科学技术大学,攻读电子信息工程专业。大三时,他偶然了解到讯飞语音实验室,并成功加入了该实验室,开始了在语音识别领域的研究。2010年,他博士毕业后正式加入讯飞研究院,专注于大词汇量连续语音识别系统的开发和优化。2010年发布的“讯飞语音云”正是他和团队多年努力的结晶,识别效果达到了当时的行业领先水平。
在加入讯飞语音实验室之初,深度学习技术正崭露头角,而语音识别技术仍处于初级阶段,主要采用基于隐马尔可夫模型(HMM)的区分性训练等传统方法。尽管如此,刘聪仍然看到了许多未被发掘的研究方向,并多次前往微软亚洲研究院和加拿大约克大学进行短期访问,以进一步研究和优化语音识别技术的算法。
随着深度学习技术的兴起,刘聪也将研究重心转向了这一领域。从深度神经网络(DNN)到循环神经网络(RNN),再到卷积神经网络(CNN),他和团队不断更新和完善语音识别系统的框架和模型。2015年,经过解决训练收敛算法等技术难题,他和团队提出了一种基于深度全序列卷积神经网络(DFCNN)的创新性语音识别框架。这种框架能够对整句语音进行建模,而不是仅限于局部的语音帧,同时通过共享卷积计算过程,使得模型结构可以更加深和宽,从而捕捉到更长的历史和未来的语音上下文信息。由于DFCNN模型相较于传统的RNN等模型能够同时捕捉时域和频域的结构信息,因此在建模精度上更为出色。
借助大数据和新技术的支持,讯飞语音识别系统实现了高速自动迭代,语音识别错误率每年下降约30%,目前在一般场景下的识别准确率可达98%。在此基础上,刘聪带领团队开发了多种中文方言识别和语音实时修正等功能,使科技更好地服务于日常生活。
然而,刘聪并未满足于此。他注意到了深度学习在计算机视觉领域的另一应用方向,并敏锐地意识到这两者之间的联系。成为科大讯飞AI研究院副院长后,他从语音识别转向计算机视觉,开始负责医学影像、视频分析和图文识别等技术的研发和应用。
“得益于深度学习的发展,这两个领域之间架起了一座桥梁。”刘聪在接受采访时解释道。凭借此前的技术积累,他迅速完成了从语音识别到计算机视觉的算法框架迁移和借鉴。尽管这看似简单,但实际操作过程中仍需克服诸多技术难关。
例如,刘聪发现光学字符识别(OCR)与语音识别一样,都属于序列识别的范畴,因此语音识别中的相关模型可以应用于OCR领域。同时,OCR又是计算机视觉的一个重要问题,近年来计算机视觉领域在特征表示学习方面取得了显著进展。他和团队结合最新的特征表示学习和序列建模技术,大幅提升了OCR的识别性能。
除了技术上的突破,刘聪还带领团队完成了多项技术的实际应用,涉及语音识别、视频监控、图文识别和医学影像等多个领域。在他们的努力下,科大讯飞的医学影像辅助诊断系统已在50多家医院投入使用,帮助医生提供辅助诊疗服务;讯飞听见也在多场会议中得到了应用,实现了语音和文字的即时转换。
展望未来,刘聪表示,他和团队将继续提升语音识别的准确性,特别是在远场识别和噪声环境下的识别能力,并在中英文混合识别和个性化识别方面进行优化和创新。同时,他们还将致力于跨模态信息深度融合方向的研究,探索基于多模态信息的情感分析。
“与优秀的团队一起把握住技术发展的下一个趋势,这是我们共同的愿望。”刘聪说道,“我们很幸运能够成长在一个核心技术突破和产业应用爆发的时代,也希望借此机会为社会做出更多贡献。”
正是由于像刘聪这样的技术实践者,我们才能见证越来越多的技术改变我们的生活。