计算机视觉(CV)是人工智能领域的一个重要分支,吸引了众多投资者的关注,催生了诸如商汤、云从、依图和旷视等知名企业。其中,依图科技不仅在计算机视觉领域取得了显著成就,还率先拓展到了语音和自然语言处理(NLP)领域。
12月11日,依图科技发布了依图短语音听写API,并与微软Azure合作推出了依图语音开放平台。同时,依图科技还与华为合作,发布了“智能语音联合解决方案”。
早在2016年,计算机视觉公司开始吸引投资人的关注时,语音识别已经开始大规模应用于各种场景。如今,包括百度、腾讯、京东、小米在内的多家公司纷纷推出智能音箱,各种手机也逐渐加入了语音交互功能,各类智能翻译工具和智能客服等语音产品层出不穷。
那么,依图语音技术的比较优势和市场前景在哪里?未来的产品化落地又将如何规划?围绕这些问题,36氪独家采访了依图科技首席创新官、前Google Research Scientist吕昊博士。
依图科技首席创新官吕昊博士指出,尽管此时进入语音行业面临着诸多挑战,如先发优势减弱和市场竞争激烈,但依图团队调研发现,现有语音识别技术在很多场景下仍有很大的改进空间。比如,通话过程中的语音转写准确率较低,远距离声音采集效果不佳,以及语料数据积累不足等问题。因此,依图将致力于优化这些环节,提升识别率,降低字错率。
在语音识别领域,15%的字错率是一个关键门槛,超过该数值则难以保证识别的可读性,而低于3%的字错率则被视为具备人类级别的语音识别能力。不过,在实际应用中,人的语速、语气、口音等因素都会影响识别的准确性。特别是中文的复杂语言结构和同音异义词问题,使语音识别更具挑战。依图如何应对这些挑战?
吕昊告诉36氪,目前行业内缺乏系统的标准测试和测试集,使得语音识别的评估变得困难。为了提升识别准确率,依图团队收集了大量真实的对话数据以及专业和生活类的细分语料库,建立了多维度、多场景的测试数据集,用以训练和测试模型算法。
据了解,在基于全球最大中文开源数据库AISHELL-2的测试中,依图短语音听写的字错率为3.71%,领先科大讯飞约20%。在多个近场、混响、噪声等公开测试集中,依图的平均字错率为6.39%,领先科大讯飞11%。即使加入电话录音、口音、语音节目、远场演讲等内部暂未公开的数据集(总时长50小时,包含60万汉字),依图的平均字错率为8.27%,依然领先科大讯飞11%左右。
事实上,要实现真正的语音交互,语音识别只是其中的一部分,更重要的是语义理解。如果把语音技术比作人的嘴巴和耳朵,那么语义理解就是人的大脑,能够处理和解析信息。依图在语义理解方面也进行了相应的技术积累。
吕昊表示,虽然这次是以语音技术为切入点,但团队一直同时在语音和语义两个方向上进行研发。早在2017年,依图就将自然语言处理技术应用于AI+医疗解决方案,结合自建的临床中文知识图谱,对医学文本等多模态数据进行分析和信息提取。今年,依图的论文还入选了NLP顶级会议EMNLP 2018,针对计算机语言学的核心问题之一——指代理解提出了全新的数据集PreCo,并对外发布。
此前,依图在安防、医疗、金融、零售等多个领域积累了丰富的视觉产品化和商业化经验。关于是否将语音技术应用于这些领域,吕昊回应说,现阶段仍以技术积累为主,依图在开放平台上提供了自有API和模型算法,旨在通过市场验证算法的质量,同时接触不同的行业和应用场景。
据官方信息,依图与微软合作推出的语音开放平台基于Azure Cloud,将依图的语音识别技术能力开放给第三方应用开发者。依图和华为联合发布的“智能语音联合解决方案”则依托于依图语音开放平台及华为全栈全场景Ascend系列芯片和面向数据中心的Atlas 300AI加速卡,形成了软硬件一体化解决方案。
未来,依图计划逐步开放长语音转写API和实时语音转写API等功能。正如吕昊所说,希望能为第三方应用开发者提供更多语音技术的选择。
笔者认为,结合自身在计算机视觉领域的技术积累,依图有可能在多模态情感识别和计算领域取得突破,通过整合视觉和语音等多种数据,全面提升机器的感知能力。在商业化方面,尽管当前依图语音技术开放平台仍以技术积累为主,但凭借在计算机视觉领域积累的大量B端客户资源,为这些企业提供语音解决方案只是时间问题。