自然语言对话系统的研究与发展自人工智能诞生之初便已开始。从经典的ELIZA到现代的Alexa,对话系统伴随语言与语音技术的进步不断演进(参见表1)。如今,自然语言对话技术已成为人机交互的重要手段,广泛应用于手机、电视、车载语音助手、智能音箱、自动客服和聊天机器人等多种场景。随着技术的进步,这一技术的应用范围将进一步扩大。
自然语言对话系统分为语音对话系统和文字对话系统,既服务于消费者(C端)也服务于企业(B端)。C端语音对话系统主要包括手机、电视、车载的语音助手和智能音箱等。
据市场调查,约33%的用户每天使用语音对话系统,42%的用户每周使用3至4次,16%的用户每周使用一次。手机、车载、电视、智能音箱的语音对话系统日使用率分别约为5%、45%、30%和25%。智能音箱的生活类技能主要包括闹钟、天气查询、计算器、日历查询等,其中80%的智能音箱具备闹钟和天气查询功能,50%具备计算器和日历查询功能(见图1)。
可以看出,用户对语音对话系统的使用频率较高,一旦开始使用,大多会持续使用。语音对话系统主要应用于车载和家居场景,因为这些场景更适合使用语音交互。尽管语音对话系统已经解决了部分问题,但距离成为真正的智能助理仍有较大差距。
从技术角度看,单轮对话和简单的多轮对话技术,特别是命令型和问答型对话技术,已经较为实用,但仍有许多具体问题需要解决。2012年以来,深度学习技术推动了语音技术的巨大进步,然而自然语言处理仍然是人工智能领域最具挑战性的部分,主要困难在于语言的表示与理解和任务的表示与完成。
爱迪生曾强调,产品技术创新应以创造更高的用户价值为目的。对于自然语言对话技术而言,这一点尤为重要。除了功能要素,情感和文化要素同样重要。我们需要将技术和设计相结合,构建便于用户使用的对话系统(如图2所示)。
技术所能达到的产品性能(技术上界)若不能超过用户使用时对产品性能的要求(使用下界),则该产品很难被用户接受(见图3)。换句话说,技术的绝对高低并非关键,重要的是它必须高于用户所能容忍的底线。对话系统的开发同样如此,不应使用不成熟的技术。唯一的解决办法是研究出更好的技术,直到满足实际需求为止。
自然语言对话技术作为人机交互的重要手段,已经广泛应用,并将在未来得到更广泛的使用。例如,亚马逊公司举办的Alexa Prize比赛旨在开发一种信息机器人,用户可以通过对话获取互联网和社交媒体上的信息与观点。此外,日本初创公司GrooveX发布的Lovot是一款陪伴机器人,它可以帮助用户缓解孤独感。另一款名为Façade的游戏,通过文字对话让用户与游戏中的角色互动,展示了对话技术在游戏领域的潜力。
可以预见,对话技术不仅在上述领域,还将应用于医疗、法律、金融、教育和交通等垂直领域。未来,对话技术将成为各领域的重要核心技术。
以下是设计与开发对话系统的四项原则:
尽量理解同一意图的不同说法
实现对话系统的技能不一定在于数量而在于质量,每个技能都应让用户觉得好用。无论用户用什么说法表达同一意图,系统应尽量正确理解。通过收集和分析日志数据,这一目标可以更好地实现。
失败时能优雅地处理
由于机器尚无法完全理解人类语言,系统必须能够优雅地处理错误理解或无法理解的情况。这可以通过反问用户确认内容等方式实现。
适当地拟人化
对话系统可以通过拟人化增加人性化要素和社交要素,使用户更喜欢。例如,增加同情心、情感和幽默感,可以提升用户体验。
不要假装智能
开发对话系统的目标是为用户提供有价值的工具,而不是模仿人类。关键在于系统是否能真正为用户提供价值,使其使用方便。在设计时需要考虑最坏情况,避免误导用户。
基础研究无需考虑实用性,但应用研究需要。自然语言对话技术已经实用化,一些系统已经进入我们的生活和工作中,并在不断进步。今后将有更多的对话系统出现,关键在于它们能否真正帮助用户并得到用户的喜爱。尽管自然语言对话仍面临巨大挑战,但通过技术和设计的结合,可以在不同领域开发出令用户满意的对话系统。
李航
CCF杰出会员,CCF特邀专栏作家。现任字节跳动科技有限公司人工智能实验室总监。主要研究方向为自然语言处理、信息检索和机器学习等。
lihang.lh@bytedance.com
该文未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。如需转载,请通过向CCFvoice公众号后台申请并获得授权。THU数据派已获授权。