自动语音识别(ASR)技术通过计算机自动将人类的语音转化为文本,这一技术在多个领域都有广泛应用,如语音助手、语音搜索、自动转写以及语音命令识别。
本文将向您介绍十个与ASR相关的开源项目,其中大部分支持中文。这些项目不仅在语音技术领域具有重要意义,还为语音识别应用的发展提供了坚实的基础。
Whisper是一个通用的语音识别模型,经过大量多样化的音频数据集训练,能执行多语言语音识别、语音翻译和口语识别等功能。 - 支持语言:中文、法语、德语、意大利语、日语、韩语、西班牙语等。 - 项目地址:GitHub - 论文地址:ArXiv
Massively Multilingual Speech(MMS)是由Meta开源的新AI语言模型,可以识别超过4000种语言,并生成1100多种语音。 - 支持语言:超过1000种。 - 论文地址:Facebook Research - 项目链接:GitHub
DeepSpeech是一款开源的嵌入式语音到文本引擎,能在各种设备上实时运行。 - 支持语言:中文。 - 项目地址:GitHub - 使用文档:Deepspeech
PaddleSpeech是一个开源、易用且多功能的语音处理工具包,包含语音识别、语音翻译(英-中)、文本-语音等功能。 - 支持语言:中文、英文。 - 项目地址:GitHub
ESPnet是一个端到端的语音处理工具包,功能涵盖文本转语音、语音翻译、语音增强等。 - 支持语言:中文。 - 项目地址:GitHub
ASRT是一个基于深度学习的中文语音识别系统,利用大量中文语音数据进行训练。 - 项目地址:GitHub
SpeechBrain是一个基于PyTorch的开源语音处理工具包,可用于开发先进的语音技术,如语音识别、说话人识别等。 - 支持语言:中文。 - 项目地址:GitHub
WeNet是一款面向工业应用的端到端语音识别工具包,已更新至WeNet 2.0,性能显著提升。 - 支持语言:中文。 - 项目链接:GitHub
MASR是一个基于端到端深度神经网络的中文语音识别项目,支持在线和离线识别。 - 支持语言:中文。 - 项目地址:GitHub
FunASR是一个开源语音识别工具包,旨在搭建学术研究与工业应用之间的桥梁。 - 支持语言:中文、英文。 - 项目地址:GitHub
趋动云作为领先的算力服务商,在多媒体领域为研究者和开发者提供卓越支持。其主要优势包括:
总之,趋动云通过其强大的计算资源和全面的支持,为研究者提供了一个高效可靠的研究环境,有助于推动ASR技术的发展。