十大开源语音识别项目

投稿
APP
微信扫一扫获取更多

十大开源语音识别项目

向佳

2024-01-14 14:18:16

图灵汇官网

自动语音识别技术及开源项目推荐

自动语音识别（ASR）技术通过计算机自动将人类的语音转化为文本，这一技术在多个领域都有广泛应用，如语音助手、语音搜索、自动转写以及语音命令识别。

本文将向您介绍十个与ASR相关的开源项目，其中大部分支持中文。这些项目不仅在语音技术领域具有重要意义，还为语音识别应用的发展提供了坚实的基础。

Whisper

Whisper是一个通用的语音识别模型，经过大量多样化的音频数据集训练，能执行多语言语音识别、语音翻译和口语识别等功能。 - 支持语言：中文、法语、德语、意大利语、日语、韩语、西班牙语等。 - 项目地址：GitHub - 论文地址：ArXiv

Massively Multilingual Speech (MMS)

Massively Multilingual Speech（MMS）是由Meta开源的新AI语言模型，可以识别超过4000种语言，并生成1100多种语音。 - 支持语言：超过1000种。 - 论文地址：Facebook Research - 项目链接：GitHub

DeepSpeech

DeepSpeech是一款开源的嵌入式语音到文本引擎，能在各种设备上实时运行。 - 支持语言：中文。 - 项目地址：GitHub - 使用文档：Deepspeech

PaddleSpeech

PaddleSpeech是一个开源、易用且多功能的语音处理工具包，包含语音识别、语音翻译（英-中）、文本-语音等功能。 - 支持语言：中文、英文。 - 项目地址：GitHub

ESPnet

ESPnet是一个端到端的语音处理工具包，功能涵盖文本转语音、语音翻译、语音增强等。 - 支持语言：中文。 - 项目地址：GitHub

ASRT

ASRT是一个基于深度学习的中文语音识别系统，利用大量中文语音数据进行训练。 - 项目地址：GitHub

SpeechBrain

SpeechBrain是一个基于PyTorch的开源语音处理工具包，可用于开发先进的语音技术，如语音识别、说话人识别等。 - 支持语言：中文。 - 项目地址：GitHub

WeNet

WeNet是一款面向工业应用的端到端语音识别工具包，已更新至WeNet 2.0，性能显著提升。 - 支持语言：中文。 - 项目链接：GitHub

MASR

MASR是一个基于端到端深度神经网络的中文语音识别项目，支持在线和离线识别。 - 支持语言：中文。 - 项目地址：GitHub

FunASR

FunASR是一个开源语音识别工具包，旨在搭建学术研究与工业应用之间的桥梁。 - 支持语言：中文、英文。 - 项目地址：GitHub

趋动云助力ASR科研

趋动云作为领先的算力服务商，在多媒体领域为研究者和开发者提供卓越支持。其主要优势包括：

灵活的算力使用：用户可以根据需要灵活使用GPU算力，有效控制成本。
可扩展的存储方案：用户可以根据实际需求自由存储和获取数据，提高研究效率。
丰富的数据集和模型资源：平台内置了多个领域的数据集和AI模型资源，方便用户选择适用的研究材料。

总之，趋动云通过其强大的计算资源和全面的支持，为研究者提供了一个高效可靠的研究环境，有助于推动ASR技术的发展。

开源语音识别十大项目

本文来源：图灵汇文章作者：向佳

24小时热文

: 免费Google账号共享2021有效谷歌账号密码大全
图灵汇

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

十大开源语音识别项目

微信扫一扫：分享

自动语音识别技术及开源项目推荐

Whisper

Massively Multilingual Speech (MMS)

DeepSpeech

PaddleSpeech

ESPnet

ASRT

SpeechBrain

WeNet

MASR

FunASR

趋动云助力ASR科研

微信扫一扫：分享

深圳前海微众银行取得语音识别新专利，能提高识别准确率