AI时代到来，分享一款好用的本地语音识别输入工具

投稿
APP
微信扫一扫获取更多

AI时代到来，分享一款好用的本地语音识别输入工具

无人大飞机

2024-05-14 08:02:00

图灵汇官网

大家好，我是波导终结者。

近年来，人工智能技术取得了飞速发展，涌现了许多实用的工具。之前我曾分享过一些工具，比如人声分离和语音与文字互转等，这些工具都非常实用。最近，很多厂商都在积极布局AI相关应用，而开源界也涌现出许多优秀的项目和人才。今天，我要介绍给大家的是一款非常出色的语音识别输入工具，这款工具完全在本地运行，无需联网。

该项目在GitHub上的地址是，由作者HaujetZhao创建，项目名为CapsWriter-Offline（以下简称CapsWriter）。由于一些特殊原因，这里不便提供直接链接。这个项目采用了阿里巴巴开源的Paraformer模型和标点符号模型。作者已经将适用于Windows的可执行文件和模型整合在一起，用户只需下载解压并运行即可。值得一提的是，中文语音输入模型仅有230MB，而标点符号模型则有1GB，但整体来说仍然非常小巧。

尽管CapsWriter依赖于本地模型运行，但有些用户可能会质疑其架构。实际上，大多数此类工具都采用类似的模式，只是将服务端和客户端打包隐藏起来。这个项目的服务端仅支持Win10，但作者贴心地提供了32位Win7版本的客户端。如果你使用的是Win10，虽然需要服务端和客户端，但实际上只是在本机访问127.0.0.1，无需联网。

解压后，目录下的config.py是主要的配置文件，你可以使用记事本来打开和编辑。这里，我将一些关键选项用红色标注出来。首先是识别模式，支持长按和按键切换两种模式，我个人更倾向于使用长按模式。默认的快捷键是大小写键，这也是项目命名为CapsWriter的原因之一。我可以将其修改为Scroll Lock键，这样可以更好地适应不同的用户需求。此外，软件还支持录音功能，可以根据需要开启或关闭。标点符号、阿拉伯数字转换以及中英文之间是否留空格等功能，可根据个人习惯进行调整，其他选项则可保持默认设置。

CapsWriter的一大亮点是支持中文热词功能，识别率较高。虽然完全依赖本地离线模型的工具在扩充词库方面存在局限，但热词功能能较好地解决这一问题。

此外，CapsWriter还具备英文热词功能，但个人感觉其识别准确度略逊于中文。这可能是由于模型侧重于中文，或者用户输入不够标准。还有一些不属于识别错误但常被误识别的词语或专有名词，也可以在hot-rule.txt中进行设置。尽管如此，目前该工具仍无法达到100%的准确率，用户仍需进行后期校对。

在服务端和客户端窗口中，每句话的识别结果都会显示出来。这篇文章的一部分也是通过语音识别输入完成的，当然，每句话我都进行了仔细校对。这并不是AI自动生成的文章，只是采用了语音输入的方式。从目前的使用体验来看，我认为这款工具比很多联网或付费工具更加实用，尤其在手机上，无论是各家输入法还是游戏中的语音识别，其准确率普遍较低。

此外，该工具的配置要求非常低，服务端需要64位Win10，占用约4GB系统内存；客户端则可以使用32位Win7，通过局域网本地IP连接。此外，它还具备关键字、日志、视频文件转录等功能，但这些并非其核心优势所在。

感谢大家的关注和支持，如果有任何疑问或需求，欢迎在评论区留言，我们下期再见。