AI时代到来,分享一款好用的本地语音识别输入工具

图灵汇官网

大家好,我是波导终结者。

近年来,人工智能技术取得了飞速发展,涌现了许多实用的工具。之前我曾分享过一些工具,比如人声分离和语音与文字互转等,这些工具都非常实用。最近,很多厂商都在积极布局AI相关应用,而开源界也涌现出许多优秀的项目和人才。今天,我要介绍给大家的是一款非常出色的语音识别输入工具,这款工具完全在本地运行,无需联网。

该项目在GitHub上的地址是,由作者HaujetZhao创建,项目名为CapsWriter-Offline(以下简称CapsWriter)。由于一些特殊原因,这里不便提供直接链接。这个项目采用了阿里巴巴开源的Paraformer模型和标点符号模型。作者已经将适用于Windows的可执行文件和模型整合在一起,用户只需下载解压并运行即可。值得一提的是,中文语音输入模型仅有230MB,而标点符号模型则有1GB,但整体来说仍然非常小巧。

尽管CapsWriter依赖于本地模型运行,但有些用户可能会质疑其架构。实际上,大多数此类工具都采用类似的模式,只是将服务端和客户端打包隐藏起来。这个项目的服务端仅支持Win10,但作者贴心地提供了32位Win7版本的客户端。如果你使用的是Win10,虽然需要服务端和客户端,但实际上只是在本机访问127.0.0.1,无需联网。

解压后,目录下的config.py是主要的配置文件,你可以使用记事本来打开和编辑。这里,我将一些关键选项用红色标注出来。首先是识别模式,支持长按和按键切换两种模式,我个人更倾向于使用长按模式。默认的快捷键是大小写键,这也是项目命名为CapsWriter的原因之一。我可以将其修改为Scroll Lock键,这样可以更好地适应不同的用户需求。此外,软件还支持录音功能,可以根据需要开启或关闭。标点符号、阿拉伯数字转换以及中英文之间是否留空格等功能,可根据个人习惯进行调整,其他选项则可保持默认设置。

CapsWriter的一大亮点是支持中文热词功能,识别率较高。虽然完全依赖本地离线模型的工具在扩充词库方面存在局限,但热词功能能较好地解决这一问题。

此外,CapsWriter还具备英文热词功能,但个人感觉其识别准确度略逊于中文。这可能是由于模型侧重于中文,或者用户输入不够标准。还有一些不属于识别错误但常被误识别的词语或专有名词,也可以在hot-rule.txt中进行设置。尽管如此,目前该工具仍无法达到100%的准确率,用户仍需进行后期校对。

在服务端和客户端窗口中,每句话的识别结果都会显示出来。这篇文章的一部分也是通过语音识别输入完成的,当然,每句话我都进行了仔细校对。这并不是AI自动生成的文章,只是采用了语音输入的方式。从目前的使用体验来看,我认为这款工具比很多联网或付费工具更加实用,尤其在手机上,无论是各家输入法还是游戏中的语音识别,其准确率普遍较低。

此外,该工具的配置要求非常低,服务端需要64位Win10,占用约4GB系统内存;客户端则可以使用32位Win7,通过局域网本地IP连接。此外,它还具备关键字、日志、视频文件转录等功能,但这些并非其核心优势所在。

感谢大家的关注和支持,如果有任何疑问或需求,欢迎在评论区留言,我们下期再见。

本文来源: 图灵汇 文章作者: 无人大飞机