摘要:春节期间学习语音识别,从相关大模型中比较了Whisper和SenseVoice,最后还是选择了自己国家的产品,本以为部署过程应该像网上的教程一样就几条命令,结果发现由于自己环境的原因颇费周折,于是整理了成一篇短文。
春节期间学习语音识别,从相关大模型中比较了Whisper和SenseVoice,最后还是选择了自己国家的产品,本以为部署过程应该像网上的教程一样就几条命令,结果发现由于自己环境的原因颇费周折,于是整理了成一篇短文。
一、基础环境
Macbook Pro 14寸,MacOS 15.1.1 (24B91),Python 3.13.1。
二、代码下载
git clone https://github.com/FunAudioLLM/SenseVoice.git结果怎么都无法下载,直接僵死最后提示无法连接,后来通过VPN以网页形式打开,选择下载ZIP文件,得到SenseVoice-main.zip压缩包,解压缩到对应目录。
三、安装依赖
1、Python环境清理
因为Python3是使用Homebrew安装的,所以使用pip3来安装依赖包时会提示error: externally-managed-environment,即两种包管理工具冲突了,虽然可以用--break-system-packages参数来强制安装,但每次安装都需要增加此参数,略显麻烦,于是在home目录下增加配置文件,具体路径为~/.config/pip/pip.conf,内容如下:
[global]break-system-packages = true当然,如果想要通过建立虚拟环境的方式来分隔也没有问题:
python3 -m venv myenvsource myenv/bin/activatepip3 install2、安装所需依赖包
这一步是最麻烦的,按照指南来说,直接两条命令就搞定:
pip3 install -r requirements.txtpip3 install gradio结果在这一步出错频频,花了不少时间一关关趟过去。
(1)torch版本
第一次安装提示出错,说torch版本低于2.3的无法安装,具体信息为
ERROR: Could not find a version that satisfies the requirement torch
ERROR: No matching distribution found for torch
后来就直接修改requirements.txt,将torch
torch # 原始版本为 torch=1.1.3numpy=0.111.1(2)funasr依赖
搞定torch版本后,重新运行pip3 install -r requirements.txt,这次错误出现在funasr编译时,提示Building wheel for sentencepiece (setup.py) ... error,具体为cmake、nproc等命令无法找到,通过百度+AI搜索到了解决方案,即安装cmake和pkg-config,于是补充安装所需依赖包:
brew install cmake pkg-configpip3 install sentencepiece完成后再运行pip3 install -r requirements.txt,终于完成所有依赖的安装。
最后安装ffmpeg
brew install ffmpeg四、运行本地Web服务
貌似所有依赖都已经安装完毕,于是运行本地Web服务
cd SenseVoidepython3 webui.py结果仍然报错,错误信息如下:ModuleNotFoundError: No module named 'chunk',还少了一个模块。
使用pip3继续安装依赖包,结果继续出错,这次核心的错误信息如下:
package_file = open(join(HERE, 'chunk', '__init__.py'), 'rU')ValueError: invalid mode: 'rU'仔细排查,原来是Python版本兼容性的问题,即从Python3开始,模式rU已经被废弃,应该使用‘r’只读模式。
继续尝试,用python2.7对应的pip是可以安装chunk,但我们用的是Python3,所以还得回到Python3上来。
试过增加参数--no-use-pep517,即使用旧的构建系统(python3 install chunk --no-use-pep517),结果仍然出错,反馈信息一致,就只剩下一条路,即将包下载下来,修改setup.py文件中对应的参数。
先使用python3 download chunk下载软件包,结果仍然在下载后进行安装,继续报错,且文件保存在临时目录,命令执行完成后,无法通过临时目录去访问。
最后直接访问网站https://pypi.org/,搜索chunk项目,直接下载文件。
然后解压缩,再修改文件setup.py中的第11行,将open命令中的'rU'改为'r',然后重新安装即可。
cd pip3 install .最后,再次运行python3 webui.py终于可以正常启动了,这时会先下载相关的文件包括模型(model.pt)和相关文件,最大的当然是模型文件,大小为893MB。
下载完成后,就可以通过浏览器访问本地应用页面来使用相关语音服务,访问地址为:http://localhost:7860,本地界面如下图所示,可将要语音识别的文件(mp3或wav文件拉到左下角的窗口,然后点击“Start”按钮就可以进行语音识别,完成后左下角的文本框会输出对应的文字。
尝试了一下万老师的一期精英日课“2025年必定发生的三项科技进步”,识别率挺高,除了会将一句话用句号分割之外,包括英文、数字都能成功识别。
来源:邢邢科技智慧