摘要:看任何片,不论是欧美大片,还是国语经典,甚至是语言不可描述的影片,字幕都是不可缺少的一环。
看任何片,不论是欧美大片,还是国语经典,甚至是语言不可描述的影片,字幕都是不可缺少的一环。
过去看粤语片,其他地区听不懂觉得要个字幕很正常,但普通话为啥还要字幕呢?过去就很纳闷。但接触到的人越来越多,发现地域差异与方言影响,以及大家听觉感知的个体差异后,也能够慢慢理解了。
再有就是,部分朋友可能还会做做自媒体。字幕在自媒体时代的作用已经远不止“辅助听力”那么简单,它已经成为增强观众粘性、提升观看体验、甚至塑造内容风格的重要工具。如果你打算认真做自媒体视频,字幕一定要系统性规划,并且可以考虑早早引入一些自动化工具。
那咱们本期就来介绍这么一款🐮🍺的开源自动字幕生成工具,卡卡字幕助手(VideoCaptioner)。
这个项目其实去年年底就有群友发现并推荐,但当时测试体验感觉就是准确率高一些外也没啥别的特色。最近恰巧有位群友问,有没有那种影片的字幕生成工具。。。我一下子就给想起来了~时隔四个月的更新现在已经非常赞,因此来介绍给大家。
目前卡卡字幕有Windows客户端(完整强大免费),也支持Docker一键部署超级轻量版(网页版限制视频大小200MB,语种有限)。
项目介绍
卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型(open Ollama DeepSeek等 )进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。
最新版本已经支持 VAD 、 人声分离、 字级时间戳 批量字幕等实用功能
🎯 无需GPU即可使用强大的语音识别引擎,生成精准字幕
✂️ 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
🔄 AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
🎬 支持批量视频字幕合成,提升处理效率
📝 直观的字幕编辑查看界面,支持实时预览和快捷编辑
🤖 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
Windows端
打开GHUB,搜索VideoCaptioner。
项目主页,点击下图箭头所示。
作者提拱了蓝奏云和直接下载,根据自己的情况哪个快用哪个。
下载完毕后安装即可。
功能眼花缭乱,使用前可以先配置大模型,主流的Ai都已经支持,包括DeepSeek。
支持全自动一条龙:视频语音识别-生成字幕-字幕翻译-自动合成视频。我们也可以不选一条龙,手动对字幕先行校对以获得更好的最终效果。
第二个文件是语音识别提取的字幕文件,第三个文件是翻译后的字幕文件,第四个是自动合成字幕的成品视频。完全OK。
如果想要调整字幕的格式,样式,可以到字幕样式排布部分进行单独设计。
Docker部署和使用
以威联通NAS为例,通过Docker Compose一键部署。
services:video-captioner:image: ywsj/video-captionercontainer_name: video-captionerports:- "8501:8501"volumes:- /share/Container/video-captioner/temp:/app/tempenvironment:restart: always环境变量这俩可以自行补上。
支持大部分的视频格式。
找了一个著名人士演讲系列视频,上传上去,等待提示上传成功。点击开始识别。
能够自动分段,支持字数统计,可根据单词定位进度条。
上面导出字幕后,可以直接用第二个功能进行字幕翻译成我们的母语。
目前翻译支持英语、简体中文、繁体中文、日本語、韩语、粤语、法语、德语、西班牙语、俄语、土耳其语、葡萄牙语。注意,是字幕翻译,字幕识别就中英文好用。
又测试了一段霉霉采访。
中文普通话测试也没问题,带点地方口音也都能准确识别,但是像那种鬼畜魔音就不行啦。
总体的准确率还可以,为了提升准确率,有条件的可以补充上那两个环境变量。
来源:羊刀仙