人工智能专题|WhisperLiveKit：本地同步实时语音转文字-数智化转型网szhzxw.cn

实时语音转文字一直是个难题。现有方案要么依赖云服务（数据安全问题），要么直接用 Whisper 处理音频片段，（但其并非为完整语句设计，处理时会丢失上下文，经常切断单词，效果很差）。

最近发现不错的本地实时语音转文字的项目WhisperLiveKit，它使用了最前沿的同步语音技术，支持智能缓冲和增量处理，从根本上解决问题。

比如：Simul-Whisper 和 SimulStreaming ，专门解决实时转录的低延迟问题。NLLB 翻译模型能处理 200 种语言的同步翻译。Streaming Sortformer 负责实时说话人识别。

同时，架构设计考虑了并发。后端支持多用户同时使用，通过语音活动检测在没人说话时降低资源消耗。https://wxa.wxs.qq.com/tmpl/ok/base_tmpl.html

安装和使用

安装：

pip install whisperlivekit

启动服务器：

whisperlivekit-server --model base --language en

打开浏览器访问 http://localhost:8000 就能用。

支持不同大小的模型（tiny 到 large-v3），可以选择语言或自动检测。需要说话人识别就加 --diarization 参数。需要翻译就用 --target-language：

whisperlivekit-server --model large-v3 --language fr --target-language da

Docker 部署支持 GPU 加速：

docker build -t wlk .
docker run --gpus all -p 8000:8000 --name wlk wlk

生产环境可以用 Gunicorn + Uvicorn 多进程部署，配合 Nginx 做反向代理。

还提供了 Chrome 扩展，能直接抓取网页音频转文字。看视频会议或在线课程时可以实时生成字幕。

项目支持 Apple Silicon 优化，以及各种可调参数。--frame-threshold 控制速度和准确性的平衡，--preload-model-count 可以预加载多个模型实例来处理并发。

但效果很依赖语言和模型选择。不同语言的表现差异较大，小语种效果可能不理想。实时转录本身就有技术限制，加上不同口音、背景噪音等因素，准确率会受影响。小结

这个项目对于一些自部署优先的AI应用非常合适，敏感信息不用担心泄漏，并且开源免费。感兴趣的朋友可以试一试。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）

若您为人工智能服务商，可添加数字化转型网小助手Nora，加入人工智能行业交流群。

若您为人工智能创业者，可添加数字化转型网社群主理人Carina，加入人工智能创业交流群。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然