该项目是一个开源工具,利用FastRTC处理实时音频流,并结合Transformers的开源自动语音识别(ASR)模型Whisper,提供本地运行的实时语音转录功能。支持多种语言,强调低延迟和隐私保护,无需联网。适合个人用户和小型应用开发者使用。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型