CAM++ 是 FunClip 集成的语音识别模型,专注于中文语音识别,适用于 16k 采样率的通用场景。它能够自动识别说话者 ID,并用于剪辑特定说话者的段落。该模型具有高效、准确、轻量化的特点,适合实时应用和资源受限的环境。
SeACo-Paraformer 是一个非自回归的自动语音识别(ASR)系统,专门为中文语音识别设计,集成了热词定制功能,能够显著提升特定实体词(如人名、地名)的识别效果。该系统结合了注意力编码器-解码器(AED)模型的准确性和非自回归(NAR)模型的高效性,适用于工业级大数据场景。通过 FunASR 工具包,用户可以轻松部署该模型,并利用其热词定制功能优化语音识别结果。
Paraformer-Large 是由阿里巴巴开发的开源工业级自动语音识别(ASR)模型,专注于中文语音识别任务。该模型在Modelscope上的下载量超过1.436亿次,显示出其在开发者和研究者中的广泛受欢迎。Paraformer-Large 采用非自回归端到端语音识别技术,支持并行推理,特别适合GPU使用,能够高效处理大规模语音数据。模型训练于6万小时的普通话数据集,确保其在中文语音识别任务中的鲁棒性和准确性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型