AI交流(进群备注:Scribe)

Scribe 是 ElevenLabs 开发的语音转文本(ASR)模型,支持 99 种语言,能够处理真实世界的音频,提供词级时间戳、说话人分离和音频事件标记(如笑声),并以结构化 JSON 格式返回结果。它在基准测试中表现优异,特别是在意大利语(98.7%)和英语(96.7%)等语言中。Scribe 适用于会议摘要、电影字幕和歌词转录,未来可能支持实时应用。
Scribe的特点:
- 1. 支持 99 种语言
- 2. 提供词级时间戳
- 3. 支持说话人分离
- 4. 音频事件标记(如笑声、掌声)
- 5. 低词错误率(意大利语 98.7%,英语 96.7%)
- 6. 超越其他领先模型的基准测试表现
- 7. 特别关注服务不足的语言(如塞尔维亚语、广东话)
Scribe的功能:
- 1. 开发者通过 API 集成,构建语音转文本应用
- 2. 创作者和企业通过仪表板上传音频或视频文件生成转录
- 3. 会议记录和摘要
- 4. 电影字幕和歌词转录
- 5. 实时会议转录和语音笔记
相关导航
暂无评论...