音频事件标记

Scribe 是 ElevenLabs 开发的语音转文本（ASR）模型，支持 99 种语言，能够处理真实世界的音频，提供词级时间戳、说话人分离和音频事件标记（如笑声），并以结构化 JSON 格式返回结果。它在基准测试中表现优异，特别是在意大利语（98.7%）和英语（96.7%）等语言中。Scribe 适用于会议摘要、电影字幕和歌词转录，未来可能支持实时应用。

ASR模型会议摘要字幕生成语音转文本

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。