KrillinAI 是一个集视频翻译、配音、格式转换于一体的AI工具,基于Whisper语音识别和LLM智能分段技术,支持56种语言互译。 提供从视频下载、字幕生成、智能翻译到多平台适配的端到端工作流,支持横竖屏自动转换,适合YouTube/TikTok/B站等内容平台。
Scribe 是 ElevenLabs 开发的语音转文本(ASR)模型,支持 99 种语言,能够处理真实世界的音频,提供词级时间戳、说话人分离和音频事件标记(如笑声),并以结构化 JSON 格式返回结果。它在基准测试中表现优异,特别是在意大利语(98.7%)和英语(96.7%)等语言中。Scribe 适用于会议摘要、电影字幕和歌词转录,未来可能支持实时应用。
Florence-2-large 是微软开发的一个视觉语言模型,基于序列到序列学习范式,支持多种视觉任务。它通过 FLD-5B 数据集训练,包含 126 百万张图像和 54 亿个全面视觉注释,能够处理复杂的视觉数据,如对象位置、遮罩轮廓和属性,并通过多任务学习实现统一的视觉理解。模型在字幕生成、目标检测、视觉定位、视觉分割和OCR等方面表现良好。
MemoAI 是一款完全本地运行的 AI 音视频转录工具,支持将 YouTube、播客和本地音视频文件转为文本、字幕,并提供翻译和语音合成功能。它适用于 macOS 和 Windows 系统,特别适合学习或内容创作者。
MOKI是美图公司推出的一款基于AI技术的视频短片创作工具,旨在帮助创作者高效制作动画短片、网络短剧、故事绘本和音乐视频(MV)。它利用美图自研的Miracles Vision大模型,提供智能剪辑、自动配乐、音效生成、字幕生成等功能,简化了视频制作流程,特别适合需要快速生成内容的创作者。MOKI还支持AI生成分镜图、角色设计等功能,覆盖从脚本到成片的整个创作周期。
Maestra是一个Chrome扩展,能够实时捕捉浏览会话中的音频,支持超过125种语言的准确转录和字幕生成,提升了可访问性与理解力。
Conformer是AssemblyAI开发的高端AI工具,专为提升自动语音识别能力而设计,基于110万小时的英语音频数据训练,旨在为开发者和企业提供可靠的转录服务,简化高效和准确的数字交互。
audio2text是一个由OpenAI驱动的服务,能够高精度地将音频文件转换为文本,支持多种语言和音频格式,并提供不同格式的转录文件下载选项。
Izwe.ai是一个多功能的多语言技术平台,利用机器学习和语言专家网络,将音频和视频数据转化为多种本地语言的转录、字幕或标题。该平台专注于服务南非的企业和组织,提供准确高效的转录服务,以及翻译、摘要、文本分类和实体提取等附加服务。
Vmaker AI是一款在线AI视频编辑器,可以在几分钟内将您的原始视频转化为令人惊艳的视频。它自动添加B-roll片段、背景音乐、转场、字幕等,还能帮助您从长视频中创建短视频、预告片和精彩片段。
File Transcribe 提供准确且高效的自动转录服务,结合 AI 技术,支持多种功能如说话者识别、字幕生成、摘要提取,并提供灵活的定价方案,适用于个人和企业用户。
Buzz是一个可以实时转文字的多语言语音转文字应用,支持处理语音和视频文件,适用于各种场景。
一款开源的一站式 AI 影视解说+自动化剪辑工具,基于LLM实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程。
这是一个视频翻译配音工具,可将一种语言的视频翻译为指定语言的视频,自动生成和添加该语言的字幕和配音,并支持API调用。
Nova A.I. 是一款简单却强大的在线视频编辑和记录软件,利用计算机视觉视频搜索引擎提供多种视频编辑工具,包括视频编辑器、剪切器、修剪器、合并器、裁剪器、YouTube剪切器、TikTok剪切器等。用户还可以生成字幕、翻译字幕、在视频中添加文本或图像、编辑音频,并使用基本特效如视频滤镜和过渡效果。Nova A.I. 适用于制作营销宣传视频、预告片、介绍视频,以及教育、解释和企业视频。
DenoLyrics是一个基于AI模型的网络应用,支持143种语言,提供音频转录、字幕、文本摘要和多语言翻译。它使用大型模型Whisper进行实时语音识别。
Motionbear是一个在线平台,提供自动转录和字幕服务。它利用AI驱动的语音识别软件,快速将视频转录成文本,节省用户大量手动转录的时间。同时,它还支持生成字幕和闭合字幕,提供超过40种语言的翻译选项。用户只需上传视频或音频文件,AI软件便会自动转录内容,用户可以根据品牌需求自定义字幕。该平台支持多种文件格式,确保用户文件和字幕的隐私与安全。
Wavel是一个专注于视频和本地化的文本转语音语音解决方案的综合平台,帮助企业和个人轻松创建专业的多语言配音,提升内容的影响力和覆盖面。
Whisper Notes是一款基于OpenAI Whisper模型的设备内语音转文本应用,支持80多种语言的快速准确转录,无需互联网连接。用户只需下载应用并授予必要权限,即可实时录音并将语音转化为文本。
SpeechPulse是一个利用计算机麦克风进行实时语音识别的应用程序,可以将语音转换为文本,支持在文本编辑器、网页浏览器和办公应用中输入,同时还可以转录音频/视频文件并生成字幕。
RenderFit 是一个利用人工智能自动化视频编辑和字幕生成的工具,旨在提升视频的参与度、改善观众的注意力和记忆力,同时增强视频的可访问性。该平台通过智能分析视频内容,快速生成高质量的字幕和编辑效果,使用户能够更高效地制作和分享视频。
Translate.video 是一个前沿的平台,专为内容创作者和企业设计,帮助他们轻松地将视频翻译成超过75种语言,打破语言障碍,扩大全球受众。平台提供视频配音、声音克隆和字幕生成等功能,适用于各种用户,从影响者到大型企业,助力他们与国际观众进行互动。