PengChengStarling是基于icefall项目开发的多语言语音识别(ASR)模型,支持8种语言,模型参数仅3.08亿(Whisper-Large v3的20%),推理速度比Whisper快7倍。提供从音频输入到文本输出的完整ASR流程,适用于实时场景和资源受限环境。技术层面结合k2-fsa和lhotse框架,可能是针对多语言优化的定制版本。
AssemblyAI 提供先进的 AI 模型,实现精准的语音识别、转录和音频分析。其基于 API 的平台支持多种语言,提供人类级别的准确性,并适用于通话总结、内容审核和情感分析等应用,适合处理大量音频数据,具备高可靠性和正常运行时间。
WhisperFusion是一个基于WhisperLive和WhisperSpeech构建的项目,结合了Mistral大语言模型,旨在实现极低延迟的AI对话效果,提供流畅的语音交互体验。
whisper-cli-rs是一个使用Rust编写的命令行工具,基于whisper.cpp,支持多种音频格式,实现实时语音转文本,并允许用户自定义模型选择。
Distil-Whisper是一个令人印象深刻的AI模型,相较于Whisper,它提供了更快的推理速度和更小的模型体积,速度提高了6倍,体积减少了49%,在分布外评估集上表现也具有竞争力。
Deepgram Voice AI是一款先进的语音AI平台,利用人工智能技术提供高质量的实时语音转文本和文本转语音服务,适用于医疗转录、对话AI及客户支持等多个应用场景。Deepgram提供易于集成的API,支持多种语言,旨在改变企业与开发者整合语音识别与合成的方式。
CoWin Copilot®️通过结合人工智能和人类智慧,帮助用户在各种面试和会议中表现出色。它提供实时语音转文本(STT)服务,支持编码,并提供免费的简历生成,旨在帮助候选人在面试中脱颖而出。
Dictanote是一款集成语音识别的笔记应用,用户可以轻松通过语音录入笔记。它实时准确地将语音转录为文本,支持50多种语言和80多种方言。用户可以使用语音命令添加段落、标点符号和笑脸表情。该应用还支持跨平台使用,适用于桌面(Windows/Linux/Mac的Google Chrome)、Android和iPhone(Safari 12及以上)。
Hello Transcribe是一款私密安全的语音转文本应用,采用OpenAI Whisper技术,适用于iPhone、iPad和Mac。用户可以轻松转录语音笔记、音频文件、视频、播客,以及通过麦克风进行口述。
Whispo是一款AI驱动的语音听写工具,能够让用户按住Ctrl键录音并自动转写文本。它兼容任何文本输入应用,确保数据仅存储在本地以保障用户隐私。此外,Whispo还支持使用自定义API和后处理语言模型进行转写,提供灵活的使用体验。
AI Transcribe是一款提供离线AI驱动的转录服务的应用,用户可以在没有网络连接的情况下完全功能地进行音频转录。
Komandi是一个AI驱动的终端命令管理工具,旨在革新用户管理和执行命令的方式,大幅提升工作效率。它支持用户插入、收藏、复制和执行命令,同时能够识别并警告潜在的危险命令。
HTTPie AI是一款创新工具,旨在简化和增强开发者与API的交互。它结合了人工智能的功能,不仅让API测试更简单,还更智能。该工具提供强大的命令行界面和流畅的图形用户界面,适用于Web和桌面,旨在优化开发者、测试人员及API开发和集成相关人员的工作流程。
GO Simple Tunnel是一个用Golang编写的简单隧道工具,支持多种网络协议和灵活的配置选项。
VDrift/Umka是一个用于设计和测试自定义赛车自动驾驶仪的工具,支持实时仿真并提供多种驾驶算法,适用于不同平台,旨在帮助用户创建和优化他们的赛车模型。
Stretchly 是一款开源免费的休息提醒工具,界面简洁易用,功能强大,支持根据用户习惯灵活安排工作和休息的时间提醒。
Botticelli是一个开源的.NET Core框架,用于构建与数据库、队列代理、语音引擎和AI引擎集成的通用机器人。用户可以通过从GitHub克隆框架库来开始使用Botticelli,然后轻松构建和部署跨平台支持的机器人,集成数据库、AI解决方案、语音合成器和队列代理。
Akkadu是一个实时AI字幕工具,帮助用户以自己的语言轻松理解视频、网络研讨会、视频会议和直播,支持90多种语言,并兼容多种平台。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型