RTVI-AI是一个新型的开放标准,旨在实现实时语音和视频推理。该项目提供了开源的JavaScript和React SDK,目前已可用,iOS、Android及其他平台的SDK也将在不久后推出。
S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱,基于Pion、whisper.cpp和Coqui TTS构建。
该项目让你可以在浏览器里跑一个 DeepSeek-R1-Distill-Qwen-1.5B 模型,使用 🤗 Transformers.js 和 ONNX Runtime Web,本地运行。
Reliable LLM是一个旨在缓解知识密集型任务中知识幻觉问题的框架,通过系统化收集关于LLM不确定性和置信度的研究,促进可靠AI的发展。
MiniCPM-o-2_6是Openbmb发布的一款新的混合模型,结合了多个先进模型,能够处理视觉、语音、视频流和OCR等多种任务,具有强大的功能和灵活的应用场景。
GPT-4o click to start是一个免费的GPT-4O驱动产品,提供与GPT-4相同水平的智能,配备强大的语音服务API,能够进行实时文本、视觉和音频处理。
YOUS 是一个基于AI翻译的即时通讯平台,让不同语言的人能够通过音频和视频通话进行交流。用户可以在会议中选择自己的语言和对方的语言,实时获得AI翻译的支持,打破语言障碍,促进沟通。
Whisper是一个基于whisper.cpp的Windows应用,旨在方便普通用户进行语音转文字转换,具有高效、无依赖的特点,能够满足日常使用需求。