Ichigo Llama 3.1是一个开源的Llama语音项目,类似于OpenAI的语音模式,经过50K小时的语音训练,支持7种语言,能够进行实时语音AI处理,并针对1.89M个样本进行了指令调整。项目使用10x A1000进行训练,旨在提供高效、准确的语音识别与生成能力。
S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱,基于Pion、whisper.cpp和Coqui TTS构建。
UI-Act 是一个基于 Transformer 模型的系统,旨在通过图形用户界面与计算机进行自然交互。其设计目的是为了无缝集成到人机工作流中,模型能够利用专家的人工演示进行训练,从而提升操作的自动化与智能化水平。
Salad 是一个提供超过10,000个GPU的云平台,专为生成式AI设计。它允许用户节省高达90%的云计算费用,并轻松部署AI/ML生产模型。用户可以通过注册账户、选择资源、容器化应用程序,Salad将管理其余的操作。
开源中英双语对话模型 ChatGLM-6B 的第二代版本,拥有更强大的性能、更长的上下文、更高效的推理和更开放的协议。
MobileCPM是一个旨在帮助开发者将大型语言模型无缝集成到移动应用中的工具集,能够实现多种用例的本地模型能力,支持在移动设备上运行并提供多种功能,简化了开发者的集成过程。
Whisper是OpenAI推出的强大语音识别模型,支持多语言语音转文本,能够高精度地识别口语、方言,并自动生成字幕。它采用Transformer架构,具备强大的抗噪能力,适用于视频字幕生成、语音助手、会议记录等场景。Whisper支持99种语言的语音-文本转换,在低资源语种识别任务中WER降低至7.3%,流式处理架构实现200ms端到端延迟,自监督预训练机制减少对标注数据的依赖。
AudioCraft是一个音频类生成式AI项目,由MusicGen、AudioGen和EnCodec三种模型组成,支持多种音频处理任务,具有强大的音频生成能力,并且是一个开源项目。
Speechki是一个AI驱动的语音生成和文本转语音解决方案,用户可以通过它将任何文本转换为高质量的音频内容,支持1100多种声音和80多种语言。