LLaMA-Omni项目旨在复现LLaMA-Omni的训练代码,为开发者提供完整的训练流程,涵盖两个阶段的训练。项目使用bf16精度训练,有效避免loss nan问题,并提供100条数据用于快速验证模型训练效果。
VoiceMind是一个专为语音理解任务设计的开源框架,为开发者提供构建高效音频分析系统的工具。它支持语音转文本与语义解析,优化语音交互体验。
RWKV-SpeechChat是一个基于3B RWKV模型的实时对话脚本,支持多种音频任务,包括语音识别、翻译、问答等,旨在提供类似GPT-4的智能交互体验。该脚本支持本地部署,仅需6GB显存即可运行,适用于多种语音处理场景。
WorldRWKV是一个基于纯RWKV7架构的模型,旨在实现任意模态的训练和推理,使模型能够轻松理解多种输入形式。它支持多种模态的输入(如视觉、语音)并输出文本,提供端到端的跨模态推理能力,性能卓越,例如在视觉问答任务中准确率高达78.30%。
Whisper Edge 是一个专为边缘设备设计的实时语音转录工具,利用硬件机器学习加速器实现始终在线的语音识别。它支持 Jetson Nano 和 Coral Edge TPU 设备,能够在这些设备上高效运行,适用于多种场景,如智能家居、工业自动化和医疗设备。
DiffRhythm AI是一款基于先进潜在扩散技术的免费AI音乐生成器,能够在几秒钟内生成包含人声和伴奏的完整歌曲。用户只需输入歌词并选择风格提示,即可快速生成全长音乐。
Applio是一款基于VITS模型的语音转换工具,专注于简洁性、质量和性能。它经过精心优化,旨在提供卓越的性能、模块化和用户友好的体验。支持多种语音转换场景和多语言翻译,适用于语音合成、语音克隆、音频编辑等多种任务。
FastSpeech2是一款高效的端到端语音合成模型,基于Transformer架构,通过引入声学和韵律信息,能够生成自然、流畅且符合人类说话特点的语音。该模型具有较低的推理延迟,适合实时语音合成系统,广泛应用于语音助手、有声书和智能客服等场景。
Friend是一款结合AI与硬件的开源可穿戴设备,旨在通过实际项目帮助技术人员学习AI,并提供悬赏机制以激励贡献。它支持实时语音分析,提供主动反馈和建议,单次充电可持续使用24小时以上。同时,Friend也是一款开源的可穿戴AI项链,彻底改变了捕捉和管理对话的方式,通过连接到移动设备,用户可以随时随地享受自动、高质量的会议、聊天和语音备忘录转录。
Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具,核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号,仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动,生成流畅自然的视频。Sonic在口型同步、表情和头部运动方面表现出色,尤其适合长视频生成。
YouTube Transcripts Machine 是一个开源工具,能够自动从任何YouTube视频中提取带时间戳的字幕文本,并利用AI技术快速生成视频内容摘要。该工具支持交互式时间戳、一键复制和下载功能,适用于桌面和移动设备。
Local-NotebookLM 是一个本地AI工具,利用本地大型语言模型(LLM)和文本转语音(TTS)模型,将PDF文档转换为引人入胜的播客。该工具支持多种LLM提供商,提供多种播客风格和长度定制,满足不同内容需求。完全本地化操作确保数据隐私和安全。
west是一款基于大型语言模型(LLM)的语音转录系统,仅用300行代码实现。它支持多种LLM和语音编码器,如LLaMA、QWEN、Whisper等,具有高性能和高准确率的语音转录能力。通过模块化设计,west由LLM、语音编码器和可训练的投影器组成,仅需训练投影器,提高了训练效率。
Omi是一款开源AI可穿戴设备,旨在革新对话捕捉和管理方式。它能够实现随时随地的高质量会议、聊天和语音备忘录的自动转录,帮助用户更高效地管理和记录重要信息。
Vox Box 是一个兼容 OpenAI API 的文本转语音和语音转文本服务器,支持 Whisper、FunASR、Bark 和 CosyVoice 等后端模型。它能够处理多种语言和应用场景,提供广泛的语音选项,满足多样化的语音合成需求,并能够无缝集成到现有的 AI 工作流程中。
ComfyUI_EchoMimic是一款集成EchoMimic功能的ComfyUI插件,能够实现逼真的音频驱动人像动画。通过可编辑的标志点调节,使动画更加生动自然,适用于视频制作、虚拟角色动画以及增强虚拟会议或直播中的角色表现。
Taranis是一个基于Faiss库构建的相似性搜索引擎,旨在从数亿个查询向量(图像或声音的通用数学和简化表示)中找到最相似的向量。在拥有足够内存的情况下,它可以扩展到处理数十亿个向量。
EchoMimic是一个基于音频驱动的肖像动画生成工具,通过可编辑的特征点条件生成逼真、自然的动画,用户可以根据自己的需求调整动画细节。它支持音频驱动、姿势驱动以及两者的混合驱动,适用于虚拟主播、视频编辑、教育、娱乐等多种场景。EchoMimic提供WebUI和GradioUI,界面友好,操作简便,效果优于同类工具,表情丰富,动作流畅。
FlowDec是一种专为48kHz采样的通用音频设计的神经网络全频带音频编解码器,支持7.5 kbps或4.5 kbps的低比特率传输。它结合了非对抗性编解码器训练与基于条件流匹配的随机后滤波器,提供高感知质量的音频处理,并支持低比特率下的全频带音频传输。
OpenOmni 是一个开源的多模态大语言模型,旨在解决多模态数据稀缺和计算资源有限的问题。它能够实时生成带有情感的语音,支持语音、文本、图像和视频的多模态理解,并提供两种实时情感语音生成模式(CTC模式和AR模式),以平衡速度与质量。其灵活的框架设计使其能够快速应用于多种下游任务,如语音导航和多角色对话。
VoiceInk 是一款适用于 macOS 的开源语音转文字应用,能够准确且离线地将语音转录为文本。用户只需在 macOS 设备上安装该应用,即可开始使用,语音将几乎实时转换为文字。
Podcastify是一款Chrome扩展程序,能够将网页内容转换为播客脚本并朗读出来。用户只需安装扩展、设置OpenAI API密钥,浏览网页即可开始播客。
ViralContent是一款基于AI的Chrome扩展工具,旨在帮助专业人士和营销人员生成引人入胜的LinkedIn回复。它通过可定制的提示,帮助用户提升LinkedIn互动效果,同时保持品牌声音的一致性,节省时间。
algoMIDI是一款利用算法生成音乐的创新工具,通过将细胞自动机规则(如‘生命游戏’)和图遍历算法(如BFS/DFS)转化为音乐,用户可以创造出独特的旋律。该工具还提供虚拟钢琴实时反馈功能,直观展示音符的生成过程,使用户能够实时查看和调整生成的音乐。
Ai Repeater 是一款语言学习工具,允许用户从本地存储或 YouTube 中分割和合并音频/视频文件,以进行有效的语言练习。它提供智能重复、发音比较和内置语音词典等功能,以增强学习效果。
EngagexAI是一款利用人工智能技术自动生成视频和播客的工具,能够快速进行编辑和制作。用户只需输入内容创意,EngagexAI便能高效地处理视频和音频的生成,适用于多种场景,如短视频制作、播客生产、无面孔视频设计以及有声书生成等。
AI吟美是一款多功能的人工智能虚拟主播(Vtuber),支持唱歌、绘画、语音合成、聊天等功能,并可在Bilibili直播中与观众互动。该项目集成了多个AI模型和服务,如GPT-SoVITS、Bert-VITS2语音合成、fastgpt聊天模型、stable-diffusion绘画模型等,支持多种舞蹈形式、场景切换和换装,提供详细的安装指南和配置文件,支持在Windows和Linux系统上运行,并且是开源项目,欢迎开发者贡献代码和提出改进建议。
WhisperChain 是一款结合了实时语音识别、语音清洗、全局热键支持和自动剪贴板集成功能的工具,旨在提高工作效率。它能够自动清理口头禅,优化表达,适用于会议记录、语音文档撰写、市场分析报告和客户反馈整理等多种场景。
Speech Trident 是一个专注于收集和整理语音/音频领域的大语言模型(LLM)、表示学习和编解码模型的资源列表。该项目旨在为研究者和开发者提供一个全面的参考和指南,帮助他们快速找到相关的模型和工具,推动语音/音频领域的机器学习研究和应用。
Nemesys Labs 是一个免费的AI驱动的文本转语音服务,能够将文本转换为自然语音。它专为内容创作者、教育者和开发者设计,旨在轻松合成多种语言的语音。用户只需输入所需文本并选择语音,即可即时生成语音。