R1-AQA是基于Qwen2-Audio-7B-Instruct的音频问答模型,通过群组相对策略优化(GRPO)算法进行强化学习优化。在MMAU Test-mini基准测试中仅用38k样本即达到64.50%的平均准确率,显著优于传统监督式微调方法。该项目创新性地将GRPO应用于音频领域,展示了小样本场景下的高效性能,但研究也指出大型音频语言模型在听觉-语言推理方面仍落后于人类水平。
该项目旨在通过强化学习训练大型语言模型(LLM),使其在推理任务中更高效。研究在奖励函数中引入长度惩罚,鼓励模型减少token使用,同时保持准确性,从而降低推理成本。通过参数α控制效率与准确性之间的权衡,提供了灵活的调整空间。项目不仅提供了理论支持,还开源了代码和数据,方便进一步开发和应用。
Knowledge-R1是一个旨在增强知识检索与推理能力协同的框架,解决推理模型中知识不足和复杂推理优化的挑战。它通过多轮知识交互逐步提升模型的理解和决策能力,并利用强化学习动态优化知识与推理的协同。该框架已在Qwen-1.5B-Instruct模型上成功复现了显著的改进效果。
kimi-k1.5 是月之暗面发布的多模态思考模型,具有强大的数学、代码、视觉多模态和通用能力,在短思考和长思考模式下均超越了多个 SOTA 模型。
Eternity AI是印度理工学院帕特纳分校的一个研究项目,旨在构建一个以人为本的语言模型,能够通过访问实时互联网来模拟人类行为,减少幻觉,并在超过10万个行为参数上进行训练。
这个开源项目的目的是在 Node.js 中寻找一个npm包,可以将语音转换为文本。
《2000 Machine Learning Prompts》是一个全面的资源,旨在帮助爱好者学习和实验机器学习,使他们熟悉其功能和在不同上下文中的应用。
phi-1.5是微软发布的一个具有13亿参数的语言模型,在自然语言处理和复杂推理任务上表现优异,其性能可与体量大5倍的模型相媲美。该模型遵循‘教科书就是你需要的一切’的原则,并且不使用爬虫爬取的互联网数据。
Ferret是来自苹果的新型多模态大型语言模型,擅长图像理解和语言处理,尤其在理解空间参考方面展现了显著的优势。
Flair是一个非常简单的框架,旨在提供最先进的自然语言处理技术,支持多种预训练模型,并拥有简单易用的API,适用于多种语言的文本处理,同时可以与其他深度学习框架(如PyTorch)无缝集成。
Neuralhub是一个先进的平台,旨在简化和增强深度学习和AI开发过程,适用于AI爱好者、研究人员和工程师。它提供了一个全面的环境,支持创建、实验和创新,致力于推动AI研究的民主化。
Jina AI 提供强大的多模态AI解决方案,旨在让每个用户、开发者和企业都能轻松访问AI生成的创造力和创新潜力。我们致力于 democratize 让AI技术普及,帮助个人和企业实现他们的目标。
汇集语音语言模型和端到端语音对话系统的论文、代码和资源,旨在为研究人员和开发者提供全面的支持和参考。
Amica是一个开源的接口,支持使用任何大语言模型进行3D角色聊天。用户可以自定义声音、情感和动画,支持在本地运行MML以增强视觉理解,并能够在计算机上创建未来派的3D头像。