OSUM开源项目 – 多功能语音理解模型

OSUM是西北工业大学开源的一个语音理解模型，支持8种语音理解任务，涵盖从语音识别到情感识别，以及语音到文本的深度理解。它结合了Whisper和Qwen2，采用ASR+X训练策略，支持多任务同时训练优化，适用于多种语音处理场景。

OSUM的特点:

1. 支持语音识别(ASR)
2. 带时间戳的语音识别(SRWT)
3. 声音事件检测(VED)
4. 语音情感识别(SER)
5. 说话风格识别(SSR)
6. 说话者性别分类(SGC)
7. 说话者年龄预测(SAP)
8. 语音到文本对话(STTC)
9. 结合Whisper和Qwen2
10. 采用ASR+X训练策略
11. 支持多任务同时训练优化

OSUM的功能:

1. 用于语音识别任务
2. 用于带时间戳的语音识别任务
3. 用于声音事件检测任务
4. 用于语音情感识别任务
5. 用于说话风格识别任务
6. 用于说话者性别分类任务
7. 用于说话者年龄预测任务
8. 用于语音到文本对话任务

相关导航

Swarm开源项目 – 轻量级多代理协调框架

Swarm 是一个实验性的教育框架，专注于轻量化、模块化和易于测试的多智能体系统协调。它提供了两种基本抽象：代理（Agent）和传递（Handoff），代理包含指令和工具，可以随时选择将对话传递给另一个代理。Swarm 探索了轻量级、可扩展和高度可定制的模式，最适合处理大量独立的功能和指令。该项目由 OpenAI 提供，旨在简化多智能体系统的协调和执行，并使其可测试。

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs开源 – 提升多代理LLM系统鲁棒性

该项目研究多代理大型语言模型（MoA）架构在面对欺骗性代理时的脆弱性，并提出了多种无监督防御机制（如“Dropout & Cluster”和“Cluster & Filter”）以恢复性能损失。研究通过基准测试（如AlpacaEval 2.0和QuALITY）评估了欺骗性代理对系统的影响，并分析了欺骗性代理类型、数量、聚合器模型强度等因素。项目旨在提高多代理LLM系统的鲁棒性和安全性，适用于需要高可靠性的应用场景。

OpenCommit开源项目 – 快速生成高质量Git提交信息

OpenCommit是一个命令行界面工具，能够在1秒钟内自动生成令人印象深刻的Git提交信息。这个开源仓库中的所有提交都是使用OpenCommit完成的，用户可以通过查看这些提交来了解OpenCommit的工作原理。OpenCommit支持表情符号和长描述文本的配置，用户可以根据自己的需求进行个性化设置。

Code-R1开源项目 – 精准高效的代码生成工具

Code-R1通过可靠的奖励机制重现代码生成的R1流程，旨在提升代码生成的精准度和效率。该项目利用少量样本进行训练，性能超越大规模参数模型，并提供安全、可扩展的沙盒化执行环境，有效减少奖励误判，确保代码生成的高效性和安全性。

HunYuanVideo官网 – 腾讯开源的高质量视频生成模型

HunYuanVideo 是由腾讯开发的开源大型视频生成模型，专注于从文本描述生成高质量视频。该模型拥有13亿参数，是目前最大的开源视频生成模型之一。它采用双流到单流混合模型处理视频和文本标记，基于Transformer架构，具备全注意力机制，支持图像和视频的统一生成。HunYuanVideo 在文本对齐、运动质量和视觉质量方面表现优异，优于其他领先模型。

Maestro开源项目 – 加速多模态模型微调的工具

一个专为加速多模态模型（如 PaliGemma、Florence-2 和 Qwen2-VL）微调的工具，简化配置、数据加载、重现性和训练循环的设置。

Cursor开源项目 – 收集Cursor使用的Prompts的库

Cursor是一个专门用于收集和分享Cursor使用的Prompts的库，旨在为开发者提供方便的Prompt资源，支持多种编程语言，易于集成和使用，同时由社区持续维护和更新。

discuit开源项目 – 开源的 Reddit 社区替代品

discuit 是一个功能完善的开源项目，旨在作为 Reddit 社区的替代方案，拥有良好的用户体验和可扩展性。它的后端使用 Go 构建，前端基于 React，数据存储依赖 MariaDB，临时数据管理则使用 Redis。

Ghostty Config开源项目 – 一个美观的Ghostty配置生成器

Ghostty Config是一个开源项目，提供了一个美观的配置生成器，旨在为Ghostty终端生成配置文件，使用户能够轻松创建和管理其终端配置。

Unity MCP Package开源 – Unity与LLM双向通信工具

Unity MCP Package是一个开源Unity软件包，通过模型上下文协议(MCP)实现Unity编辑器与大型语言模型(如Claude Desktop)的无缝双向通信。该项目作为桥梁服务器，允许开发者通过自然语言指令自动化工作流、操作资产、控制场景及编辑器功能，显著提升游戏开发效率。支持Unity 2020.3 LTS及以上版本(需URP)，需配合Python 3.12+和uv包管理器使用。

Wise Pizza开源项目 – 多维数据异常发现与可视化

Wise Pizza 是一个用于在多维数据中自动发现并可视化最有趣数据切片的库，帮助识别异常细分段，并了解数据中的子细分段及两个时间段或数据集之间的差异。

Compressor开源项目 – 免费的文件压缩工具

Compressor是一款免费开源的文件压缩工具，能够让您的文件体积更小。它以Web形式实现，支持在本地运行，且没有最大压缩限制，现已完成图片压缩功能。

R1-Omni开源项目 – 全模态情感识别与推理工具

R1-Omni是首个将强化学习应用于全模态大语言模型的情感识别项目，旨在提升情感识别的推理能力，并在分布外数据上表现卓越。它利用视觉和音频信息来识别情感，通过看视频来识别人的情绪，并生成详细且可解释的推理过程。

CleanMyWechat开源项目 – 自动清理微信缓存工具

CleanMyWechat是一款专为PC端微信设计的自动清理工具，能够高效删除微信自动下载的大量文件、视频和图片等缓存数据，从而显著释放存储空间。该工具支持识别多个微信账号，允许用户选择自定义路径进行清理，并且删除的文件会被放置在回收站中，以防止意外删除。此外，CleanMyWechat兼容Windows系统中的所有微信版本，确保广泛适用性。