Amphion开源项目 – 音频、音乐和语音生成工具包

Amphion 是一个开源工具包，旨在支持音频、音乐和语音生成领域的可重复研究，并帮助初级研究人员和工程师进入该领域。它实现了多种先进的模型架构，包括基于扩散、变压器、VAE 和流的模型，并提供生成的音频的综合客观评估。Amphion 的核心目标是为研究任何输入到音频的转换提供一个平台，支持多种生成任务，如文本到语音（TTS）、歌唱语音合成（SVS）、语音转换（VC）、口音转换（AC）、歌唱语音转换（SVC）、文本到音频（TTA）等。此外，Amphion 还提供了多种声码器和评估指标，确保生成任务的一致性和高质量。

Amphion的特点:

1. 支持多种生成任务，如 TTS、SVS、VC、AC、SVC、TTA 等
2. 实现多种先进模型架构，如扩散模型、变压器、VAE 和流模型
3. 提供生成的音频的综合客观评估
4. 包含多种声码器，如 GAN 基、流基、扩散基和自回归基声码器
5. 支持大规模数据集，如 Emilia 数据集及其预处理管道
6. 提供可视化工具，帮助理解经典模型的内部处理机制

Amphion的功能:

1. 用于文本到语音（TTS）生成
2. 用于语音转换（VC）和口音转换（AC）
3. 用于歌唱语音合成（SVS）和歌唱语音转换（SVC）
4. 用于文本到音频（TTA）生成
5. 用于音频生成任务的评估和可视化

相关导航

seed-tts-eval开源项目 – Seed-TTS模型的客观评估工具

seed-tts-eval是字节跳动开发的Seed-TTS模型的客观评估工具，包含用于评估零样本语音生成能力的测试集和指标计算脚本。该项目不发布Seed-TTS的源代码和模型权重，但提供了从公开语料库中提取的测试样本，用于衡量模型在多种客观指标上的表现。测试集包括来自Common Voice和DiDiSpeech-2数据集的样本，并采用WER（词错误率）和SIM（说话人相似度）作为评估指标。

Text2Graph-R1模型 – 开源文本转图结构提取工具

Text2Graph-R1 是一个开源项目，旨在复制 DeepSeek R1 的文本到图结构的提取训练方案。该项目基于 GRPO（Guided Reward Policy Optimization）强化学习技术，通过多阶段训练流程（包括数据生成、监督训练和强化学习）优化模型从非结构化文本中提取结构化信息的能力。项目特别强调通过多种奖励机制（如格式奖励、JSON有效性奖励和F1奖励）提升输出质量，并支持零样本图结构提取任务。

Llama Stack开源项目 – 集成化的 LLM 应用开发工具

Llama Stack 是一个开源项目，旨在将 LLM 应用构建生成周期的所有组件打包，包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等，并支持 9+ 提供商。

Seed-VC开源项目 – 零样本语音/歌声转换工具

Seed-VC 是一个专注于零样本语音转换和歌声转换的开源项目，基于 Python 开发。它无需任何训练即可实现高质量的语音克隆，并支持实时转换。用户只需提供一段1~30秒的参考语音，即可将源语音转换为目标音色。项目还支持在自定义数据上进行微调，以进一步提高特定说话者的语音相似度。它适用于配音、翻唱、视频二创等需求，并提供了命令行和 Web UI 两种使用方式。

AgentRecSys开源项目 – LLM在推荐系统中的应用研究

AgentRecSys是一个专注于基于大型语言模型（LLM）的智能体（Agent）在推荐系统（RecSys）中的应用的前沿研究项目。该项目汇集了超过30篇最新学术论文，涵盖LLM在推荐系统中的多种创新应用，提供了详细的模型分类和研究方向，帮助研究者快速定位。部分模型附带开源代码，便于实践和复现。

Self-supervised Video Object Segmentation开源项目 – 自监督视频对象分割

该项目专注于自监督学习在视频对象分割中的应用，由复旦大学、牛津大学和西弗吉尼亚大学的研究人员共同开发。旨在通过自监督学习技术，结合半监督学习方法，提高视频对象分割的准确性，特别是在标注数据有限的情况下，能够在复杂视频场景中实现高质量的分割。项目开源，并在GitHub上提供，供社区使用和贡献。

SLABIM开源项目 – 结合SLAM与BIM的开源数据集

SLABIM是一个开源的SLAM数据集，结合了建筑信息建模（BIM），适用于室内环境中的机器人定位和地图绘制。该数据集为SLAM算法的训练和测试提供了全面的支持，能够适应多种室内环境，促进强大的机器人定位和地图绘制解决方案的开发。

BrowserAI开源项目 – 隐私保护下的快速本地AI推理

BrowserAI 是一种在浏览器中运行本地AI模型的工具，无需依赖服务器，既保护用户隐私，又实现快速推理。

Awesome-System2-Reasoning-LLM开源项目 – 追踪LLM推理能力进展的开源仓库

这是一个公开的GitHub仓库，专注于收集和研究大型语言模型（LLM）在推理能力上的进展，特别是从快速直觉性思维（System 1）到缓慢、有理性的思维（System 2）的过渡。该仓库包含一份调查论文，探讨了推理LLM的发展、基础技术、基准数据集以及未来的发展方向。

Perplexica开源项目 – 一款基于AI的搜索引擎

Perplexica是一个由AI驱动的搜索引擎，是Perplexity AI的开源替代品，利用先进的机器学习算法理解用户查询，从网络中寻找答案，同时保护用户隐私。

Walle-Web开源项目 – 开源DevOps代码发布平台

Walle-Web是一款免费开源的DevOps平台，专注于代码自动化发布和管理。它支持多语言代码发布、回滚，集成Git作为版本控制，并提供多用户、多项目灵活配置。Walle-Web具有灰度发布功能、实时部署终端、丰富的通知机制以及代码检测与快速回滚等特点。

Auto-GPT开源项目 – 让AI自动生成和执行代码

Auto-GPT 是一个开源项目，旨在让 AI 实现自举，能够自主生成代码、自我运行、自我调试和自我优化。它使用户能够专注于核心创意，AI 则负责执行任务。

Chat Nova开源项目 – PDF交互的AI聊天机器人

Chat Nova利用Vercel的AI SDK、OpenAI和NextJS的强大功能，彻底改变您与PDF的互动方式。作为市场上最佳的NextJS AI聊天机器人，它是完全免费的开源项目，由行业专家创建和维护。

Awesome Self-Supervised Learning for Time Series (SSL4TS) – 时间序列自监督学习资源大全

这是一个专业整理的时间序列自监督学习（SSL4TS）资源列表，涵盖了相关论文、代码、数据集等。该项目旨在为研究者和开发者提供全面的资源支持，帮助他们深入了解和应用自监督学习技术在时间序列数据上的最新进展。

Bulifier开源项目 – 通过AI简化软件开发

Bulifier是一个创新的开源项目，旨在通过利用AI和引入基于要点的新中介语言来转变软件开发。它旨在弥合人类逻辑与AI生成代码之间的差距。

暂无评论

暂无评论...