YingSound官网 – 多模态音效生成大模型

YingSound 是一个由巨人网络AI实验室、西工大ASLP实验室和浙江大学联合研发的多模态音效生成大模型。它能够为无声视频生成音效，并实现音画同步，特别适用于产品级视频的少样本设置。该模型基于DiT的Flow-Matching框架和多模态思维链（Multi-modal CoT）控制模块，实现跨模态对齐和精准控制，支持多种高精细度音效生成，适用于游戏、动漫、现实世界和AI生成视频等多种场景。

YingSound的特点:

1. 强大的时间对齐能力
2. 视频语义理解能力
3. 支持多种高精细度音效生成
4. 适用于多种视频场景
5. 基于DiT的Flow-Matching框架
6. 多模态思维链（Multi-modal CoT）控制模块

YingSound的功能:

1. 为无声视频生成音效
2. 实现音画同步
3. 游戏视频音效生成
4. 动漫视频音效生成
5. 现实世界视频音效生成
6. AI生成视频音效生成

相关导航

Voicemod官网 – 实时语音变换和音效软件

Voicemod是一款创新的语音变换和音效软件，能实时修改用户的声音，适用于游戏、流媒体和语音聊天等多种场景，支持与多个流行平台兼容，带来丰富的声音效果和音频修改功能，十分适合休闲和专业用途。

Vertate官网 – AI驱动的音乐素材平台

Vertate是一个提供无限访问独特声音、循环和样本的AI平台，专为音乐制作人和内容创作者设计。

Stable Audio官网 – 生成音乐与音效的AI工具

Stable Audio是由Stability AI开发的生成性AI工具，用户可以通过文本提示和持续时间生成高质量的音频，采样率为44.1 kHz立体声。

GenSFX官网 – 免费的AI音效生成器

GenSFX是一个免费的AI音效生成器，可以将文本描述即时转换为高质量的音效，专为内容创作者、游戏开发者及需要定制音效的用户设计。

Optimizer AI官网 – 高质量音效生成工具

Optimizer AI 是一款专为创作者、游戏开发者、艺术家和视频制作人设计的革命性工具，利用先进的AI算法生成高质量、可定制的音效，简化沉浸式音频环境的创作。

Action2Sound官网 – 为视频生成环境音效的AI模型

为了解决AI生成的视频缺少音效的问题，Action2Sound提供了一种环境感知动作声音生成的模型，能够根据视频内容生成相应的音效，极大提升了视频的表现力和观看体验。

Transvribe官网 – AI视频转录与搜索工具

Transvribe是一个利用AI嵌入技术进行视频转录的网站，用户可以搜索任意视频中的内容。

AI Notebook App官网 – 强大的多媒体笔记应用

AI Notebook App 是一款能够在手机上无缝组织文本、图像、音频和 YouTube 视频的强大笔记应用，提供便捷的问答功能，并可生成讲座的转录和 AI 摘要，专门用于 YouTube 视频、PDF 和文章的摘要。用户能够保存关键见解，并通过学习指南、测验和抽认卡进行复习，构建自己的 AI 驱动笔记库。

aitoolbox官网 – 解锁创意的终极AI创作平台

aitoolbox是一个多功能的AI创作平台，用户可以生成各种AI内容，包括文章、博客、广告文案以及将文本转换为语音。只需选择工具，提供主题细节，便可创建独特的AI内容，充分发挥创造力。

Galaxy Kids官网 – AI助力儿童英语学习

Galaxy Kids是一个创新的AI工具，专为8岁以下儿童设计，通过与虚拟AI辅导员进行1对1互动，帮助孩子们有效掌握英语。该平台结合了游戏化学习体验，使学习不仅富有教育意义，而且充满乐趣。

Angel Pooch官网 – 复活逝去爱犬的数字存在

Angel Pooch是一个利用AI技术复活和重建已故狗狗数字形象的网站，为宠物主人提供一个平台，以保存他们心爱宠物的记忆，并与其AI版本互动。用户只需创建账户，上传已故狗狗的相关信息和媒体文件，AI算法将分析数据以数字化重现狗狗的个性和外貌，用户可通过网站或专用移动应用与AI宠物互动。

Vana官网 – 利用数据和AI创造迷你自我

Vana允许用户利用自己的数据和AI技术创建一个迷你的虚拟自我。用户可以克隆自己的声音、生成自拍，并了解他们的数据所传达的信息。Vana还支持将虚拟自我应用于个性化游戏、模拟体验和AI助手工具。

商汤日日新（SenseNova）官网 – 大模型体系，支持多种智能应用

商汤日日新（SenseNova）是商汤科技推出的大型人工智能模型体系，通过API接口支持多种智能应用，如自然语言处理、图片生成和自动化数据标注等。它特别适合企业客户，用于提升效率和创新，尤其在金融、医疗和营销等领域有广泛应用。

Retrieval-based-Voice-Conversion – 高效AI语音转换模型

RVC是一款高效的AI语音转换模型，能够学习目标人物的声音特征，并进行高质量的音色转换。它采用检索增强技术，使生成的语音更加接近真人，保留原有音色的细腻度与自然性。此外，RVC易于使用，基于VITS框架，支持多种声音风格转换，提供高质量的声音合成和用户友好的接口，同时具备较强的可扩展性，支持自定义模型。