无文本口语处理库

textlesslib开源项目 – 无文本口语处理库

textlesslib开源项目 – 无文本口语处理库

textlesslib是一个专为无文本口语处理设计的库，集成了多种先进的AI模型，提供高效的音频特征提取，支持多种语言的处理，且开放源代码，易于扩展。

AI模型集成开放源代码无文本口语处理库自定义模型训练

whisper.cpp开源项目 – 高质量的语音识别项目

whisper.cpp开源项目 – 高质量的语音识别项目

OpenAI的Whisper高质量语音识别模块C/C++移植版，支持在iOS和Android上运行，提供真人级别的识别效果，完全免费，具有开源、低内存和跨平台特性，适合资源受限环境。

低内存语音识别开源语音识别项目移动设备语音识别跨平台语音识别

XTTS开源项目 – 高质量的开源语音合成

XTTS开源项目 – 高质量的开源语音合成

XTTS 是一个开源文本到语音（TTS）项目，旨在提供高质量的语音合成，支持多种语言，适用于不同的应用场景，如语音助手和有声书制作。

开源文本到语音项目有声书制作语音助手高质量语音合成

Whisper API官网 – 强大的AI转录工具

Whisper API是一个强大的AI驱动的转录工具，利用OpenAI的Whisper模型，为音频文件提供准确可靠的转录服务。用户可以轻松地将Whisper的转录功能集成到他们的应用、服务或工作流程中。

AI转录工具Whisper API内容创作聊天机器人

DDSP开源项目 – SVC

DDSP开源项目 – SVC

本文介绍了一个名为DDSP-SVC 3.0的开源项目，它是一个可以替代低配SO-VITS-SVC的工具。使用该工具，可以用更低的显存和更短的时间训练出模型，生成AI音乐。尽管生成的音乐质量相对较低，但可以用于快速生成音乐。

AI其他工具AI开源项目

Qwen2-Audio开源项目 – 大规模音频语言模型

Qwen2-Audio开源项目 – 大规模音频语言模型

Qwen2-Audio是一个大规模音频语言模型，支持语音聊天和音频分析，能够处理各种音频信号输入并生成文本回应。

实时语音对话文本生成语音聊天音频信号处理

ChatTTS Me – AI text to speech-未来沟通的智能语音平台

ChatTTS Me 是一个将文本转化为自然流畅语音的平台，适用于聊天机器人和虚拟助手，提供优化和富有表现力的对话体验。

AI文本转语音平台个性化语音助手聊天机器人语音合成虚拟助手语音服务

Graph4NLP开源项目 – 简化图神经网络在NLP中的使用

Graph4NLP开源项目 – 简化图神经网络在NLP中的使用

Graph4NLP是一个库，旨在简化图神经网络在自然语言处理中的应用，支持多种任务和模型的灵活使用。

关系抽取图神经网络文本分类文本生成

Fish Audio Preprocessor开源项目 – 音频处理脚本合集

Fish Audio Preprocessor开源项目 – 音频处理脚本合集

Fish Audio Preprocessor 是一组用于音频处理的脚本，功能包括将视频/音频转换为wav格式、音频声音分离、自动音频切片、音频音量匹配、音频数据统计和音频重采样，旨在提升音频处理的效率和便捷性。

自动音频切片音频声音分离音频处理脚本音频数据统计

tinyllm开源项目 – 轻量框架，支持大规模语言模型

tinyllm开源项目 – 轻量框架，支持大规模语言模型

一个轻量框架，用于开发、调试和监控大规模大语言模型(LLM)和Agent驱动的应用。它提供了易用的工具，帮助开发者快速构建和优化语言模型应用。

Agent驱动应用大规模语言模型开发调试和监控工具轻量级框架

ChatGLM-6B-API-基于ChatGLM开源项目 – 6B的本地对话API

ChatGLM-6B-API-基于ChatGLM开源项目 – 6B的本地对话API

ChatGLM-6B-API是基于清华大学开源的对话语言模型ChatGLM-6B和FastAPI构建的API，能够在本地部署并提供API接口，方便用户进行对话生成和自然语言处理。

ChatGLM-6B文本生成本地对话API聊天机器人

pair开源项目

pair开源项目

PAIR是一款利用机器学习技术开发的AI驱动的编码辅助REPL工具。它将GPT-4与开发人员配对，通过交互式编程对话提高编程效率和准确性。PAIR是开源项目，为开发人员提供更高效、更智能的编程工具。

AI开源项目开源项目

Mamba-高效的硬件感知并行算法

Mamba是一种硬件感知的并行算法，旨在解决在语言处理任务中处理长序列时的低效问题。通过实现，Mamba实现了快速推理、线性可扩展性，并在性能上与更大的Transformer模型相媲美。

硬件感知并行算法语言处理长序列建模高效计算

Whisper Turbo官网 – 高效音频转录与翻译模型

Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型，基于 Large v3 模型的蒸馏，显著提高了运行速度和效率。该模型在保持高准确度的同时，提供了更佳的显存使用效率，适用于多种音频处理任务。

OpenAIWhisper Turbo机器学习应用音频翻译

LMOps开源项目 – 增强大型语言模型性能的框架

LMOps开源项目 – 增强大型语言模型性能的框架

LMOps是一个新的框架，用于训练并识别高质量的上下文示例，从而提升大型语言模型的性能。它通过评估候选例子的质量，促进上下文学习，能够有效处理未见过的任务，并对不同大小的LLM模型均有一致的性能提升。

LMOps框架上下文学习大型语言模型性能提升自然语言处理

Retrieval-based-Voice-Conversion – 高效AI语音转换模型

Retrieval-based-Voice-Conversion – 高效AI语音转换模型

RVC是一款高效的AI语音转换模型，能够学习目标人物的声音特征，并进行高质量的音色转换。它采用检索增强技术，使生成的语音更加接近真人，保留原有音色的细腻度与自然性。此外，RVC易于使用，基于VITS框架，支持多种声音风格转换，提供高质量的声音合成和用户友好的接口，同时具备较强的可扩展性，支持自定义模型。

可扩展性声音转换框架用户友好的接口预训练模型

iZotope RX官网 – 先进的音频修复与增强软件

iZotope RX是一款为音乐制作、后期制作和内容创作专业人士设计的音频修复和增强软件，提供全面的选项来处理从小型音频问题到复杂的声音恢复任务，利用先进的机器学习技术精准而轻松地解决噪声、点击声和不必要的混响等常见音频问题。

对话清晰度提升机器学习音频处理现场录音清理音频修复软件

AVbeam官网 – 音频文件匹配工具

AVbeam 是一款音频文件比较工具，能够识别匹配的音频片段。用户可以将多个源音频文件与多个目标音频文件进行比较，AVbeam 会报告所有匹配的音频片段。

音频匹配工具音频文件比较工具音频相似性识别

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3