InternVL 是由 OpenGVLab 团队开发的开源多模态大模型,旨在提供接近 GPT-4V 和 Gemini Pro 等商业模型性能的替代方案。它支持多种模态任务,包括图像理解、文本生成、跨模态检索等,并且在多个基准测试中表现出色。InternVL 系列模型参数覆盖从 1B 到 78B,适用于各种规模和复杂度的任务。
Podcastfy 是一个开源 Python 工具,能够将多模态内容(如文本、图片、网页、PDF、YouTube 视频等)转换为引人入胜的多语言音频对话。它利用生成式 AI 技术,支持从多种来源生成定制化的播客内容,适用于内容创作、教育、研究等多个领域。
RapBank 是首个用于说唱生成的数据集,包含从 YouTube 收集的说唱歌曲,并提供了精心设计的数据处理流程。数据集包含 92,371 首歌曲,涵盖 84 种语言,总时长 5,586 小时。数据集结构包括视频 ID、标题、播放列表信息等,用户可通过提供的流程进行数据处理。
Robo Blogger 是一款专为写作设计的智能工具,能够将语音内容自动转化为结构化的专业博客文章。它通过语音捕捉、结构化规划和自动化写作三个步骤,帮助用户将碎片时间的灵感转化为高质量的博客内容。工具支持引用参考资料和定制文章结构,适用于技术博客、生活随笔、碎片时间写作和专业内容创作等多种场景。
MeloTTS 是由 MIT 和 MyShell.ai 开发的高质量多语言文本转语音(TTS)库,支持多种语言和口音,包括英语、西班牙语、法语、中文、日语和韩语。它通过优化的算法和模型,提供清晰自然的语音合成体验,支持中英混合发音、实时 CPU 推理,并且易于安装和使用。
Monoise P-G2 AI 耳机是由深圳品牌 Monoise 推出的一款集成先进AI技术的耳机,支持实时语言翻译、AI辅助内容创作和自适应音频增强。该耳机在 Kickstarter 上众筹,目标金额为 2,000 美元,目前已筹集近 20,000 美元,显示出强劲的市场需求。耳机适合专业人士、内容创作者和全球旅行者,提供跨语言交流和高效生产力支持。
Futurepedia 是一个专注于AI工具和资源的平台,旨在支持各行业专业人士利用AI技术进行创新和发展。平台提供超过2318个AI工具,分为10个类别,包括创作者和生产力工具等。此外,它还提供易于遵循的实施指南、每周新闻简报和丰富的YouTube频道内容,帮助用户了解和应用AI技术。社区规模超过20万专业人士,致力于让AI易于理解和实用。
AI工具集是一个专注于收集和整理AI工具的导航平台,提供详细的分类和定期更新。平台将AI工具按类型(如AI办公、AI图像)进行分类,并进一步按使用场景分级,便于用户快速检索和查找。工具和信息更新及时,确保用户获取最新资源。
ModelScopeGPT 是由 Alibaba DAMO 研究院开发的智能助手,支持诗歌、绘画、视频生成和语音播放等多模态功能。它集成了知识库搜索引擎,特别适用于 ModelScope 社区,帮助用户解答模型使用和相关知识的问题。该助手连接了超过 1000 个公共 AI 模型,支持多轮对话和 API 调用,展现出强大的扩展能力。
TTSOnline 是一个免费的文字转语音平台,支持多种语言,提供超过160种语音选择。用户可以在线将文本和电子书内容转换为语音输出,无需下载任何软件。该平台特别适合需要快速转换文本为语音的场景,尤其面向中国用户。
QQ Helper 是由 QQ Browser 开发的免费在线工具箱,集成了 140 多个小工具,涵盖图像处理、PDF 转换、生活娱乐、教育、文本工具、文档转换、开发工具和视频工具等多个领域。部分工具使用 AI 技术,如证件照生成、图片修复、文本转语音等,提供简单快捷的解决方案。所有工具集成在一个平台上,避免了在第三方站点间跳转的麻烦,并且完全免费使用。
360 AI 导航是由 360 公司推出的综合性 AI 资源导航网站,汇集了各类 AI 工具、教程和资源,涵盖 15 大类,如智能对话、写作助手和绘画平台。该平台旨在为用户提供便捷的 AI 资源访问,帮助用户快速找到适合的 AI 工具和内容,适合 AI 初学者、专业开发者以及对 AI 感兴趣的用户。
CAM++ 是 FunClip 集成的语音识别模型,专注于中文语音识别,适用于 16k 采样率的通用场景。它能够自动识别说话者 ID,并用于剪辑特定说话者的段落。该模型具有高效、准确、轻量化的特点,适合实时应用和资源受限的环境。
SeACo-Paraformer 是一个非自回归的自动语音识别(ASR)系统,专门为中文语音识别设计,集成了热词定制功能,能够显著提升特定实体词(如人名、地名)的识别效果。该系统结合了注意力编码器-解码器(AED)模型的准确性和非自回归(NAR)模型的高效性,适用于工业级大数据场景。通过 FunASR 工具包,用户可以轻松部署该模型,并利用其热词定制功能优化语音识别结果。
Paraformer-Large 是由阿里巴巴开发的开源工业级自动语音识别(ASR)模型,专注于中文语音识别任务。该模型在Modelscope上的下载量超过1.436亿次,显示出其在开发者和研究者中的广泛受欢迎。Paraformer-Large 采用非自回归端到端语音识别技术,支持并行推理,特别适合GPU使用,能够高效处理大规模语音数据。模型训练于6万小时的普通话数据集,确保其在中文语音识别任务中的鲁棒性和准确性。
MemoAI 是一款完全本地运行的 AI 音视频转录工具,支持将 YouTube、播客和本地音视频文件转为文本、字幕,并提供翻译和语音合成功能。它适用于 macOS 和 Windows 系统,特别适合学习或内容创作者。
通义听悟是阿里云推出的一款AI音视频转录工具,专注于工作和学习中的音视频内容处理。它基于通义千问语言模型和音视频AI模型能力,帮助用户记录、整理和分析音视频内容。该工具支持实时转录、内容总结、多语言翻译等功能,特别适用于会议记录、讲座转写、论文辅助阅读等场景。
Tiangong AI 是一个完全免费的国产 AI 大模型,集成了多种功能,支持 AI 搜索、写作、视频转绘、语音合成、图片生成、漫画创作、图片识别、音乐生成、代码写作和表格生成等。该项目特别适合帮助学生和家长了解高考志愿填报的相关信息,如学校录取分数线、专业设置和就业前景,并提供一站式解决方案。用户可以通过网页端、安卓端和 iOS 端使用,访问方式包括网页、手机应用或小程序。
豆包AI(Beanbag AI)是字节跳动开发的AI聊天助手,专为中国市场设计,拥有数百万月活跃用户。它提供多模态处理能力(文本、图像、音频),并即将推出文本到视频功能。用户可以通过网页版或浏览器扩展使用,支持内容生成、总结、翻译、英语学习等功能,具有高度可定制的用户体验。
魔音是一款AI驱动的文本转语音工具,支持多种语言和语音风格,集成了云剪辑、视频字幕同步和内容创作辅助功能,适用于视频配音、教育内容、广告语音等多个领域。
TextToSpeech 是一个完全免费的在线 AI 文本转语音工具,利用人工智能将文本转换为自然声音的语音。它支持多种语言和语音风格,适用于跨设备使用,且无版权限制。用户可以通过该工具生成高品质的 MP3 文件,并方便地下载使用。该服务特别适合需要音频内容的用户,如无障碍阅读、内容创作和教育等场景。
海螺AI是由MiniMax开发的AI平台,专注于通过AI技术生成视频和音乐。用户可以通过输入文本提示生成6秒高清视频,或基于歌词和风格生成音乐。平台界面友好,功能强大,适合内容创作者、教育者和企业使用。目前,这些功能限时免费,帮助用户快速创建高质量的多媒体内容。
豆包同声传译模型基于豆包大模型的语音理解能力,提供高质量、低延迟的端到端同声翻译服务。它支持跨语言同音色翻译,并能识别粤语、上海话等方言,适用于会议翻译、线上直播等实时场景。项目通过火山引擎控制台或API使用,功能包括实时语音翻译和语音克隆,帮助用户在跨语言交流中保持语音的自然性和一致性。
Doubao是由火山引擎(VolcEngine)开发的综合性AI模型家族,涵盖自然语言处理、视觉理解、语音合成、视频生成等多种AI任务。其模型在知识、代码、推理和中文等多个基准测试中表现优异,部分模型如Doubao-1.5-pro优于GPT4o和Claude 3.5 Sonnet,达到全球领先水平。Doubao模型广泛应用于ByteDance的产品,如剪映、即梦AI和醒图工具,覆盖智能座舱、在线教育、社会娱乐、智能客服等领域。
Open NotebookLM 是一个开源工具,灵感来源于 Google 的 NotebookLM,允许用户通过大型语言模型(LLM)和文本转语音(TTS)技术将 PDF 文档转换为引人入胜的播客对话。它提供了一个简单易用的平台,特别适合研究人员、开发者和内容创作者。用户可以通过 Gradio 界面上传 PDF 文件,系统会生成自然对话并转换为 MP3 音频文件。项目声称支持 13 种语言,但具体语言列表未明确。
OpenAI Realtime API 是一款专为开发者设计的实时语音交互API,支持低延迟、多模态体验,特别适用于语音到语音的实时对话。该API集成了大型语言模型如 GPT-4,支持文本和音频的输入输出,并通过WebSockets实现实时流媒体功能。它减少了传统方法中因使用多个模型而导致的延迟,保留了对话的自然情感和流畅性。
ChatGPT Pro是OpenAI提供的高级订阅服务,月费约为24美元,专为需要强大AI能力的用户设计。它提供无限制访问多种高级AI模型,包括o1、o1-mini、GPT-4o和Advanced Voice,并包含o1 pro模式,适用于需要深度计算资源的复杂问题。该服务在数学、科学和编码等领域表现优异,并支持多媒体生成和深度研究扩展。
doubao 是由 ByteDance 开发的一款 AI 聊天机器人,具备多模态处理能力,支持文本、图像和音频处理。特别擅长生成包含中文字符的图像,适合制作海报。目前免费供个人使用,但生成的图像不可用于商业用途。doubao 还提供情感支持、翻译服务和编程辅助等功能,满足用户多样化需求。
海螺 AI 是一款专注于文本转语音的 AI 工具,支持 17 种语言,包括中文、粤语、英语、日语、韩语、阿拉伯语和西班牙语等。该工具提供数百种预设音色,旨在将文本转化为自然、逼真的语音,适用于多语言环境下的各种需求。其特点包括音质稳定清晰、节奏自然、情感表达精准和高准确度,适合短句生成、语音聊天和在线社交等场景。目前限时免费使用,支持超长文本输入(最多 10,000 字符)和 API 调用。
FunASR 是一个旨在连接学术研究与工业应用的语音识别工具包。它支持工业级语音识别模型的训练与微调,帮助研究者和开发者更方便地进行语音识别模型的研究与生产,推动语音识别生态的发展。FunASR 提供了丰富的预训练模型和便捷的脚本与教程,支持推理和微调,涵盖语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人分离等多种功能。