NExT-GPT 是一个支持多种输入和输出形式的多模态大语言模型,具有灵活的处理能力,可广泛应用于文本、语音、图像和视频等多种场景。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
来自艾伦人工智能研究所(Allen Institute for AI)的新模型Unified-IO 2,能够处理图像和语言的多模态模型之一。
Awesome_Multimodal是一个精心策划的GitHub项目,提供关于多模态大语言模型(MLLM)的全面资源集合。
该项目是对多模态大语言模型的全面调查,涵盖最新进展、模型比较和评估以及多种应用场景,信息更新频繁,确保时效性。
Linly-Talker是一个结合大型语言模型与视觉模型的数字人对话系统,通过集成多种先进技术,如Whisper、Linly、微软语音服务和SadTalker生成系统,创造全新的用户与AI助手的互动体验。该系统允许用户通过图像与AI进行对话,并支持自由对话和内容生成,极大地提升了人机交互的灵活性和趣味性。
ImgInsight是一个平台,用户可以发现图像中的隐含含义。它提供多种风格,包括励志、幽默、爱情、成功、哲学、文学和商业,帮助用户找到与他们的情绪和风格完美匹配的内容。用户只需将图像拖放到平台上或点击选择,然后选择与所需信息相符的风格,ImgInsight将生成简洁的图片说明。用户还可以浏览其他用户的作品以获取灵感,或分享自己的创作。
Grok-1是xAI推出的开源大语言模型,拥有3140亿参数,适用于NLP任务,并提供JAX示例代码,便于加载、运行和微调。
AI实时变声工具
Voxel51是一款前沿的AI工具,专注于视频理解技术,通过强大的AI算法实时提取视频流中的有意义见解,适用于安全、市场营销等多种应用场景。
Loudly是一个领先的AI音乐平台,帮助创作者快速创建、定制和发现音乐,拥有超过10万首免版权音轨和循环音效,支持数字项目的音乐生成。
FAQx是一个基于AI算法的性能营销SaaS平台,通过分析广告创意和活动数据,提供即时洞察和优化建议,帮助各行业的企业提升数字广告表现。该平台由市场营销专家构建,连接创意、分析和媒体购买,助力企业做出数据驱动的决策。