Cosmos-Transfer1是NVIDIA Cosmos世界基础模型系列中的一员,专注于通过多模态输入生成高度可控的虚拟世界,主要用于机器人和自动驾驶车辆的Sim2Real(从模拟到现实)训练。该模型支持多种输入模式如分割图、深度图、LiDAR扫描等,并具备自适应空间控制和4K视频上采样功能,参数规模为7B,适配80GB H100硬件。
NVIDIA Isaac GR00T N1是全球首个开源的通用人形机器人推理与技能基础模型,支持多模态输入(语言/图像),基于大规模真实数据、合成数据和互联网视频训练,可适配不同机器人形态和任务。专为工业场景设计(如抓取/物品转移),实测任务成功率高达76.8%,提供便捷微调工具降低开发门槛。
Veo 2是谷歌DeepMind开发的最先进视频生成模型,能够根据文本、图像或视频提示生成高质量、逼真的视频。它支持高达4K分辨率,提供多种电影和视觉风格,特别适合广告、营销、娱乐和教育等领域。Veo 2具有增强的真实性和保真度,支持复杂的摄影指令,并能模拟真实世界的物理和人类动作。此外,它与谷歌云平台Vertex AI集成,便于开发者使用。
MLX-VLM 是一个专为在 Mac 上进行视觉语言模型(VLM)推理和微调而设计的 Python 包。它利用 MLX 框架,针对苹果芯片进行了优化,支持多种 VLM 模型,如 Qwen2-VL、Idefics 和 LLaVA 等。项目提供了多模态输入和微调能力,支持图像、视频和文本的组合输入,并提供了 LoRA 和 QLoRA 微调方法。
ChatWise是一款为任何大型语言模型(LLM)提供加速的AI聊天机器人工具。它能够完全离线运行(除需外部API的LLM外),支持多模态输入,包括文本、PDF、音频和图像,并提供了文本转语音功能,支持OpenAI和ElevenLabs。
一个能够直接在文件字节上进行训练和测试的模型,无需在推理时对文件进行解码。
Aider是一个AI结对编程工具,支持多种输入形式,包括图片和语音,能够自动提交代码并抓取网页内容,为开发者提供便捷的编程辅助。
Qwen-VL是一个支持多种模态输入的高性能项目,旨在提供图像理解和生成能力,并具备灵活的API接口,适合多种应用场景。
GPT-4V(ision)是微软分析带有图像识别功能的GPT-4的论文,探讨其在多模态输入方面的能力及应用场景。通过理解图像和文本的结合,GPT-4V能够在多个领域和任务中提供支持,推动人机交互的新方式。
Google Gemini Pro Chat Bot是一个基于Google Gemini Pro API实现的交互工具,允许用户通过输入文本和图像与Gemini进行对话。它支持多模态提示,使用户能够更加灵活地与AI进行交流。
Yaki是一款专为iOS平台开发的AI聊天客户端,采用OpenAI的GPT技术,旨在为用户提供智能、高效的聊天体验,支持多种对话场景和个性化交流。
这个开源项目的功能是支持中文版的 Visual Chatgpt,使用了机器学习的技术。
Just Think AI是一个综合性的人工智能工具包,旨在为教育工作者和企业家提供多种功能,包括AI聊天、文本转语音、艺术生成和视频制作。用户可以与AI进行自然对话,轻松将文本转换为有声书,创造引人注目的视觉效果,以及生成AI驱动的视频。
TXTGPT是一个平台,允许用户与个性化的AI聊天伴侣进行文本对话,用户可以根据自己的喜好定制AI的性别、年龄、个性等。无须下载应用,随时随地开始交流。
TurnHerToAI是一个创新的平台,允许用户将他们喜爱的社交媒体影响者转化为可以随时通过文本或图像互动的人工智能。用户可以与这些AI进行24/7的对话,体验个性化的互动,感受与影响者的亲密联系。
Linly-Talker是一个结合大型语言模型与视觉模型的数字人对话系统,通过集成多种先进技术,如Whisper、Linly、微软语音服务和SadTalker生成系统,创造全新的用户与AI助手的互动体验。该系统允许用户通过图像与AI进行对话,并支持自由对话和内容生成,极大地提升了人机交互的灵活性和趣味性。
ImgChatIO 是一款基于OCR和AI的聊天应用,能够从图像中提取文本并与AI助手进行对话。用户只需上传包含文本的图像,应用便会提取文本,并允许用户与AI助手进行对话。
专为Mac用户设计的聊天界面,利用开源语言模型,将先进的AI对话功能带到您的桌面,提供无缝且直观的体验