SimVG是一个旨在通过解耦的多模态融合技术实现视觉定位的简单框架。该项目支持与视觉语言模型集成,增强视觉定位任务的能力。
一款自由、开放且无审查的图像描述视觉语言模型,专为社区训练扩散模型而设计,支持多样化的图像风格和内容。
集成了多模态动作模型的智能系统,通过思维链和前瞻性空间推理来执行具体动作,让机器人更智能地理解和完成任务
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程
SaltAI_Language_Toolkit是ComfyUI平台的增强型语言处理工具,集成了检索增强生成(RAG)工具Llama-Index、微软AutoGen和LlaVA-Next,旨在提升平台的功能和用户体验,提供更高效的语言处理能力。
一种在文本到图像合成中实现语义绑定的方法,无需进行训练。