VCoder是一个多功能视觉编码器,旨在提升多模态大语言模型的感知能力,支持图像推理和生成任务,能够识别和计算图像中的物体,同时提供分割和深度图等感知模式,并利用COCO数据集进行训练和评估。
一种在文本到图像合成中实现语义绑定的方法,无需进行训练。
Nexa SDK是一款全面支持ONNX和GGML模型的工具包,具备文本生成、图像生成、视觉-语言模型(VLM)、自动语音识别(ASR)和文本到语音(TTS)功能,提供OpenAI兼容的API服务器,支持JSON模式调用函数和流媒体,配备用户友好的Streamlit UI,方便开发者使用和集成。
来自艾伦人工智能研究所(Allen Institute for AI)的新模型Unified-IO 2,能够处理图像和语言的多模态模型之一。
Vid2txt是在MacOS和Windows上转录视频(和音频)最简单的应用程序。
Vadoo AI 是一个人工智能驱动的平台,旨在简化视频创作和编辑过程,特别是针对社交媒体平台(如Instagram、TikTok和YouTube)上的短视频内容。用户可以通过文本提示生成视频,添加字幕,定制90多种语言的配音,并自动将长视频剪切成短片段。
Clipwing 是一个超级简单的视频编辑器,能够将长视频剪辑成短片,添加字幕,并调整视频大小,以便适应不同社交媒体平台的分发需求。
Google Cloud Speech to Text 利用先进的AI技术,将口语转换为书面文本,支持125种语言,适用于个人和专业人士,提供无缝的语音转录服务,可集成到各种应用中。