LLaMA-VID开源项目 – 多模态模型，理解长视频

LLaMA-VID 是一个用于理解长视频的多模态大模型，通过双令牌策略显著减少了长视频的过载，同时保留了关键信息。
LLaMA-VID的特点:
1. 双令牌策略：上下文标记和内容标记的结合
2. 能够理解三个小时的长视频
3. 减少计算容量溢出的问题
4. 保留视频中的关键信息

LLaMA-VID的功能:
1. 对长视频进行宏观内容理解
2. 用于视频内容分析和处理
3. 可以在 Hugging Face 下载并本地使用

相关导航

AnyClip, The Genius Platform官网 – AI驱动的视频管理平台

AnyClip是一个利用视觉智能技术将传统视频转变为高性能资产的AI视频管理平台。它提供了一个SaaS平台，用于视频管理、分发、分析和货币化，用户可以上传视频并利用AI工具进行增强和优化。

aiPDF官网 – 智能文档助手，快速提取信息

aiPDF 是一个智能助手，能够扫描、理解并与所有文档进行对话。它能够在几秒钟内总结大量文档，并找到您需要的任何信息，支持任何文件类型、网页文章，甚至YouTube视频。

TransPixar开源项目 – 生成透明背景视频的大模型

TransPixar 是一个可以生成透明背景视频的大模型，能够生成一个 RGB 视频和一个 Alpha 通道视频，便于在使用蒙版时任意叠加背景。

Outspeed官网 – 构建低延迟AI应用的工具

Outspeed 提供了构建低延迟AI应用所需的工具和基础设施，支持在视频、音频或传感器数据等流数据之上进行开发。加入我们，开始构建吧！

HiChatbot.ai官网 – 智能聊天机器人，解答您的文档相关问题

HiChatbot是一个基于AI的聊天机器人，可以回答您关于文档、文本、网页或视频文本的提问。只需上传文档、文本，或提供网页链接和视频链接，HiChatbot就能通过聊天界面与您进行问答对话。

Video Analyzer开源项目 – 视频内容分析工具

视频内容分析工具，通过结合Llama3.2视觉模型和OpenAI的Whisper模型，本地生成视频描述，提供全面的视频分析解决方案。

Chat-Ext开源项目 – AI 聊天交互的开源扩展

Chat-Ext 是一个开源的 Chrome 扩展程序，允许用户通过 Hugging Face 模型与网页内容进行 AI 聊天交互，同时支持本地 LLM 服务器，为用户提供智能辅助和实时互动体验。

Topmediai官网 – 高效的AI工具，专为视频创作者设计

TopMediai致力于提供简单高效的AI工具，旨在节省视频创作者的时间和精力，帮助他们更轻松地制作和编辑视频。该平台还在不断开发更多的AI工具，提升用户体验。

AI快站官网 – 提供模型下载加速服务

AI快站提供HuggingFace模型的镜像加速服务，解决下载速度缓慢、连接频繁断开等问题。拥有丰富的模型资源，支持断点续传，最高下载速度可达4M/s。

commavq开源项目 – 用于机器学习的视频数据集

包含10万个压缩驾驶视频的数据集，用于机器学习研究，可用于GPT视频预测模型的实验，还包含编码器/解码器和视频预测模型示例

BasicAI Cloud官网 – AI驱动的数据标注解决方案

BasicAI Cloud是一个提供AI驱动的训练数据解决方案的平台，专注于数据标注服务，连接AI工程师与标注专家，提升AI和机器学习模型的准确性。该平台拥有超过7年的经验，提供自动标注、对象跟踪和可扩展标签管理等功能。

Pyttipanna官网 – 基于机器学习的视频创作平台

Pyttipanna是一个为Pytti 5提供接口的框架，旨在利用机器学习模型创建和渲染视频。用户可以通过结构化、叙述和实验化视频创作的提示来实现自己的创意。

MPS-Net开源项目 – 单目视频中的人类动态捕捉

MPS-Net是一个用于从单目视频中捕捉人类运动的模型，专注于时间注意的3D人体姿势和形状估计。该项目通过先进的算法，能够准确地捕捉到人类在运动中的动态变化，为动作分析和交互式应用提供了强有力的支持。

AutoSeg-SAM2开源项目 – 全自动视频分割工具

AutoSeg-SAM2是一个基于SAM2/SAM1的自动视频分割工具，能够全自动处理视频，追踪视频中的对象并检测出新对象，适用于视频内容分析和物体追踪等多种场景。

Apollo开源项目 – 视频理解的多模态模型

Apollo是一个专为视频理解设计的一系列大型多模态模型，能处理视频语言任务，包括长视频理解、时间推理和多轮视频对话，具有高效扩展性和优异的性能表现。

随机搞笑表情包生成器开源项目 – AI生成搞笑表情包

一个利用AI生成随机搞笑表情包的工具，通过整合笑话和图像生成技术来提供娱乐。支持在smolagents框架内调用其他LLM工具，并具备将文本转为Markdown的功能。

LlamaV-o1开源项目 – 大型多模态模型，支持自发推理

LlamaV-o1是一个大型多模态模型，能够进行自发推理。在VCR-Bench基准测试中表现优异，超越了多个知名模型，如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展，使用Beam Search提升效率，特别适合复杂的多步视觉推理任务，具备高准确性和高效率。

Pixtral-12B-2409模型 – 多模态图像文本处理模型

Pixtral-12B-2409 是 Mistral AI 开发的多模态模型，拥有12亿参数的解码器和4亿参数的视觉编码器，能够同时处理文本和图像。它支持128k长上下文，具备图像理解能力如OCR和视觉问答，支持中/英/日/韩等24种语言，满足全球化需求。该模型在多模态任务中表现优异，尤其在文档问答（DocVQA）和视觉问答（VQAv2）上领先，且可以在单张RTX 4090上运行，许可证为Apache 2.0。

Pixel Aligned Language Models (PixelLLM)官网 – 像素级图像理解与定位模型

PixelLLM 是一个基于大型多模态模型（LMM）的研究项目，专注于像素级的图像理解和定位任务。它能够为图像中特定位置提供详细描述，并准确定位这些位置。该项目由 Google Research 和 UC San Diego 的研究人员合作开发，旨在探索大型语言模型如何从视觉输入中获得空间理解和推理能力。PixelLLM 在 RefCOCO 和 Visual Genome 数据集上达到了最先进的性能，特别是在引用定位和密集对象字幕任务中表现出色。

YouTube Transcripts Machine (YTM)官网 – 一键提取YouTube视频字幕

YouTube Transcripts Machine (YTM) 是一个专注于从 YouTube 视频中提取字幕和时间戳的 web 应用程序，旨在提升用户体验。通过自动化技术解决了提取字幕的效率问题，特别适合需要快速获取视频内容的用户。项目基于 Stagehand 和 BrowserBase 进行浏览器自动化，呈现一个干净、用户友好的界面，带有交互式时间戳，方便用户快速定位视频内容。此外，项目支持 OpenAI 的 GPT 模型，并可通过 stagehand.config.ts 配置 Anthropic Claude，增加了 AI 处理能力。

OLMo开源项目 – AI2的开放语言模型

OLMo是一个由科学家设计的开源语言模型仓库，旨在训练和使用AI2最先进的开放语言模型。它采用两阶段训练程序，第一阶段在大约4T令牌的网络语料库上训练，第二阶段在约50-100B令牌的高质量目标语料库上微调。OLMo已用于各种自然语言处理任务，包括文本生成、问答和翻译。

Kimi-VL开源项目 – 高效开源多模态视觉语言模型

Kimi-VL是MoonshotAI开发的开源专家混合(MoE)架构视觉语言模型，仅激活2.8B参数即可实现高级多模态推理能力。该模型具有128K超长上下文处理窗口，配备原生分辨率视觉编码器MoonViT，在长视频理解(64.5@LongVideoBench)、文档解析(35.1@MMLongBench-Doc)、高精度OCR(83.2@InfoVQA)等任务表现优异。提供标准版(Kimi-VL-A3B-Instruct)和强化思维链推理版(Kimi-VL-A3B-Thinking)两个变体，后者在数学推理(61.7@MMMU)和复杂视觉问题求解(71.3@MathVista)方面达到70B参数模型的水平。

Hugging Face + Visual Blocks 自定义组件开源项目 – 无代码环境下的机器学习节点

一个自定义 Hugging Face 节点的开源项目，用于 Google Visual Blocks for ML，允许用户在无代码图形编辑器中创建机器学习管道，支持多种机器学习功能并与Hugging Face Serverless API集成。