CogVLM2-Video开源项目 – 智谱AI开源视频理解模型

CogVLM2-Video 是智谱AI开源的一种新的视频理解模型，旨在解决当前视频理解模型中时间信息丢失的问题，并在视频字幕生成和时间定位方面表现出色。该模型通过基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据，并在公共视频理解基准上达到了最新的性能。CogVLM2-Video 为视频生成和视频摘要等后续任务提供了强有力的工具。

CogVLM2-Video的特点:

1. 基于视觉模型的自动时间定位数据构建方法
2. 生成了 3 万条与时间相关的视频问答数据
3. 在公共视频理解基准上达到了最新的性能
4. 在视频字幕生成和时间定位方面表现出色
5. 为视频生成和视频摘要等后续任务提供了强有力的工具

CogVLM2-Video的功能:

1. 用于视频理解基准测试
2. 用于视频字幕生成
3. 用于时间定位
4. 用于视频生成
5. 用于视频摘要

相关导航

即梦官网

集成图片、视频、文本生成的一站式AI创作平台，通过先进算法与多模态功能，为用户提供高效智能的创意解决方案。

SmartEdit官网 – 自动智能编辑工具

SmartEdit是一款自动智能编辑工具，旨在通过提供轻松的潮流字幕、完美的动画和自动B-roll集成，来增加观看时间。用户只需上传视频，AI即可生成带有高亮关键词的潮流字幕，添加动画表情以提高互动性，并无缝集成完美匹配的剪辑，还可以在几次点击中将视频翻译成任何语言。

Awesome-Auto-Regressive-in-GenerativeAI开源项目 – 自回归生成式AI论文资源汇总

精心整理的自回归生成式AI论文列表，涵盖了从3D形状生成到视频生成等多个领域。该项目为研究人员和开发者提供了一个便捷的参考平台，帮助他们获取最新的研究进展和灵感。

Recos.官网 – 将音频内容转录为文本的网页应用

Recos是一个利用OpenAI的Whisper API将音频内容转录为文本的网页应用，提供稳定且可扩展的体验，确保您的内容绝对保密。用户只需登录网站并上传支持格式的音频文件（如MP3、WAV、M4A、FLAC），可以使用自己的OpenAI API密钥或登录以使用积分。每个积分允许生成1分钟的音频转录，转录完成后可下载文本输出。

God app开源项目 – 一个整合多种生成AI的应用

将图像生成、视频生成、音频生成和通用自然语言处理整合到一个界面中，只需一个提示，即可完成所有需求

Oniooo官网 – 一站式AI创作平台

Oniooo通过先进的AI工具，帮助用户创建令人惊叹的图像、视频、音乐等内容，简化创作流程。用户只需输入创意请求，Oniooo便能提供符合用户愿景的结果，体验未来的创意世界。

ChatGPT » Summarizeeverything!官网 – AI工具，快速总结网页和视频内容

ChatGPT是一款基于AI的工具，可以快速为任何网页或YouTube视频提供摘要，利用先进技术分析内容，并生成简明扼要的总结。

Humva官网 – 创新的数字化头像平台

Humva是一个用户友好的头像平台，旨在为B2B和B2C用户提供产品化解决方案，特别是在人才市场中类似于Fiverr或Upwork。该平台强调用户生成内容和可定制的头像，适用于多种应用场景，提供广泛的定制选项，只需一张照片即可实现简化体验。

SiliconCloud官网 – 高效、用户友好的AI模型云服务平台

SiliconCloud 是一个专注于AI模型服务的云平台，旨在帮助开发者轻松集成和使用各种AI能力。它支持多种AI模型，包括DeepSeek-V3和DeepSeek-R1，基于华为云的Ascend云服务，确保高性能计算。平台提供网页和移动端服务，定价实惠，春节期间有折扣。开发者可以零门槛部署，直接调用API使用。

Open-Sora-Plan开源项目 – 复现OpenAI Sora模型的视频生成项目

Open-Sora-Plan 是由北京大学YuanGroup团队与北大-兔展AIGC联合实验室共同发起的项目，旨在复现OpenAI的Sora模型。该项目结合了视频VQ-VAE、Denoising Diffusion Transformer等技术，支持可变长宽比、分辨率和持续时间的视频生成。项目还提供了高质量的数据清洗策略、提示精炼器等功能，以增强对联合时空特征的捕获，并应用于创意短片生成、学术研究等领域。

Art.ai官网 – 利用AI创作艺术的平台

Art.ai是一个利用人工智能创作艺术的平台，提供一个空间让艺术家表达创意，同时也让艺术爱好者能够访问AI生成的艺术作品。Art.ai将作为一个文本到图像、视频和声音创作的平台，打造一个所有创作的市场。

My AI Startup官网 – 快速启动你的AI项目

My AI Startup帮助你迅速启动AI创业项目，提供多种AI解决方案，助力开发出令人印象深刻的AI项目，帮助你快速在线盈利。

Doubao官网 – 火山引擎开发的AI模型家族

Doubao是由火山引擎（VolcEngine）开发的综合性AI模型家族，涵盖自然语言处理、视觉理解、语音合成、视频生成等多种AI任务。其模型在知识、代码、推理和中文等多个基准测试中表现优异，部分模型如Doubao-1.5-pro优于GPT4o和Claude 3.5 Sonnet，达到全球领先水平。Doubao模型广泛应用于ByteDance的产品，如剪映、即梦AI和醒图工具，覆盖智能座舱、在线教育、社会娱乐、智能客服等领域。