包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例
Latte是一种新的潜扩散Transformer模型,用于视频生成,能够从输入视频中提取时空token,并通过Transformer块建模潜空间中的视频分布。该模型在多个标准视频生成数据集上取得了最先进的性能,支持文本到视频生成任务,适用于多种复杂的时空视频生成需求。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
AI to Data 是一个由人工智能驱动的数据生成器,允许用户为任何用例生成真实数据。它采用先进的AI技术生成可靠和安全的数据。用户只需注册或登录平台,提供自然语言查询以指定所需数据类型和行数,系统将生成请求的数据,用户可以以CSV文件格式下载。
该项目提供了计算机视觉、自然语言处理和机器学习运维领域的丰富学习材料,适合各级学生使用。
基于Video-LLaVA的视频理解模型,针对CinePile基准测试优化,显著提升了对主题探索、叙事分析、角色关系等高层次理解能力,性能接近Claude 3,在视频内容理解方面取得了显著进展
Raspberry是一个旨在为微调具有推理能力的LLM创建开源玩具数据集的项目,特色在于通过合成复杂用户查询和自我批评数据来提升模型的推理能力。
TemporalBench是一个专门用于评估多模态视频模型在细节时间动态和动作理解能力方面的基准测试工具,包含约10K视频问答对,这些问答对源自2K高质量的人工注释视频字幕。
Open-Sora-Plan 是由北京大学YuanGroup团队与北大-兔展AIGC联合实验室共同发起的项目,旨在复现OpenAI的Sora模型。该项目结合了视频VQ-VAE、Denoising Diffusion Transformer等技术,支持可变长宽比、分辨率和持续时间的视频生成。项目还提供了高质量的数据清洗策略、提示精炼器等功能,以增强对联合时空特征的捕获,并应用于创意短片生成、学术研究等领域。
Awesome Deep Graph Clustering 是一套最新的深度图聚类方法的集合,包括论文、代码和数据集。
GeneOH Diffusion旨在通过去噪扩散技术实现通用的手物交互去噪,提升图像质量。
MiraData是一个高质量的视频数据集,在视频时长、字幕细节、运动强度和视觉质量方面超越了以前的数据集。
GIMM-VFI是一种新的视频插值方法,它使用运动建模来预测帧之间的运动。该方法通过有效建模真实世界视频中的时空动态,能够生成更高质量的运动视频,并且可以与现有的基于流的VFI工作集成。
I2VGen-XL是一个基于输入图像生成高清视频的模型,由阿里云达摩院研发,具有良好的泛化性和优越的生成效果。
Mira (Mini-Sora) 是腾讯 PCG ARC 实验室推出的一个高质量长视频生成项目,旨在迈向类似 Sora 的视频生成技术。
Make CustomGPT是一个平台,旨在帮助用户轻松发现、比较和部署自定义的GPT模型。通过该平台,用户可以释放人工智能的潜力,找到最适合其项目的语言模型,并轻松进行定制,使AI更好地为他们服务。
Flawless AI 是一款领先的生成性AI工具,专为电影制作、内容创作和数字艺术设计,自动化视频后期制作的复杂过程,提升视频质量,让每一帧都能以最佳状态呈现。
Functime是一个用于大规模数据集时间序列机器学习的Python库,支持高效的数据处理和多种预测算法,帮助用户进行灵活的模型选择和评估。