电影镜头分类器是一个利用微软Florence-2模型进行微调的计算机视觉项目,专门针对ShotDEAD-v0数据集优化,用于高效分类电影镜头类型。 该项目提供完整的训练和推理代码,支持镜头尺度(如特写、中景)和镜头运动(如推拉、摇移)等分类任务,适用于电影分析和视频内容处理领域。 由于采用Florence-2的序列到序列架构,模型在零样本和微调场景下均表现优异,但项目当前未公开URL和数据集详细信息。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
SegViT是一个基于纯视觉变换器的语义分割项目,旨在提高图像分割任务的效率和性能。它能够处理多种图像分割任务,适应不同的应用场景,为研究人员和开发者提供了强大的工具。
这是一个为机器学习、人工智能和数据科学从业者整理的重要GitHub仓库集合,涵盖了多个主题和技术,提供丰富的资源链接。
Lightning AI是一个使用PyTorch训练、部署和构建AI模型的平台,以其超快的性能而闻名。它由PyTorch Lightning的创作者开发,提供用户友好的界面来管理训练过程和监控模型性能,适用于计算机视觉、自然语言处理、推荐系统和强化学习等多个领域。
LLaVA-CoT是第一个能够进行自发、系统推理的视觉语言模型,类似于GPT-01,具有强大的多模式处理能力。该模型通过11B参数的强大架构,支持复杂的视觉语言任务,并在多模式基准测试中表现优于多个现有模型。
Rag About It是一个专注于AI检索增强生成(RAG)动态世界的首要平台,致力于传播RAG系统的技术知识和最新进展。
AIToolsly是一个免费的AI工具目录网站,列出了超过10,000个AI工具和服务,旨在帮助用户轻松找到所需的AI资源。用户还可以提交自己的AI工具,丰富平台内容。
ForIT.AI是一个全面的AI工具目录,涵盖715种AI工具,旨在帮助开发者、研究人员和商业专业人士发现适合他们特定需求的AI工具。
MLCode是一个先进的AI工具,旨在增强AI和机器学习生态系统中的数据安全。其旗舰产品HexaKube为各种环境中的关键数据提供强有力的保护,包括云、内部部署和混合系统。MLCode非常适合那些重视在数据生命周期内(无论是静态还是动态)保护数据的企业,尤其是在AI和机器学习技术的日益普及背景下。
该项目旨在理解词嵌入,由达姆施塔特工业大学和莫斯科国立大学的研究人员开发。
awesome-demos是一个集成了多个有趣的Gradio演示项目,旨在为开发者提供灵感和学习资源,覆盖多个机器学习领域的应用,方便开发者了解和实现新功能。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型