NVIDIA Cosmos Tokenizer 是一个高效的图像和视频神经 tokenizer 套件,它提高了视觉 tokenization 的状态艺术,并为大型自回归变换器(如 LLMs)或扩散生成器的可扩展、健壮和高效开发铺平了道路。
SVFR是一款视频人脸修复工具,能够让模糊、破损的视频人脸变得清晰、完整,同时支持黑白视频上色,修复视频中的划痕和污点,使老视频焕然一新。
IsItAI.com的API是一个强大的工具,使用先进的人工智能算法检测和分类图像,提供准确高效的图像识别,适用于内容审核、物体识别和视觉搜索等多种应用场景。
包含了从计算机视觉、自然语言处理到生物计算、气象预测等各个领域的模型,这些模型结合了幻方萤火超算集群的特点,使用并行训练、高效算子、高性能存储等方式,大幅提升原有模型的性能,节省训练时间。
Remini是一款利用创新技术将低质量视觉内容转化为惊人高清杰作的AI增强工具。它可以增强、去模糊、锐化、去噪声、恢复旧照片、放大图像、修复颜色、增强人脸和背景,并改善照片和视频的整体质量。
这是一个双层递归卷积网络模型的参考实现,旨在提供灵活的应用支持和优化的性能。
该项目汇集了关于视觉Transformer(ViT)和视觉语言模型(VLM)的Token压缩技术的最新研究论文,旨在提高模型效率和性能。
Raspberry Pi Camera 是一款专为 Raspberry Pi 设计的摄像头模块,支持多种分辨率和帧率,可以拍摄静态图像和视频,并且能够实时传输视频流。它还具备夜视功能(需要额外配件),并且可以与多种编程语言和库进行集成,适合各种项目和应用。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型