Zolak是一款创新的3D产品可视化软件,专为家具零售商设计,利用计算机视觉和人工智能技术提升顾客的购物体验,允许他们可视化和个性化家具产品。
Devzery是一个AI驱动的测试平台,通过精确的测试用例生成,革新软件测试流程。它利用先进的计算机视觉和DOM分析,提供定制化场景,确保全面覆盖。
Verificient是一家专注于生物识别、计算机视觉和机器学习的公司,提供世界级的数字身份验证和在线远程监控解决方案。其产品可帮助高等教育机构、K12学校和企业确保在线评估的完整性,防止考试不当行为,并安全地验证用户身份。
Anyscale是一个统一的计算平台,旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型(LLMs)。
Avumi是一个时尚科技平台,致力于为在线购物者提供数字化的服装试穿体验。该平台利用AI、计算机视觉和3D算法的独特组合,帮助用户在时尚品牌的网站上进行虚拟试衣。
Jetcounter是一款基于人工智能的物品计数应用,利用计算机视觉软件准确地从照片中计数相似物品。用户可以选择内置的不同类别模板,上传照片或使用设备摄像头,Jetcounter会识别并计数图片中的物体,支持放大查看细节并手动纠正错误。
MacGaiver是一个利用计算机视觉技术的macOS助手,能够回答您关于任何应用程序的问题。用户只需按下一个键盘快捷键,即可在当前窗口中询问,获取上下文中的答案,无需离开当前应用。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
MiniGPT-4是一款结合视觉与语言的大模型,能够基于图片内容生成描述、回答问题,甚至进行推理分析。它在视觉理解和自然语言处理方面表现出色,可识别图像细节、物体关系,并结合上下文提供智能解读。MiniGPT-4是GPT-4的开源版本,提供强大的自然语言处理能力,适用于多种AI应用场景,包括图像描述生成、文本与图像的问答、图像内容分析以及多模态信息检索。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
DenseMatcher是一个用于3D语义匹配的工具,能够从单一示例中学习类别级别的操作,实现高效的3D形状匹配。它支持多种3D形状的处理,适用于机器人抓取、增强现实等多个领域。
LlamaV-o1是一个大型多模态模型,能够进行自发推理。在VCR-Bench基准测试中表现优异,超越了多个知名模型,如Gemini-1.5-flash和GPT-4o-mini。该模型结合了课程学习的结构化进展,使用Beam Search提升效率,特别适合复杂的多步视觉推理任务,具备高准确性和高效率。
ID-Blau是一个基于隐式扩散的方法,用于图像去模糊,通过重模糊增强技术来提升图像质量,适用于计算机视觉任务。
MoveNet是一个基于深度学习的高效姿态检测模型,能够在PyTorch环境中实时估计人体姿态,支持多种输入格式,并能在多个设备上运行,包括移动设备。
ARRTIFICIAL是一个强大的人工智能平台,利用先进的机器学习和深度学习算法,实现数据分析和预测建模的自动化。用户只需上传数据,选择所需的算法和参数,平台便可自动分析和建模。
NanoSAM是一个经过蒸馏的Segment Anything (SAM)模型,能够在NVIDIA TensorRT上实现实时推理,适用于各种图像分割任务。
第一个无自然语言的纯视觉大模型,证明了纯视觉模型本身也是可扩展的。该模型支持多种数据形式,通过上下文学习来理解并执行下游任务,具有很强的可扩展性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型