艾伦人工智能研究所致力于推动人工智能领域的前沿研究,特别是在自然语言处理、计算机视觉和机器学习等领域。该机构通过开放资源和数据集,促进学术界与产业界的合作,旨在为社会带来积极的技术变革。
Sapiens是一系列专门针对人类的视觉基础模型,所有权重开放,提供各种尺寸的分割、深度和主题模型,旨在推动计算机视觉领域的发展。
Pluck是一个Chrome扩展,旨在帮助患有拔毛症的人意识到自己的拔毛习惯,并逐步走向康复。它利用计算机视觉技术检测潜在的拔毛行为,并为用户提供实时反馈。这种意识帮助用户理解触发因素,促进更好的习惯和个人成长。
3PSDF是一个用于学习任意拓扑表面的签名距离函数的项目,采用三极点方法,能够高效地重建复杂表面。
Glue Factory是CVG开发的一个库,用于训练和评估深度神经网络,专注于提取和匹配局部视觉特征。
Salient Extract是一个基于yoloV8深度学习模型的显著目标提取工具,能够高效提取图像中的显著特征,支持多种输入图像格式,并能与其他计算机视觉任务结合使用。
AI反向图像搜索是Vecteezy推出的创新工具,旨在帮助创意专业人士快速找到符合项目概念或风格的高质量图像。通过上传图像,该工具利用先进的计算机视觉和机器学习技术,提供相关的图像搜索结果,同时确保所有返回的图像均可合法使用,消除版权顾虑。
Undress AI v2 是一款基于人工智能的应用,用户只需上传一张照片,即可自动处理结果,展示未穿衣物的效果。该项目结合了先进的计算机视觉技术,旨在为用户提供隐私保护的同时,探索图像处理的可能性。
Hailo通过先进的处理器和软件解决方案,专注于边缘设备上的AI能力,降低延迟,提升效率,适用于汽车、工业自动化等多个领域。
将计算机视觉模型和LLM结合起来,以实现高级图像数据集查询。使用YOLO、CLIP和DINOv2提取图像的高级特征,并将提示与提取的特征一起传递给LLM,以实现高级图像数据集查询。
Athena是一个创新的AI决策支持系统,旨在增强防务和战术操作中的决策过程。通过集成先进的计算机视觉和AI功能,Athena以高准确性和速度简化复杂决策,同时确保在高压力环境中遵循法律和伦理考虑。
getEssential.app是一款AI驱动的工具,帮助开发者在Mac上排查错误信息。它利用计算机视觉和OpenAI的语言模型,理解屏幕内容并提供上下文特定的解决方案,同时具备总结工作的重要时刻、快速识别屏幕信息等多种功能。所有数据保留在用户的Mac上,确保安全性。
Encord是一个全面的数据引擎,专为AI模型开发而设计。它为高级计算机视觉团队提供工具和工作流程,以简化标记和工作流管理,清理和整理数据,验证标签质量,以及评估模型性能。用户可以通过创建项目和上传视觉数据来使用Encord,随后使用注释工具和工作流管理功能进行数据标注。
FlashAttention是一个开源的推理加速工具,专为AI大模型设计,通过优化注意力机制的计算流程,显著提升推理速度,尤其适合需要实时响应的场景。其v2版本比v1快2倍,比标准注意力机制快5-9倍,在A100上达到225 TFLOPs/s的训练速度,并已在大多数LLM库中得到广泛应用。
B-cos Networks旨在通过对齐实现模型的可解释性,提供最先进的性能,适用于各种机器学习任务。
ID-Blau是一个基于隐式扩散的方法,用于图像去模糊,通过重模糊增强技术来提升图像质量,适用于计算机视觉任务。
Remix-DiT是一种采用扩散变换器的模型,旨在通过多专家系统提高图像去噪的性能,适用于多种图像处理任务。
Skyvern AI 是一个通过大语言模型(LLM)和计算机视觉技术,自动化基于浏览器的工作流程的项目。它提供了一个简单的 API 端点,便于集成到现有系统中,完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。
Transformers和相关的深度网络架构在此进行了总结和实现,涵盖了自然语言处理和计算机视觉等多个领域。
HAvatar是一个通过面部模型调节神经辐射场生成高保真头像的项目,结合了NeRF的表达能力和参数模板的先验信息,克服了形状不一致的问题,实现动态头部外观的高分辨率和真实性,并支持动画的稳定性。
FaceLit是一个神经网络驱动的3D重光照人脸生成项目,能够生成在不同光照条件下的人脸图像,广泛应用于计算机视觉和虚拟现实领域。
一个能够直接在文件字节上进行训练和测试的模型,无需在推理时对文件进行解码。
PyTorch是一个开源的深度学习框架,广泛用于计算机视觉和自然语言处理等领域。
这是一个基于TensorPack框架的实现与模型集锦,包含多种预训练模型,适用于图像处理和计算机视觉任务,易于扩展和自定义。
Taichi是一种嵌入在Python中的领域特定语言,旨在加速Python代码执行,使其运行速度接近C++甚至CUDA,提供高性能的计算能力,同时保持Python的灵活性和简洁性。它支持多种硬件平台,包括CPU和GPU,并内置自动微分功能,具有强大的并行计算能力,适合各类高性能计算任务。
HyperNeRF是一个支持高维表示和处理拓扑变化的神经辐射场的项目,旨在提高3D重建和场景渲染的效果。
人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛,我们可以通过眼睛的反射收集场景中多个视角的画面,这些画面是通过相机直接拍摄无法得到的。
《机器人学、视觉与控制(第三版)》的Python代码实例库,提供第三版教科书中的算法实现,助力机器人与计算机视觉领域的学习和研究。该项目包含多种与机器人学和计算机视觉相关的算法实现,适合用于教学和实践相结合的学习方式。
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
包含了从计算机视觉、自然语言处理到生物计算、气象预测等各个领域的模型,这些模型结合了幻方萤火超算集群的特点,使用并行训练、高效算子、高性能存储等方式,大幅提升原有模型的性能,节省训练时间。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型