黑镜成真：眼球反射解锁3D世界开源项目 – 通过眼球反射探索3D世界

人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛，我们可以通过眼睛的反射收集场景中多个视角的画面，这些画面是通过相机直接拍摄无法得到的。
黑镜成真：眼球反射解锁3D世界的特点:
1. 通过眼睛的反射收集场景中多个视角的画面
2. 联合优化角膜姿势、描述场景的辐射场和观察者眼睛虹膜纹理
3. 采用虹膜纹理模式的先验以改善重建质量
4. 支持不同眼睛颜色的合成和实际捕获实验

黑镜成真：眼球反射解锁3D世界的功能:
1. 重建超出相机直接视线范围的3D场景
2. 分析眼睛反射以获取场景信息
3. 在计算机视觉和图像处理领域的应用

相关导航

黑镜成真：眼球反射解锁3D世界开源项目 – 通过眼球反射探索3D世界

人类眼睛的反射性是了解周围世界的一种尚未被充分开发的来源。通过拍摄运动中的人的眼睛，我们可以通过眼睛的反射收集场景中多个视角的画面，这些画面是通过相机直接拍摄无法得到的。

FlowSAM开源项目 – 视频中的运动对象分割工具

FlowSAM是一个用于视频中的运动对象分割的项目，结合了Segment Anything模型(SAM)和光流技术，旨在提高分割精度和效率。它不仅能够处理单一对象，还能在多对象场景中保持对象身份，提升分割性能。

Avumi官网 – 虚拟试衣，时尚新体验

Avumi是一个时尚科技平台，致力于为在线购物者提供数字化的服装试穿体验。该平台利用AI、计算机视觉和3D算法的独特组合，帮助用户在时尚品牌的网站上进行虚拟试衣。

Jetcounter官网 – 基于AI的物品计数应用

Jetcounter是一款基于人工智能的物品计数应用，利用计算机视觉软件准确地从照片中计数相似物品。用户可以选择内置的不同类别模板，上传照片或使用设备摄像头，Jetcounter会识别并计数图片中的物体，支持放大查看细节并手动纠正错误。

Anyscale | Scalable Compute for AI and Python官网 – 统一计算平台，简化AI与Python应用开发

Anyscale是一个统一的计算平台，旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型（LLMs）。

PyTorch开源项目 – 开源深度学习框架

PyTorch是一个开源的深度学习框架，广泛用于计算机视觉和自然语言处理等领域。

Runhorse AI官网 – AI肖像生成器

Runhorse AI 是一款先进的AI肖像生成应用，能够在几秒钟内从用户上传的照片中生成专业级图像。它通过分析照片来生成独特的风格和特征，使用户能够轻松地转换他们的图像。

100 days of building Cuda kernels – 100天深入GPU并行计算

这是一个为期100天的挑战项目，旨在通过每天构建一个CUDA内核，逐步深入GPU并行计算。项目从基础内容开始，逐步过渡到高级应用，涵盖矩阵运算、深度学习、图像处理等实用场景。项目详细记录了学习过程，并附带代码和教程，非常适合新手入门。

Melobytes.com官网 – AI创意工具平台

Melobytes.com是一个在线平台，提供多种AI驱动的创意工具，帮助用户探索艺术、音乐等领域的边界。通过简单易用的应用程序，用户可以为自己和朋友创造独特有趣的内容，可能性无穷无尽！

Verificient官网 – 数字身份验证与远程监控解决方案

Verificient是一家专注于生物识别、计算机视觉和机器学习的公司，提供世界级的数字身份验证和在线远程监控解决方案。其产品可帮助高等教育机构、K12学校和企业确保在线评估的完整性，防止考试不当行为，并安全地验证用户身份。

YOLO-NAS开源项目 – 高性能目标检测模型

YOLO-NAS是一个全新的目标检测模型，其在性能上超越了之前的目标检测模型，尤其适用于小型设备。该模型完全开源，具有高效的实时处理能力，特别适合在边缘设备上应用。通过利用流行的注意机制，YOLO-NAS显著提高了小物体检测的准确性和物体定位的精度，使其成为计算机视觉任务中的理想选择。

BANANAS开源项目 – 高效神经网络架构搜索

BANANAS 是一种新的神经网络架构搜索方法 (NAS)，旨在优化神经网络架构的自动搜索过程。它利用贝叶斯优化进行架构搜索，支持多种神经网络架构，并能够自动化地选择与优化架构。BANANAS 具有强可扩展性，适用于大规模数据集，能够显著提高神经网络架构搜索的效率和效果。

AI Fashion Assistant开源项目 – 智能时尚助手，提升你的时尚体验

将计算机视觉模型和LLM结合起来，以实现高级图像数据集查询。使用YOLO、CLIP和DINOv2提取图像的高级特征，并将提示与提取的特征一起传递给LLM，以实现高级图像数据集查询。

LLaVA-NeXT官网 – 多模态视觉语言模型

LLaVA-NeXT 是一个先进的多模态模型，基于 LLaVA-1.5 进行改进，于 2023 年 10 月发布基础版本，并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力，特别是在视觉推理、OCR（光学字符识别）和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率（最高达 672x672、336x1344、1344x336）以及改进视觉指令调整数据集，显著增强了模型性能。它还支持更大的语言模型，如 Mistral-7B 和 Nous-Hermes-2-Yi-34B，进一步提升了其能力。LLaVA-NeXT 的训练成本低，仅需约 32 个 GPU 运行一天，使用不到 100 万视觉指令调整样本，总训练数据为 131.8 万样本，计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手，成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎，代码、数据和模型均可公开访问，得到了 A16Z 开源 AI 资助计划的支持。

ID-Blau开源项目 – 通过隐式扩散去模糊图像

ID-Blau是一个基于隐式扩散的方法，用于图像去模糊，通过重模糊增强技术来提升图像质量，适用于计算机视觉任务。

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

该项目是一个基于PyTorch实现的Spatial Transformer Network (STN)，采用Thin Plate Spline (TPS)技术进行空间变换，能够灵活地对输入图像进行几何变换，支持高效的训练与推理。

DevToys开源项目 – 开发者的多功能工具箱

DevToys 是一个为开发者设计的瑞士军刀式工具集合，提供了多种开发相关的实用功能，界面简洁易用，适合多种开发场景。它是一个开源项目，由社区驱动，支持通过 Microsoft Store 安装。