斯坦福大学CS236课程专注于深度生成模型的概率基础和学习算法,涵盖变分自编码器(VAE)、生成对抗网络(GAN)、自回归模型等多种前沿技术。课程结合理论与实践,探讨生成模型在计算机视觉、自然语言处理等领域的应用,并提供丰富的课程笔记和项目实践机会。学生需分组完成开放式项目,可选择应用模型到新任务、改进算法或进行理论分析。
XFeat 是一个专注于轻量级图像匹配和加速特征提取的项目,旨在为计算机视觉应用提供高效的图像匹配解决方案。它通过优化特征提取算法,能够在实时处理中快速匹配图像,适用于需要高效率和低资源消耗的场景。
Meshy是一个3D人工智能工具包,使用户能够轻松地将文本或2D图像转换为3D资产,处理时间不到一分钟。
Reiden AI 利用计算机视觉和机器学习技术,帮助用户学习各种应用程序的快捷键,旨在每年为用户节省多达 8 天的时间。该工具兼容 20 多款流行应用程序,包括 Gmail、Chrome、Notion、VS Code、Figma、Final Cut Pro、Safari、Arc、Outlook 等。
基于IMX294的开源Raspberry Pi 5兼容Micro Four Thirds相机模块,专为高级树莓派项目提供高质量、经济实惠、易于获取的相机解决方案。该模块利用先进的IMX294传感器,能够实现卓越的图像捕捉性能,适合各种摄影和计算机视觉应用。
TorchScale 包含我们在Transformers稳定性(DeepNet)、通用性(Magneto/Foundation Transformers)和效率性(X-MoE)的一系列研究的官方实现。我们希望通过基础本质的研究探索AI(尤其是大模型)的通用结构,并在NLP,CV,Speech和多模态等领域的任务和基础模型中广泛验证,欢迎大家使用、交流、合作开发。
RMBG-1.4是一个开源的图像背景移除工具,经过实测效果良好,支持多种图像格式,易于集成到现有项目中,适用于各类图像处理需求。
Zero123++是一个基于扩散模型的图像生成工具,只需提供一张输入图像,即可生成该图像的多个视角,支持高质量图像的生成,适用于各种类型的图像,为计算机视觉和虚拟现实应用提供强大支持。
UniMoCap是一个社区实现,旨在统一文本-动作数据集(HumanML3D、KIT-ML和BABEL)以及全身动作数据集(Motion-X)。
使用sam和clip模型完成图像任意指定类别的实例分割,支持指定多个类别。该项目结合了SAM模型的高效实例分割能力和CLIP模型的类别识别能力,提供了一个用户友好的接口,适合各种计算机视觉应用。
Pipeless 是一个开源计算机视觉框架,用于创建和部署应用程序,无需构建和维护多媒体管道的复杂性。它提供了创建和部署高效计算机视觉应用程序所需的一切,这些应用程序只需几分钟即可实时运行。
融合图像聊天、分割和生成/编辑的AI应用概念验证项目,基于LLaVA、SEEM和GLIGEN三个相关开源项目实现。
使用LLMPerf工具对LLM推理提供商进行基准测试,通过关键指标评估它们的性能、可靠性和效率,展示结果的透明度和可视化
Midjourney API由The Next Leg提供,是一个非官方的API,允许用户与流行的AI图像生成工具Midjourney进行交互。用户只需注册订阅计划,获取API密钥,即可开始向Midjourney API发送请求,进行各种图像生成和创意项目。
YoutubeGPT利用OpenAI的Whisper、Embedding和Davinci模型,从YouTube视频中提取文本转录,分段嵌入,并允许用户通过聊天与视频内容进行交互,提供丰富的用户体验。
这是一个基于PyTorch的库,旨在加速在分布外(OOD)检测方面的研究,支持多种检测方法,并提供易用的API设计。该项目结合深度学习模型进行OOD任务,提供数据集和基准测试,且可与PyTorch深度学习框架无缝集成。
这是一个客户细分项目,探索结合大语言模型(LLM)和Kmeans算法的高级聚类技术及结果分析。
CAST项目旨在通过图像分割和识别技术,实现层次化的图像处理,提升对象识别的能力。