Lilac是一个开源工具,主要用于人工智能分析、结构化和清理非结构化数据。它可以在各种领域,包括机器学习中使用。
AI交流(进群备注:lilac)
一种深度估计技术,能让任何相机拍出的照片都拥有精准的深度信息,无需额外训练数据,就像给照片加上了“深度魔法”,让3D场景重建等应用变得更简单
ComfyUI_pose_inter是一个基于ComfyUI ControlNet的工具,专门用于在两张人物姿势图片之间生成过渡帧。它利用OpenPose或DWPose预处理器进行姿势检测和插值,从而生成流畅的姿势转换效果,适用于动画制作、姿势转换和舞蹈动作生成等多种场景。
InstructLab 是一个开源项目,旨在通过合成数据方法对大型语言模型(LLM)进行对齐和微调。其核心组件 `ilab` 提供了命令行界面,支持模型下载、交互式聊天、生成训练数据、模型训练和评估等功能。项目强调社区协作,允许用户通过贡献知识和技能到 taxonomy 仓库来改进模型。InstructLab 支持多种硬件加速选项(如 Apple Metal、AMD ROCm、NVIDIA CUDA),并提供了完整的端到端工作流程,从数据生成到模型训练和评估。
RSD是一种创新框架,通过结合轻量级草稿模型、强大目标模型和过程奖励模型,动态优化大型语言模型(LLMs)在推理任务中的计算成本与输出质量平衡。该框架在处理复杂推理任务时效率可达目标模型的4.4倍,准确率平均比并行解码方法高3.5%,特别适合资源受限环境。项目基于Qwen2.5-Math和Skywork-o1-PRM等开源模型构建,支持在线(需3个GPU)和离线(需1个GPU)两种运行模式。
Docling是一个高效的工具,可以将PDF文档快速转换为JSON或Markdown格式。它具备详细的页面布局理解、阅读顺序恢复和表格结构提取的能力,此外,还提供可选的OCR功能,以便处理扫描文档。
Magic Clothing 是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统,专注于可控的服装驱动图像生成。该项目是 OOTDiffusion 的一个分支版本,能够根据文本提示生成定制的、穿着特定服装的人物图像。项目支持多种附加条件,如肖像和参考姿势图像,并且提供了不同分辨率的模型权重。
Breaking-reCAPTCHAv2是一个专门设计来破解谷歌reCAPTCHA v2系统的项目。它利用深度学习模型YOLO高效识别验证码,挑战传统人机验证机制。该项目不仅展示了深度学习在验证码识别领域的强大能力,还为研究和分析reCAPTCHA v2系统的安全性提供了有力工具。
Gaga 是一种基于 3D 感知记忆库的高效分组工具,专门用于开放世界场景中多视图一致的高斯分割和场景编辑。它通过先进的 3D 感知技术,提升分割一致性和编辑效率,适用于多种数据集,并提供开源支持和详细的使用指南。
SWE-ReX是一个AI助手的沙盒代码执行框架,支持本地或云端运行,使得AI能够轻松执行各种命令,同时确保代码的安全性和灵活性。
CLEVR数据集生成工具用于生成视觉推理任务的合成数据集,支持用户自定义场景参数,促进AI的视觉理解研究,且包含评估模型性能的工具。
HCP-Diffusion是一个基于diffusers的stable diffusion模型训练工具箱,旨在提供一个高效、灵活的环境来训练和微调多种stable diffusion模型,支持自定义数据集和模型参数,具有易于使用的API接口和高效的训练推理速度,适应不同用户的需求。
FEMcy是一个基于Taichi的有限元求解器,支持CPU和GPU的并行计算,具有强大的可移植性,且是一个开源项目,适合工程分析、模拟以及教育和研究使用。
这个开源项目是一个字幕生成工具,基于Whisper及其变体,包括Web-UI、CLI和Python包,使用了OpenAI技术。它可以用来生成字幕。
这个开源项目是一个AI驱动的魔法功能库,可以帮助用户实现各种功能。
Web LLM 是一个可以在浏览器中直接运行大型语言模型的工具,支持通过 WebGPU 加速。它支持多种大型语言模型,包括 Llama 2 7B/13B、Mistral 7B 和 WizadMath,并能够在设备内存为 64GB 的情况下运行 Llama 2 70B 模型。利用 WebGPU 提供更快、更流畅的模型运行体验,仅需约 6GB 的显存即可运行 Llama 7B 和 Vicuna-7B。