本项目提供详细的教程,指导用户如何在6GB显存的显卡上运行Llama 13B模型。教程包括克隆llama.cpp仓库、安装CUDA、设置micromamba环境、安装必要的Python包、执行模型转换过程以及生成提示文件等步骤。通过优化配置,用户可以在有限的显存资源下高效运行Llama 13B模型。
pytorch/ort是一个旨在使用ONNX Runtime加速PyTorch模型推理的工具,支持将PyTorch模型转换为ONNX格式,利用ONNX Runtime提升推理性能,并兼容多种硬件后端。该项目还支持动态计算图,简化模型部署流程,让用户能够更轻松地在不同平台上运行优化后的模型。
一个用Rust编写的轻量神经网络推理引擎,能将ONNX格式的机器学习模型高效运行在各种平台上,特别适合需要高性能和跨平台支持的场景。
FluidStack是一个全球数据中心网络的GPU云平台,提供超过50,000个GPU,支持AI和大语言模型(LLM)的训练。用户可以免费开始使用并无缝扩展。
onnx-modifier是一个基于Netron的工具,允许用户实时可视化和编辑ONNX模型,提供用户友好的图形界面,支持多种模型修改功能,并实时更新查看模型的变更。
苏秦(suqin)语言大模型全工具链 WebUI 整合包,旨在实现目前各大语言模型的全流程工具 WebUI 整合包,无需编写代码即可拥有自己的定制模型与专属应用。
Raiday.ai(快速AI数据产出)是一个AI聚合平台,汇集了数百种AI工具、提供商、内容、模型和库,同时提供关于人工智能的新闻,使生成式AI对每个人都变得简单和易于获取。
Segment Anything Fast 是一个面向批量离线推断的高效图像分割工具,基于PyTorch实现,旨在提供快速、便捷的图像分割解决方案,适合在本地环境中使用。