mlx-lm是专为Apple硅片(如M1/M2/M3)优化的Python包,支持在macOS上高效运行和微调大语言模型。它深度集成Hugging Face Hub,提供模型量化、分布式推理、长文本处理等高级功能,特别针对Mac用户优化性能。项目支持Mistral/Llama等主流模型,提供文本生成、交互式聊天、模型转换等核心功能,并可通过LoRA微调适配专业场景。
NyunZero是一个连接用户基础设施的工具,旨在快速适配和压缩视觉模型以及大语言模型(LLMs)。用户可以在几次点击中加速对象检测模型,或获得与硬件兼容的快速量化LLMs,适应用户的数据需求。
AutoGGUF是一个自动化GGUF模型量化工具,提供友好的图形用户界面,利用llama.cpp库实现模型的高效量化。该工具支持多种后端管理,能够进行模型量化、参数配置以及资源监控等多种功能,旨在提升模型性能和资源利用率。
一个强大的框架,通过集成sparse kernel、量化、剪枝和注意力键/值的缓存,进一步优化了在CPU上进行的能力。
一个基于HuggingFace开发的大语言模型训练、测试工具。支持各模型的webui、终端预测,低参数量及全参数模型训练和融合、量化。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
一个用C++/CUDA实现的大型语言模型(LLM)推理工具,不依赖额外的库,除了用于输入输出。该工具旨在提供高效的推理能力,支持加载和保存冻结的LLM权重,适合各种应用场景。
AiInfer是一个C++版的AI推理库,目前专门支持TensorRT模型的推理,旨在提供高性能和易用性。
lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
高效LLM推理工具:在Slurm集群上使用vLLM进行高效大型语言模型(LLM)推理,简化了推理服务器的运行和管理,支持自定义配置以适应不同环境
SpaceSerp 是一款强大的 API,能够实时提取 Google 搜索结果,监控品牌或产品提及,支持多种格式(JSON、CSV、HTML),并可从任何位置和设备收集数据。其系统基于先进的 AI 模型,具有高效、灵活的特点。
IT-Tools 是一个为开发人员提供的在线工具库,包含多种实用工具,如 Token 生成器、数据转换器、时间戳转换器、二维码生成器等,旨在提高开发效率和便利性。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
Omnibridge是一个开源项目,可以让用户通过一个平台来访问不同的AI模型,无需单独下载和安装每个模型,提高用户的工作效率,让用户更方便地使用AI技术。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
一款开源免费的无损放大视频和图像工具,使用多种超分辨率算法实现视频/GIF/图像的无损放大和提高帧速率。
TrustCall 工具:基于 LangGraph 的强大工具调用库,旨在通过让 LLM(大型语言模型)生成 JSON 补丁操作来提高生成和修改复杂 JSON 结构的效率和准确性