llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
EET是一个针对大型NLP模型的可扩展推理解决方案,旨在提供高性能的推理支持,特别是针对Transformer结构的大模型,同时支持长序列的场景,易于集成和使用。
一个用C++/CUDA实现的大型语言模型(LLM)推理工具,不依赖额外的库,除了用于输入输出。该工具旨在提供高效的推理能力,支持加载和保存冻结的LLM权重,适合各种应用场景。
AiInfer是一个C++版的AI推理库,目前专门支持TensorRT模型的推理,旨在提供高性能和易用性。
lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
高效LLM推理工具:在Slurm集群上使用vLLM进行高效大型语言模型(LLM)推理,简化了推理服务器的运行和管理,支持自定义配置以适应不同环境
SpaceSerp 是一款强大的 API,能够实时提取 Google 搜索结果,监控品牌或产品提及,支持多种格式(JSON、CSV、HTML),并可从任何位置和设备收集数据。其系统基于先进的 AI 模型,具有高效、灵活的特点。
IT-Tools 是一个为开发人员提供的在线工具库,包含多种实用工具,如 Token 生成器、数据转换器、时间戳转换器、二维码生成器等,旨在提高开发效率和便利性。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。
Omnibridge是一个开源项目,可以让用户通过一个平台来访问不同的AI模型,无需单独下载和安装每个模型,提高用户的工作效率,让用户更方便地使用AI技术。
OpenAI兼容的API,用于TensorRT LLM triton backend,提供了与langchain集成的功能,支持高效推理和灵活后端配置。
一款开源免费的无损放大视频和图像工具,使用多种超分辨率算法实现视频/GIF/图像的无损放大和提高帧速率。
TrustCall 工具:基于 LangGraph 的强大工具调用库,旨在通过让 LLM(大型语言模型)生成 JSON 补丁操作来提高生成和修改复杂 JSON 结构的效率和准确性