lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
该项目涉及与OpenAI o1相关的研究工作和背景技术,包括大型语言模型推理、自我博弈强化学习、复杂逻辑推理、规模法则等内容。
o1推理链旨在利用Groq、OpenAI或Ollama等技术,创建类似o1的推理链,以提高大型语言模型(LLMs)的逻辑推理能力。该项目提供了创建和管理推理链的工具,具有优良的可扩展性和灵活性,适合多种应用场景。
Helicone是一个开源平台,用于记录、监控和调试AI应用。它支持一行代码集成,提供使用情况追踪、LLM指标、提示管理等功能,适合开发者和团队使用。
LLMFarm是一个基于GGML库构建的项目,支持在iOS和MacOS平台上离线运行多个大语言模型,提供用户友好的界面和高效的模型加载与推理功能。
该项目汇集了关于大型语言模型(LLM)规划能力的重要文献,提供对LLM规划能力的深入理解,支持研究人员和开发者了解最新的研究动态,为相关领域的学习和研究提供参考资料。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
来自清华团队开源的一个 AI 项目,通过强化学习技术训练出一个 7B 模型,在数学推理能力上超越 GPT-4o 以及 Llama-3.1 70B。