该项目提出了一种名为多标记预测的新型大型语言模型(LLM)训练方法。与传统的下一标记预测不同,该方法在训练语料的每个位置同时预测多个未来标记,每个标记的损失独立计算。通过优化前向和后向传播的顺序,该方法显著减少了GPU内存使用,且不增加训练时间。实验表明,该方法在编码和自然语言任务上显著提高了性能,推理速度大幅提升,特别适合实时应用。
XAIstream是一个专为实时AI处理设计的开源框架,为开发者提供构建低延迟智能系统的工具。它支持流式数据的高效处理,适用于动态场景下的模型应用。通过流式计算、推理加速、动态调度、硬件适配和接口支持等功能,XAIstream能够帮助开发者在各种实时场景中高效地应用AI技术。
TransMLA是一种将GQA(如LLaMA-3和Qwen-2.5)转化为更强大的MLA(多头潜在注意力)的方法,旨在复制R1能力并探索MoE、MTP、混合精度量化和训练/推理加速等先进技术。
Trident是一个专为加速机器学习训练和推理而设计的性能库,基于OpenAI Triton构建,提供高度优化的内核、函数和模块,旨在提升机器学习任务的效率和性能。
为ComfyUI打造的全能推理优化方案,旨在实现通用、灵活且快速的推理加速。它支持多种推理场景,并且通过灵活的配置选项来满足不同用户的需求。该项目的设计目标是提升推理性能,并且能够轻松集成到现有的ComfyUI项目中。
lite_llama是一个轻量级推理框架,旨在优化大型语言模型的性能,提供高达3.4倍的推理加速,支持最新的模型和流式输出功能,基于Triton实现,适用于各种需要高效推理的应用场景。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
mllm是一个专为移动和边缘设备优化的轻量级多模态大型语言模型推理引擎,能够在无需依赖外部库的情况下,支持多种模型和硬件架构,提供快速推理能力。
专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
该项目涉及与OpenAI o1相关的研究工作和背景技术,包括大型语言模型推理、自我博弈强化学习、复杂逻辑推理、规模法则等内容。
o1推理链旨在利用Groq、OpenAI或Ollama等技术,创建类似o1的推理链,以提高大型语言模型(LLMs)的逻辑推理能力。该项目提供了创建和管理推理链的工具,具有优良的可扩展性和灵活性,适合多种应用场景。
Helicone是一个开源平台,用于记录、监控和调试AI应用。它支持一行代码集成,提供使用情况追踪、LLM指标、提示管理等功能,适合开发者和团队使用。
LLMFarm是一个基于GGML库构建的项目,支持在iOS和MacOS平台上离线运行多个大语言模型,提供用户友好的界面和高效的模型加载与推理功能。
该项目汇集了关于大型语言模型(LLM)规划能力的重要文献,提供对LLM规划能力的深入理解,支持研究人员和开发者了解最新的研究动态,为相关领域的学习和研究提供参考资料。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
来自清华团队开源的一个 AI 项目,通过强化学习技术训练出一个 7B 模型,在数学推理能力上超越 GPT-4o 以及 Llama-3.1 70B。