MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
适用于端边云场景的AI推理应用开发框架,提供了基于Pipeline的并行执行流程,能帮助AI应用开发者较快的开发出高效、高性能,以及支持软硬协同优化的AI应用。
一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源
Lookahead decoding是一种创新的并行解码算法,加速大LLM的推理过程,提升模型生成文本的速度,适用于需要快速回应的应用。
Imandra是一个推理即服务的平台,赋予AI逻辑推理能力,适用于构建大型语言模型的思维模型、正式验证论证和结果,以及可审计的逻辑推理。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
一个通过PyTorch从头开始训练Llama 2 LLM架构模型的项目,支持将权重保存到原始二进制文件并在简单的C文件中推断模型。
一个用于非因果建模的双向线性注意力实现项目,通过Triton优化模型性能,特别适合需要高效处理大量数据的AI应用
Griffin是一种将门控线性RNN与局部注意力混合在一起的新模型架构,表现优于以往模型,能够处理长上下文并扩展到14B参数。该模型在训练数据量减少的情况下,仍能保持优异的表现,显著改善预测能力,并保留了Transformer架构在合成任务上的许多优点。
OpenLibm是一个旨在提供高质量、可移植、独立的C语言数学库(libm),其质量超过Android源代码中的fdlibm。
Sample Testing项目可以为每个Git分支自动生成多个预览环境,灵活配置独立的资源和端点,适用于生产、质量保证或单纯的测试和处理。
rs是一个基于JAX的随机搜索实现,专为运动任务设计,能够高效地利用MuJoCo XLA (MJX)进行训练,支持多种运动环境,便于研究和实验。