一个用于非因果建模的双向线性注意力实现项目,通过Triton优化模型性能,特别适合需要高效处理大量数据的AI应用
rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎,提供高性能、低成本和用户友好的推理服务,帮助客户和开发人员定制适合其业务的推理服务,从而促进业务增长
一个强大的框架,通过集成sparse kernel、量化、剪枝和注意力键/值的缓存,进一步优化了在CPU上进行的能力。
FuseLLM 是一个旨在通过融合多种大型语言模型的知识,以提高推理能力的项目。该项目能够结合不同模型的优点,扩展知识的边界,适用于多种自然语言处理任务,提供更强大的模型性能。
MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
这是一个新的简单替代方案,基于计算输入激活的权重大小和范数之间的逐元素乘积。
基于扩散模型的控制与规划教程,深度学习在控制和规划中的应用指南,通过扩散模型生成样本,解决多模态分布匹配问题,提高训练稳定性和可扩展性。
一种上下文学习方法,将基于提示的表示应用于自回归模型,以生成高质量的句子嵌入,无需微调。该方法通过利用上下文信息,避免了传统微调过程的复杂性,同时支持不同规模的语言大模型,能够在多种转移任务上取得最佳结果。
ZoeDepth是一个利用深度学习技术从2D图像生成3D模型的工具,经过12个数据集的训练,专注于深度估计和3D模型生成。
RE2通过在提示中重复输入问题两次来提高LLM的推理能力,增强对问题的理解,并促进单向解码器 LLM 的双向编码。该方法兼容现有的思想激发提示技术,适用于多种LLM和推理任务,能够有效提高模型的表现。
DeepSeek-R1 是一个在 Hugging Face 上发布的大型模型,具有强大的性能表现,能够全面与 OpenAI-o1 竞争。该模型参数量达到685B,支持 BF16 和 int4 量化,并包含蒸馏模型 DeepSeek-R1-Distill-Qwen-32B。它适用于自然语言处理任务,能够进行文本生成和理解,同时也可用于模型评测和比较。