推理效率优化

BitDistiller开源项目 – 提升大模型推理效率的量化框架

BitDistiller开源项目 – 提升大模型推理效率的量化框架

BitDistiller 是一个基于自我蒸馏的量化感知训练框架，旨在通过低比特量化提升大语言模型的推理效率，同时保持模型性能。它采用定制的非对称量化技术、Clipping 技术以及置信度感知的 Kullback-Leibler 散度（CAKLD）目标，显著优化了模型在低比特量化下的表现，尤其在3比特和2比特量化配置下超越了现有的后训练量化（PTQ）和量化感知训练（QAT）方法。此外，BitDistiller 在复杂代码生成任务中展现了显著优势，并支持资源受限设备上的高效部署，减少训练数据和资源需求。

代码生成优化大模型量化推理效率优化资源受限设备部署

NeurIPS 2024 LLM推理教程代码开源项目 – 提升大型语言模型推理效率

NeurIPS 2024 LLM推理教程代码开源项目 – 提升大型语言模型推理效率

该项目提供了一个关于大型语言模型推理的教程代码，涵盖了多种生成算法、元生成算法及高效元生成算法，旨在提高模型推理的效率和效果。用户可以通过该教程学习如何实施不同的算法，以优化文本生成和推理性能。

元生成算法大型语言模型推理推理效率优化文本生成

Tricksy开源项目 – 单GPU下的快速近似推理

Tricksy开源项目 – 单GPU下的快速近似推理

Tricksy是一款支持在单个GPU上进行快速推理的工具，利用稀疏感知卸载技术来提高推理效率和速度，同时优化资源使用，适用于深度学习模型的多种场景。

单GPU快速推理推理效率优化深度学习模型推理稀疏感知卸载

cuda_accelerate开源项目 – 使用C++和CUDA加速神经网络

cuda_accelerate开源项目 – 使用C++和CUDA加速神经网络

使用C++以及CUDA加速神经网络样例，主要实现了矩阵加法和矩阵乘法，提供高效的计算能力，适用于深度学习中的高性能计算需求。

C++和CUDA加速神经网络CUDA编程学习深度学习高性能计算矩阵运算

Griffin-创新的门控线性RNN模型

Griffin是一种将门控线性RNN与局部注意力混合在一起的新模型架构，表现优于以往模型，能够处理长上下文并扩展到14B参数。该模型在训练数据量减少的情况下，仍能保持优异的表现，显著改善预测能力，并保留了Transformer架构在合成任务上的许多优点。

AI应用机器学习基础架构自然语言处理长上下文学习

基于TensorPack的实现/模型集锦开源项目 – 多种预训练模型的集合

基于TensorPack的实现/模型集锦开源项目 – 多种预训练模型的集合

这是一个基于TensorPack框架的实现与模型集锦，包含多种预训练模型，适用于图像处理和计算机视觉任务，易于扩展和自定义。

TensorPack框架深度学习计算机视觉迁移学习

Tabby开源项目 – 自托管的GitHub Copilot替代方案

Tabby开源项目 – 自托管的GitHub Copilot替代方案

一个自托管的 GitHub Copilot，GitHub Copilot 的开源/本地替代方案，旨在提供灵活的开发体验。它可以在本地运行，无需依赖外部数据库或云服务，同时具备可视化界面和强大的API接口，方便集成到现有开发环境中。

MLOpsOpenAPI接口集成开源开发工具本地运行AI模型

KeaML Deployments官网 – 全面的AI开发平台

KeaML是一个AI开发平台，支持用户在开发、训练和部署的各个阶段。用户可以通过直观的界面和强大的工具轻松开发和训练AI模型，并将其部署到生产环境中，实现AI在应用中的价值。

AI开发平台图像识别客户情感分析模型训练与部署

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3