Encoder-Decoder-SLM开源项目 – 高效小语言模型架构

微软推出的高效小语言模型架构，专为10亿参数以下的模型设计，助力小模型在性能和效率上赶超大模型。通过优化基础架构和知识蒸馏技术，显著提升模型性能，降低推理延迟和内存计算成本，适用于边缘设备等资源受限场景。

Encoder-Decoder-SLM的特点:

1. 性能提升显著，基础架构提升2-4%，知识蒸馏后提升6-8%
2. 推理效率极高，首token延迟降低47%，边缘设备吞吐量提升4.7倍
3. 内存和计算成本大幅降低，内存减少11-16%，FLOPs减少22%

Encoder-Decoder-SLM的功能:

1. 用于构建高效的小语言模型，适用于10亿参数以下的场景
2. 通过知识蒸馏技术提升模型性能
3. 在边缘设备上实现高效的推理任务
4. 降低内存和计算成本，优化资源使用

相关导航

Can We Tune Together开源项目 – 组合多种NLP语言模型

该项目旨在通过结合多种自然语言处理模型，探索优化模型性能的新方法。它具有强大的可扩展性，适用于多种应用场景，并提供了用户友好的接口。

Weaviate Recipes开源项目 – Weaviate使用的食谱与示例

Weaviate Recipes是一个为使用Weaviate而设计的食谱和示例集合，重点关注不同类型的向量嵌入，以支持AI应用。

SDXS开源项目 – 小米开源AI绘画模型，生图速度提升30至60倍

SDXS是小米开源的AI绘画扩散模型，通过知识蒸馏技术和单步DM训练方法，显著提升了生图速度。SDXS系列包括SDXS-512和SDXS-1024两个模型，分别针对512x512和1024x1024分辨率的图像生成需求，单GPU环境下推理速度分别达到约100 FPS和30 FPS，相较于传统模型速度提升30至60倍。SDXS还支持ControlNet训练，适用于图像条件控制和图像到图像的高效转换。

Cross Aggregation Transformer for Image Restoration – “Mapping coordinates for robotics navigation.”-用于相机定位的神经框架

一个通过坐标映射进行相机定位的神经框架。

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis-探讨大语言模型训练epoch设置的影响

本项目研究了大语言模型中的epoch次数设置问题，深入探讨训练epoch数量对模型性能的影响，以及在不同数据集上epoch数量的变化如何影响训练的充分性和效果。

Awesome-LLM-Self-Improvement开源项目 – 助力大型语言模型自我改进

精选大型语言模型在推理时自我改进的研究论文列表，助力模型性能提升。该项目汇集了大量优秀研究，提供最新的调查结果，旨在帮助研究者和开发者优化大型语言模型的性能。

知识蒸馏-将复杂模型的知识转移到小模型

通过蒸馏技术将复杂模型中的知识转移到更小的模型中，以便在资源受限的设备上有效运行AI模型。

利用语言大模型中的标签变化进行 zero-shot 文本分类-基于标签变化的零样本分类

该项目探讨了五种语言大模型在四种语言的五个任务上的表现差异，通过特定方法优化性能，虽然相较于传统方法仍有不足，尤其在处理敏感问题时需注意偏差。尽管LLM在某些方面表现出优势，仍无法完全取代人类标注。文章还讨论了聚合模型标注与人类标注在速度、准确性、成本和偏见方面的权衡。

BakLLaVA开源项目 – 多模态能力增强的语言模型

将SOTA多模态能力融入语言模型，改进基础模型、修改训练过程、自定义数据集以及对LLaVA实现的重大架构更改。

LangSmith官网 – 助力开发者从原型到生产

LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台，专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计，既能发挥其强大能力，又能应对其复杂性。

能力密度官网 – 评估 LLM 训练质量的新指标

能力密度是研究团队提出的评估不同规模 LLM 的训练质量的新指标，定义为模型的有效参数量与实际参数量的比值。该指标提供了统一的度量框架，通过引入参考模型的概念，建立参数量与性能之间的映射关系，显著降低同等性能的推理成本，并指示模型存在高性价比的有效使用期。

awesome_role_of_small_models开源项目 – 小型模型在大模型时代的独特应用

小型模型的妙用：在大型语言模型时代，探索小型模型的独特角色和应用，包括数据筛选、推理增强和知识蒸馏等

AdaLoRA开源项目 – 自适应预算分配的微调方法

AdaLoRA是一种自适应预算分配的参数有效微调方法，通过调整增量矩阵的秩来控制参数参与计算的量。关键的增量矩阵被分配高秩以捕获更细粒度的信息，而不太重要的增量矩阵被修剪为低秩以防止过拟合并节省计算资源。AdaLoRA利用SVD分解结果，动态调整矩阵秩以优化模型性能。该项目已合并到HuggingFace支持的参数高效微调库（🤗PEFT）中。

parallel-prompt-decoding开源项目 – 高效LLM推理加速助手

高效LLM推理加速助手：通过并行提示技术提升大型语言模型的推理效率，适用于边缘和移动环境，具有正交优化、内存效率和训练效率三大特点，显著提升速度并保持低内存开销

Caldera开源项目 – 高效压缩大型语言模型

Caldera是一种后训练压缩方法，通过低秩、低精度分解技术来表示大型语言模型的权重矩阵。该方法在少于2.5比特/参数的极致压缩下，性能超越现有技术，并支持低秩适应性微调，针对特定任务进一步优化。Caldera提供灵活的精度设置，可针对不同组件调整量化精度，以平衡性能和压缩率。