Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型,属于Phi-3系列。该模型专注于指令生成任务,具有3.8亿参数,支持128K超长上下文,训练数据达3.4T tokens。采用密集解码器-only Transformer架构,在512张H100-80G GPU上训练10天完成。支持22种语言,在推理任务上表现接近GPT-4水平,特别适合资源受限或延迟敏感的应用场景,如移动端部署和边缘计算。
LFM是Liquid AI公司推出的创新型生成式AI模型系列,其架构灵感来源于秀丽隐杆线虫的神经结构,突破传统Transformer框架限制。 该模型在1B/3B/40B参数规模上实现高效推理,支持32k长上下文处理,并针对NVIDIA/Apple等硬件优化。具备多模态处理能力, 擅长文本/音频/视频等序列数据,支持英语/中文等7种语言,在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的 全场景部署方案,包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。
SAGE-KV(Self-Attention Guided KV Cache Eviction)是一种用于大语言模型(LLMs)高效推理的方法,特别适用于处理长上下文。它通过自注意力机制指导键值(KV)缓存淘汰,显著提高了内存效率和推理速度,同时保持与完整注意力模型相当的准确性。该方法特别适用于上下文窗口从128K到1M token的LLMs,解决了内存和延迟的瓶颈问题。
OpenBuddy-Llama3.1-8B-v22.1-131k 是由 OpenBuddy 团队开发的 AI 模型,基于 Meta 的 Llama3.1-8B 模型训练,支持多种语言,包括中文、英文、日文、韩文、法文、德文等。其上下文长度达 131072 tokens,通过 2500 万条合成数据训练,展现出与 GPT-3.5 Turbo 相似的认知和推理能力。该模型特别针对中文问答和跨语言翻译进行了优化,未来计划进一步提升中文编码效率和长文处理能力。
QwQ-32B 是阿里云 Qwen 团队开发的开源推理模型,基于 Qwen 系列,专注于提升 AI 的推理能力。该模型在数学推理和编码任务中表现突出,性能可能与 DeepSeek R1 相当,甚至在某些基准测试中超过 OpenAI 的 o1-mini。模型通过强化学习技术,能够自我检查答案并形成关键“思考习惯”,支持长上下文处理(最多 131,072 tokens)。QwQ-32B 对本地算力要求较低,仅需 4 张 NVIDIA 4090 GPU 即可运行,适合普通企业和开发者使用。
QwQ-32B-Demo是Hugging Face平台上的一个交互式演示,基于QwQ-32B模型,专注于推理和问题解决任务,特别是在数学和编码领域表现优异。该演示提供了一个用户友好的文本输入界面,允许用户与模型互动,探索其强大的推理能力。QwQ-32B模型拥有32亿个参数,基于Transformer架构,支持长达131,072个token的上下文长度,并采用预训练、监督微调和强化学习等训练方法。
memorag-qwen2-7b-inst 是 MemoRAG 项目中的记忆模块模型,基于 Qwen2-7B-Instruct,能够处理长达 600K 标记的上下文。该模型主要用于生成检索线索和压缩超长上下文信息,旨在提升检索增强生成(RAG)框架的性能。通过扩展上下文长度和压缩技术,该模型在长程任务中表现出色,适用于处理大量信息的场景。
Moxin-7B是一个在模型开放框架(Model Openness Framework)指导下完全开源的大模型,不仅开源了预训练代码、配置文件、训练和微调的数据集,还公开了中间检查点。训练数据集综合了SlimPajama、DCLM-BASELINE文本数据和the-stack-dedup的编程代码数据,支持32K的上下文长度,并采用了GQA、Sliding Window Attention、Rolling Buffer Cache等先进技术。
激活信标可以将LLM的原始激活压缩成更紧凑的形式,从而在有限的上下文窗口中感知更长的上下文。它通过短滑动窗口处理长上下文,同时保留LLM在短上下文上的原始能力,显著提高了长上下文语言建模和理解任务的表现。
一种超高效的微调方法,旨在扩展预训练大型语言模型 (LLM) 的上下文大小,而无需巨大的计算成本。它使用稀疏局部注意力替代密集全局注意力,显著节省计算量,同时在训练过程中只需两行代码即可实现,推理时可选。结合可训练的嵌入和归一化,增强LoRA的有效性,并在7B/13B到70B的LLaMA2模型上表现出强大的性能。此外,LongLoRA兼容FlashAttention-2等现有技术,并创建了LongQA数据集用于监督微调,包含超过3000个长上下文问答对。
LLM-zero2hero是一个高度解耦的微调项目,旨在支持大语言模型的自定义训练、验证和推理过程。它提供了全量微调和LoRA微调的能力,使用户能够灵活地调整模型以满足特定需求。
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
Kiln 是一个全自动的微调框架,允许用户在一小时内使用 DeepSeek-R1 蒸馏出属于自己的小模型。整个过程无需编写代码或手动调节,仅需定义数据集即可。Kiln 提供可视化操作界面,支持主流模型如 DeepSeek、Claude、Llama 等,并允许训练自定义推理模型。它兼容 Windows、macOS 和 Linux 系统,开箱即用,适用于专业领域模型构建(如医学、法律等)。
Unsloth Zoo是一个提供用于Unsloth的实用工具库,旨在支持免费微调和加速大型语言模型,帮助开发者更高效地使用和优化语言模型。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型