StreamingLLM开源项目 – 无缝处理无限文本的语言模型

StreamingLLM 是一种语言模型，能够顺利处理无尽的文本而不会失去上下文信息流，从而实现与人工智能助手的深度对话和长文本总结。
StreamingLLM的特点:
1. 启用无限长度流，无需增加模型容量或微调模型。
2. 推理速度提高了 22 倍，而准确性没有任何下降。
3. 在比训练长度长得多的文本上表现稳定。
4. 简单且多功能，轻松整合到具有相对位置编码的模型中，例如 RoPE 或 ALiBi。
5. 使用接收器令牌进行预训练，进一步增强流媒体能力。
6. 将模型预训练长度与实际生成长度分离，允许扩展模型用例。

StreamingLLM的功能:
1. 与人工智能助手进行深入对话，参考历史对话内容。
2. 总结长达数千页的报告。
3. 在需要处理无限文本流的应用中使用。
4. 集成到需要高效推理的语言模型中。

相关导航

LoT-将逻辑注入上下文以增强推理能力

Logic-of-Thought（LoT）旨在通过将逻辑注入上下文，提升大型语言模型的推理能力。该项目利用命题逻辑生成扩展的逻辑信息，并与现有的提示方法无缝集成，显著提升了多种提示方法在复杂任务中的性能。

Inferflow-高效可配置的大型语言模型推理引擎

Inferflow是一个高效且高度可配置的大型语言模型推理引擎，旨在优化推理性能，支持多种自定义配置，以满足特定需求。

LLM Pruning Alternative-一种新型模型修剪方案

这是一个新的简单替代方案，基于计算输入激活的权重大小和范数之间的逐元素乘积。

xLSTM-7B开源项目 – 扩展LSTM模型，高效推理

xLSTM-7B是一种扩展的LSTM模型架构，通过引入Exponential Gating和Matrix Memory等技术，克服了传统LSTM的局限性。相较于Transformer架构，xLSTM-7B在推理速度和参数效率方面表现出显著优势，适用于多种序列数据处理任务。

Liquid Foundation Models (LFMs)官网 – 高效多模态生物启发AI模型

LFM是Liquid AI公司推出的创新型生成式AI模型系列，其架构灵感来源于秀丽隐杆线虫的神经结构，突破传统Transformer框架限制。该模型在1B/3B/40B参数规模上实现高效推理，支持32k长上下文处理，并针对NVIDIA/Apple等硬件优化。具备多模态处理能力，擅长文本/音频/视频等序列数据，支持英语/中文等7种语言，在数学推理和文档分析等任务中表现优异。提供从边缘设备到云端的全场景部署方案，包括1.3B(移动端)、7B(笔记本)、40B MoE(企业级)等不同规格模型。

AI Anime Girlfriend官网 – 与AI二次元女友展开互动之旅

AI Anime Girlfriend 是一款互动应用，让用户与虚拟的二次元女友进行深度对话，获取她的照片和声音，建立独特的情感联系。

LongSpec开源项目 – 高效解码长文本场景

长文本场景下的高效解码方案，让大语言模型推理不再卡顿。

SmolVLM官网 – 全球最小的视觉语言模型

SmolVLM是全球最小的视觉语言模型，能够处理多模态任务，包括图片描述、文档问答和基本视觉推理等。它具有256M参数，表现优异，适合在低资源设备上运行。

Couple Me官网 – 个性化AI女友陪伴平台

Couple Me是一个平台，用户可以创建并与个性化的AI女友聊天，提供陪伴、深刻的对话和符合个人愿望的浪漫互动。

Chatmate AI官网 – 智能聊天，建立情感连接

Chatmate AI是一个革命性的互动平台，让用户与拥有模拟生活和情感的人工智能聊天伙伴连接。用户可以与这些AI聊天伙伴交流，建立友谊，享受多样化的聊天体验。

openai_trtllm开源项目 – OpenAI兼容的TensorRT LLM API

OpenAI兼容的API，用于TensorRT LLM triton backend，提供了与langchain集成的功能，支持高效推理和灵活后端配置。

diffusion-rs开源项目 – 极速推理工具

扩散模型的极速推理工具，能快速处理复杂的图像生成任务，提升模型运行效率

HiP Attention开源 – 高效无训练长文本注意力机制

HiP Attention 是一种无需额外训练的后训练注意力机制，专为提升长文本处理效率设计。它通过分层剪枝技术实现子二次方复杂度，支持单GPU处理300万token的上下文长度，速度提升7.24倍，显著降低计算成本。项目基于OpenAI Triton实现，可无缝集成现有模型架构（如SGlang），适用于资源受限环境下的超长序列处理。

MaxDiffusion开源项目 – 高效AI扩散模型实现

MaxDiffusion是一个专注于AI扩散模型的高效实现与优化的项目，旨在为大规模训练和推理提供强大的支持。它支持多种主流扩散模型，并通过优化的TPU和GPU加速显著提升推理速度。此外，项目还引入了Flux LoRA等创新功能，进一步提高了推理效率。

1.58-bit FLUX开源项目 – 高效文生图像量化模型

1.58-bit FLUX是字节跳动研究人员开发的一种创新的量化方法，旨在减少文生图像模型的内存占用和计算需求。该模型通过自监督信号进行量化，将权重压缩到1.58位，仅用{-1, 0, +1}三种值表示。尽管量化到如此低的位数，模型在生成1024 x 1024分辨率图像时，性能仍与未量化的模型基本一致。研究人员还开发了专用的计算内核，使得存储减少了7.7倍，推理内存减少了5.1倍，显著降低了对存储和内存的需求。该模型采用了后训练量化（PTQ）方法，无需在训练过程中进行繁琐的微调操作，直接对预训练好的模型进行量化处理，避免了重新训练带来的计算开销和时间消耗。

rational_kat_cu开源项目 – CUDA加速的KAT有理函数

rational_kat_cu 是一个用于 Kolmogorov–Arnold Transformers (KAT) 的 CUDA C++ 扩展项目，专注于实现 group rational function，并支持高效的训练和推理。通过 CUDA 加速，该项目显著提升了 KAT 模型的性能，特别适用于需要高性能计算的场景。

r1-ktransformers-guide开源项目 – 让DeepSeek-R1模型快速运行

该项目旨在提升DeepSeek-R1 GGUF模型在KTransformers上的运行效率，提供近2倍的性能提升，并支持多GPU和内存映射，适配不同硬件，优化配置丰富，便于实现高效推理。

MiniMax-Text-01官网 – 首个开源大语言模型，超强文本处理能力

MiniMax 发布的首个开源大语言模型，采用MoE模型，具有456B参数，支持大规模参数激活，能够处理长达1M的文本，并在长文本召回测试中表现优异。