该项目汇集了精选的扩散模型推理论文,涵盖了多种技术,包括采样、缓存以及多GPU支持,为研究者和开发者提供了丰富的学习和应用资源。
由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
是一种通过减少内存带宽需求来增强语言大模型效率的技术。它无需对预训练或微调进行更改,可以显著减少注意力内存需求,而不会影响准确性。
提出 RetNet 作为 LLM 的基础架构,同时实现训练并行性、低成本推理和良好性能。
结合小红书的业务场景和内部实践,深入讲解现代推荐系统的主要技术和算法,支持多种推荐策略,提供代码示例与实现细节,帮助用户理解和应用推荐系统的最佳实践。
探讨 LLM 诚实性的论文和研究资料列表,旨在深入了解 LLM 的自我认知和自我表达能力,并提出了改进这些能力的方法
ReasoningNLP是一个汇集自然语言推理相关文献的资源列表,包含大量论文、引用和链接,方便研究人员获取信息。