这是一个关于出色LLM推理的小集合,包含文献、博客和文档以及代码,支持TensorRT-LLM、流式LLM、SmoothQuant、WINT8/4、连续批处理、FlashAttention、PagedAttention等技术。
QMoE是一种用于压缩类似于SwitchTransformer的万亿参数模型的实用解决方案,大大降低了内存需求。它以最小的准确性损失实现了20倍的压缩率,并且可以在经济实惠的硬件上高效运行。
datatrove是一个平台无关的数据处理开源工具,旨在解放数据处理中的脚本疯狂,提供一套可定制的管道处理块,支持高效的数据处理,适用于不同规模的数据。
H2O.ai的开源大语言模型GPT项目,旨在创建世界上最好的开源GPT模型,提供强大的自然语言处理能力,支持多种任务,适用于大规模应用。
基于ColossalAI的软件缓存方法来动态管理CPU和GPU内存空间中的极大嵌入表,能够在单个GPU上高效训练包括91.10 GB嵌入表的DLRM模型,仅需分配3.75 GB的CUDA内存,适用于大规模数据集。
该项目是一个基于SAM的显微镜分割和跟踪工具,旨在通过自动化技术提高显微镜图像分析的效率。它集成了先进的深度学习模型,能够支持显微镜图像的自动分割和细胞在时间序列中的变化跟踪,适合处理大规模数据集,并提供用户友好的界面。
使用AI生成的表单,以转化更多潜在客户。
MisguidedAttention是一个集合,旨在利用误导信息挑战大型语言模型的推理能力,主要通过修改经典思维实验和谜题来检验模型的鲁棒性。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
EMMA是一个增强型多模态推理基准测试,用于评估大型多模态语言模型在数学、物理、化学和编程等领域的推理能力,帮助研究者发现模型在复杂多模态任务中的局限性。
Llog是一个为大型语言模型(LLM)设计的协作分析与洞察工具,能够通过简单的请求记录最终用户的交互,并便于所有商业利益相关者从这些日志中提取、分享和推导洞察。
PRM800K是一个用于训练过程监督奖励模型(PRM)的数据集,旨在提高大型语言模型在复杂推理任务中的准确性,尤其是在数学问题上。该数据集包含800K个步进级标签,覆盖12K个问题的75K个解决方案,使用主动学习技术选择最具信息量的数据样本进行人工注释,从而提供细粒度反馈,通过评估中间推理步骤来改进结果,最终提高解决率,从42.5%提升到78%在MATH数据集子集上。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
该项目演示了如何利用大模型进行蒸馏来构建小模型,从而在某些领域实现比大型模型更强的推理效果。
NanoFlow是一个面向大型语言模型(Large Language Models, LLMs)的高吞吐量高性能服务框架,采用设备内并行性、异步CPU调度和SSD卸载等关键技术,显著提升资源利用率和推理吞吐量。