Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
Branches是一个基于图的高级算法原型工具,专为大型语言模型(LLM)的推理和规划设计,旨在提升模型的推理能力和优化决策过程。
该项目主要聚焦于推理任务,提供一个大型AI模型或基础模型的资源列表,旨在为研究人员和开发者提供丰富的推理模型选择及相关信息。
OpenThought ARC-AGI-2是一个开源项目,旨在构建认知核心,以解决人工智能领域中的各种挑战。该项目专注于开发能够自我改进和进行推理的智能系统,为推动人工智能的进步提供基础。
支持ONNX模型量化的开源Python库,提供流行的模型压缩技术,如SmoothQuant和权重量化,适用于Intel硬件和流行的大型语言模型(LLM)。
该项目提供了一个关于大型语言模型推理的教程代码,涵盖了多种生成算法、元生成算法及高效元生成算法,旨在提高模型推理的效率和效果。用户可以通过该教程学习如何实施不同的算法,以优化文本生成和推理性能。
MInference是一种高效的长上下文大型语言模型(LLM)推理加速工具,采用动态稀疏注意力机制和稀疏计算方法,显著加速长序列处理的预填充过程。它能够在保持高准确性的同时,将LLM处理百万上下文的时间提速10倍,适用于A100等硬件平台。MInference可直接应用于现有的LLM,无需预训练或额外微调,已在多个基准模型上验证其性能。
该论文提出了一种训练语言模型的方法,通过同时预测多个未来Token来提高样本效率,并在多个生成基准上实现了显著的性能提升。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
一种高效加速大语言模型推理的技术,通过减少内存访问,几乎不损失性能,让模型运行更快更省资源
由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
本文提出了一种将自然语言转换为计算机能够理解的形式的框架,该框架将自然语言的任务、实体和关系翻译成概率性世界模型,并使用概率性程序来表示和推理这个世界模型。
Self-Consistency是Google提出的一种方法,通过对单一模型进行多次采样和结果融合,显著提升大规模语言模型的推理能力和输出结果的可信度。该方法特别适用于大模型,能够生成高质量的训练数据,从而优化模型的训练过程。
这是最大的约 100 万个数学竞赛问题解决方案对的集合,难度从初级挑战赛到数学奥林匹克预选赛不等。
DeepCompressor是一个专为大型语言模型和扩散模型设计的模型压缩工具箱,支持多种数据类型的假量化,旨在提高模型的推理速度和效率。
Imandra是一个推理即服务的平台,赋予AI逻辑推理能力,适用于构建大型语言模型的思维模型、正式验证论证和结果,以及可审计的逻辑推理。
Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
StreamingLLM 是一种语言模型,能够顺利处理无尽的文本而不会失去上下文信息流,从而实现与人工智能助手的深度对话和长文本总结。