φ-Decoding开源 – 优化大型语言模型推理的算法

φ-Decoding 是一种专为大型语言模型（LLM）设计的推理优化算法，通过自适应前瞻采样实现探索与利用的平衡。它将解码定义为前瞻采样，模拟未来步骤以估计全局最优步骤，并结合步骤优势和对齐评估，构建步骤值估计函数。通过宽度内和深度内剪枝策略，φ-Decoding 实现了自适应计算分配，显著提高了推理效率。在多个基准测试中，φ-Decoding 在性能和效率方面均优于自回归 CoT、Tree-of-Thoughts 和 MCTS 等基线方法，并展示了在各种 LLM 上的泛化能力。

φ-Decoding的特点:

1. 前瞻采样：模拟未来步骤以估计全局最优步骤。
2. 步骤值估计：通过前瞻和聚类近似两个分布，估计每个步骤的价值。
3. 剪枝策略：使用宽度内和深度内剪枝策略，确保计算分配的适应性和效率。

φ-Decoding的功能:

1. 优化大型语言模型的推理时间推理过程。
2. 在学术研究中用于提升 LLM 的推理性能。
3. 在实际应用中用于加速复杂任务的推理速度。

相关导航

string2string开源项目 – 高效解决字符串问题的工具

一个开源工具，提供一套高效的算法，用于解决字符串对字符串的问题，支持多种先进技术和传统算法，帮助用户进行字符串的配对、对齐和分析。

IBPO论文 – 优化大型语言模型推理效率的算法

IBPO（Inference Budget-Constrained Policy Optimization，推理预算约束策略优化）是一种新算法，旨在提高大型语言模型在数学问题上的推理效率。该算法通过将推理预算建模为带约束的效用最大化问题，使模型能够根据查询的难度自适应地分配推理预算，从而在保证甚至提升性能的同时降低推理成本。研究表明，IBPO在MATH500数据集上实现了显著改进，尤其是在2.16倍和4.32倍推理预算下，分别带来了4.14%和5.74%的绝对性能提升。

flash_attention_inference开源项目 – 优化LLM推理注意力机制

Flash Attention推理助手是一个专为大型语言模型（LLM）推理场景设计的工具，主要研究Flash Attention及其v2版本的C++接口性能。该工具通过优化和简化推理过程中的注意力机制，支持多种注意力推理模式，从而显著提高推理效率。它适用于需要高效处理大型语言模型推理任务的场景，帮助用户更好地理解和优化注意力机制的性能。

Unsloth官网 – 优化大型语言模型微调效率

Unsloth 是一个开源项目和初创公司，专注于优化大型语言模型（如 Llama、Mistral、Phi-4 等）的微调效率。它通过开源算法和免费工具包，将微调速度提高至原来的 2 倍，并减少 80% 的内存占用，从而降低开发者训练成本和硬件门槛。项目提供免费开源版本和付费计划（Pro 和 Enterprise），支持多种 GPU（如 NVIDIA、AMD、Intel）。

The Algorithm开源项目 – 开源的Twitter推荐算法

Twitter的推荐算法代码，旨在提供个性化的用户体验并推送有吸引力的内容。该算法通过分析用户与推文的互动、推文内容、社交图谱信息等，灵活地调整推荐策略，致力于提升用户的参与度和满意度。

CISC论文 – 优化大型语言模型推理性能

CISC（Confidence-Informed Self-Consistency）是一种针对大型语言模型（LLMs）的新型解码策略，通过整合模型为每个推理路径生成的置信度评分来增强自洽性，显著降低计算成本，同时保持甚至提升模型在推理任务上的性能。该方法通过加权多数投票选择最终答案，平均减少超过40%的推理路径数量，适用于数学和常识推理任务。

Reward-Guided Speculative Decoding (RSD)开源 – 提升LLM推理效率的框架

RSD是一种创新框架，通过结合轻量级草稿模型、强大目标模型和过程奖励模型，动态优化大型语言模型(LLMs)在推理任务中的计算成本与输出质量平衡。该框架在处理复杂推理任务时效率可达目标模型的4.4倍，准确率平均比并行解码方法高3.5%，特别适合资源受限环境。项目基于Qwen2.5-Math和Skywork-o1-PRM等开源模型构建，支持在线(需3个GPU)和离线(需1个GPU)两种运行模式。

ChatPilot开源项目 – 智能对话助手

ChatPilot是一款基于LangChain的智能对话助手，集成了Google搜索、文件网址对话（RAG）和代码解释器功能，复现了Kimi Chat的交互体验。支持OpenAI/Azure API，提供前后端分离的服务架构，前端使用Svelte，后端使用FastAPI。

animate-your-word开源项目 – 动态文字动画生成

animate-your-word 是一个基于视频扩散先验的自动化文本动画生成项目，旨在通过将静态文字转化为动态视觉元素，增强语义表达和动态效果。该项目结合了字母的语义变形和动画技术，使用户能够通过简单的提示生成具有复杂情感和信息的动态文字动画。

Spatial Transformer Network (STN) with Thin Plate Spline (TPS)开源项目 – 基于TPS的空间变换网络

该项目是一个基于PyTorch实现的Spatial Transformer Network (STN)，采用Thin Plate Spline (TPS)技术进行空间变换，能够灵活地对输入图像进行几何变换，支持高效的训练与推理。

XNOHub开源项目 – 炫酷的实时数据 3D 可视化 Web

XNOHub 是一个效果非常炫酷的实时数据 3D 可视化 Web，允许链接 WebSocket 到 Nano 区块链网络节点，实时显示交易和交易发起点，并采用太空地球交互风格展示。

Lagent开源项目 – 轻量级智能代理框架

Lagent是一个专为轻量AI代理设计的开源框架，旨在为开发者提供高效构建智能代理的工具。它通过简化的架构支持快速开发与部署，特别适用于资源受限场景。Lagent支持用户快速地将一个大语言模型转变为多种类型的智能体，并提供了一些典型工具为大语言模型赋能。

Neko开源项目 – 构建安全私密的虚拟浏览器

一个可用来构建虚拟浏览器的开源工具，提供安全、私密的网络浏览环境，支持多人同时访问并可开启聊天。

rectified-flow开源项目 – Flow Matching生成模型框架

基于PyTorch从零实现的Flow Matching生成模型框架，支持MNIST数据集的有条件和无条件生成。包含MiniUnet模型结构，支持classifier-free guidance，可在CPU上运行。提供了完整的训练推理代码和详细注释，适合学习和理解Flow Matching算法原理

Baichuan-M1-14B开源项目 – 医疗场景优化的开源大语言模型

百川智能开发的首个专为医疗场景优化的开源大语言模型，旨在通过先进的技术手段助力医疗领域的智能化升级。该模型经过20万亿token高质量数据的训练，具备卓越的性能，尤其在医疗推理能力上提升了5倍，能够精准高效地处理复杂的医疗任务。此外，其创新的模型结构使其在长序列任务中表现更为出色，能够更好地应对医疗数据中的长序列问题。

暂无评论

暂无评论...