直接偏好优化 (DPO)-改变 LLM 与人类反馈对齐的新算法

直接偏好优化 (DPO) 是一种新算法，旨在改变大语言模型（LLM）与人类反馈的对齐方式，提供强化学习的替代方案，从而提高模型对人类偏好的理解和响应能力。
直接偏好优化 (DPO)的特点:
1. 改变 LLM 与人类反馈对齐的方法
2. 强化学习的替代方案
3. 提高模型对人类偏好的理解

直接偏好优化 (DPO)的功能:
1. 优化大语言模型的输出
2. 在多种任务中应用人类反馈
3. 用于训练更符合人类期望的模型

相关导航

RoRF开源项目 – 基于随机森林的智能模型路由框架

RoRF路由森林是一个基于随机森林的模型路由框架，能够通过智能选择不同模型来降低成本，同时保持或提升性能，特别适用于大规模语言模型（LLM）.

GPT-Minus1官网 – 帮助通过同义词替换来迷惑GPT的工具

GPT-Minus1是一个通过随机替换文本中的单词为同义词来帮助迷惑GPT的工具。它旨在通过引入微妙的变化来增强文本生成模型的性能和准确性。用户只需输入文本并点击'Scramble'按钮，该工具就会随机替换单词，从而创建修改后的文本版本，用户可以使用该文本来迷惑GPT或其他文本生成模型。

GRANDE开源项目 – 基于梯度的决策树集成

GRANDE是一个基于梯度的决策树集成项目，旨在提高模型的准确性和可解释性，适用于多种机器学习任务。

Yi开源项目 – 高效多用途的大型语言模型框架

Yi是一个专为高效语言模型设计的开源框架，支持从零开始训练的大型语言模型。它包含两款双语模型Yi-6B及Yi-34B，均自研训练，参数规模分别为6B和34B。Yi通过优化算法与资源管理，提供从实验到部署的完整流程，支持多种语言的文本生成、对话系统和问答任务。

Generalised Implicit Neural Representations开源项目 – 隐式神经表示复杂数据结构

一种利用隐式神经表示法表示复杂数据结构的方法，适用于多种数据类型的学习和生成建模任务。

OpenDelta开源项目 – 高效的参数调优框架

OpenDelta是一个开源框架，旨在实现高效的参数调优（Delta Tuning），支持多种机器学习模型和任务，具有易于集成和扩展的特点，能够优化计算资源的使用。

AI4Finance开源项目 – 金融领域的强化学习与大语言模型应用

该团队专注于金融领域的强化学习（RL）和大语言模型（LLM）的应用，提供数据收集和量化分析的工具和资源。

RIP（Rejecting Instruction Preferences）论文 – 提升指令微调数据质量的新方法

RIP是一种新型数据筛选方法，通过分析拒绝回复的质量、长度以及奖励差异来筛选指令提示，从而提升指令微调数据的质量和模型性能。该方法基于直接偏好优化（DPO）中的偏好对，能够筛选掉低质量的指令提示，并可以扩展为Self-RIP，用于生成高质量的合成指令数据。研究显示，RIP在Llama 3.1-8B和Llama 3.3-70B模型上显著提升了性能。

LLMParser开源项目 – 利用大语言模型提取结构化数据

LLMParser是一个简单灵活的工具，旨在利用大语言模型从文本中进行分类和提取结构化数据。它支持多种文本格式，能够从非结构化文本中提取有用的信息，同时提供用户友好的接口和配置选项，以便用户轻松上手和定制自己的数据处理需求。

Index-1.9B开源项目 – 哔哩哔哩自研的大语言模型

哔哩哔哩自研大语言模型，提供多样化的对话和角色扮演功能，支持多种评测基准，具有领先的性能表现

mini_qwen开源项目 – 1B参数中英文大语言模型

mini_qwen是一个从头开始训练的1B参数的大型语言模型(LLM)项目，包括预训练(PT)、微调(SFT)和直接偏好优化(DPO)3个部分。该项目基于Qwen2.5-0.5B-Instruct模型，通过扩充模型隐藏状态层数、隐藏状态维度和注意力头数，增加参数量到1B，并进行参数随机初始化。支持中英文，预训练和微调仅需要12G显存，直接偏好优化仅需要14G显存。使用flash_attention_2进行加速，使用deepspeed在6张H800上进行训练，探究了尺度定律(scaling law)、复读机现象与微调阶段的知识注入。

Reasoning-Self-Evolution-Survey – 大模型推理能力深度调研

该项目是一份关于大语言模型复杂推理能力的深度调研报告，通过‘自我进化’的视角，探索如何让模型更聪明地思考和解决问题。报告涵盖了多种推理方法，提供了丰富的资源链接，并定期更新以紧跟最新研究动态。

ProtoReplicant开源项目 – 浏览器中的AI 3D化身语音接口

ProtoReplicant是一个在浏览器中实现的AI 3D化身语音接口，集成了语音活动检测、语音转文本、大语言模型、文本转语音和虚拟角色模型等技术，旨在提供一种互动性强的用户体验。

RLAIF-增强人类反馈的强化学习

RLAIF通过人工智能反馈扩展人类反馈的强化学习，表明可以在不依赖人类注释者的情况下产生与RLHF相当的改进。

百聆开源项目 – 开源语音对话助手

百聆是一个开源的语音对话助手，结合了语音识别 (ASR)、语音活动检测 (VAD)、大语言模型 (LLM) 和语音合成 (TTS) 技术，旨在通过语音与用户进行自然的对话。该项目可以在无需GPU的情况下实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。百聆具有高效开源模型、模块化设计、支持记忆功能、工具调用和任务管理等特点，提供高质量的语音对话体验，端到端时延800ms。

Visual-Thinker开源项目 – 让大语言模型学会看图思考

Visual-Thinker 是一种新方法，旨在让大语言模型具备理解视觉信息的能力。通过纯文本描述迷宫等复杂场景，模型能够自主规划路径，并在遇到困难时学会“重启”。该方法通过GRPO优化显著提升了模型的性能，使其在路径规划等任务中表现优异。

Nanbeige-16B开源项目 – 强大的160亿参数大语言模型

Nanbeige-16B（南北阁-16B）是南北阁大模型实验室研发的160亿参数规模的大语言模型，采用了2.5T Tokens进行预训练，数据包含大量互联网高质量语料、各类书籍、代码等领域脱敏文本，在各个权威测评数据集上都取得了不错的效果。本次发布包含有 Base、Chat 以及扩展上下文长度的 Base-32k、Chat-32k 版本。

DeepBI开源项目 – AI原生的数据分析平台

DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据，用户可以使用DeepBI洞察数据并做出数据驱动的决策。

对齐手册开源项目 – 微调语言模型以符合人类和AI偏好

《对齐手册》主题是如何使用不同技术来微调语言模型，以使其更符合人类和AI的偏好。

Awesome-LLM-Tabular开源项目 – 大语言模型在表格数据应用的资源汇总

一个整理的大语言模型在表格数据应用的论文资源列表，汇集了大量与表格数据处理相关的研究资源，并提供对大语言模型在这些应用中的深入分析。项目持续更新，确保资源的时效性和相关性，支持多种表格数据处理任务的参考资料。

NVIDIA NeMo开源项目 – 生成式AI框架

NVIDIA NeMo是一个可扩展的云原生生成式AI框架，专为研究人员和PyTorch开发者设计，支持大语言模型（LLM）、多模态模型（MM）、自动语音识别（ASR）、文本转语音（TTS）和计算机视觉（CV）等领域。它旨在帮助用户高效地创建、定制和部署新一代AI模型，利用现有的代码和预训练模型检查点。NeMo基于Python配置，采用模块化抽象，支持在成千上万个GPU上进行大规模实验。

暂无评论

暂无评论...