Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

Diverse Preference Optimization (DivPO) 是一种在线优化方法,旨在解决大型语言模型(LLM)在后训练阶段普遍存在的多样性坍缩问题。通过在偏好优化过程中引入多样性考量,DivPO 能够生成更多样化的回复,同时保持生成内容的质量。该项目由 Jack Lanchantin, Angelica Chen, Shehzaad Dhuliawala, Ping Yu, Jason Weston, Sainbayar Sukhbaatar, Ilia Kulikov 在 2025 年发表,特别适用于需要多样性的创意生成任务,如故事生成和人物属性生成。
Diverse Preference Optimization (DivPO)的特点:
- 1. 生成更多样化的响应,相比标准管道显著提升多样性
- 2. 保持生成内容的质量,胜率与标准基线相当
- 3. 使用基于响应池和多样性测度的偏好对选择方法
Diverse Preference Optimization (DivPO)的功能:
- 1. 故事生成:在文学创作或游戏设计中,生成更多样化的故事剧情
- 2. 人物属性生成:在角色设计或虚拟角色创建中,生成更多样的人物属性
相关导航

2:4 Activation Sparsity Accelerating Transformer Inference and Training论文 – 加速Transformer训练和推理的稀疏性技术
该项目利用2:4稀疏性模式,通过硬件加速的GPU稀疏性来优化Transformer模型的训练和推理过程。特别针对Squared-ReLU激活函数,该函数天然具有高稀疏性(84-98%),在不损失准确性的情况下,前向和后向传播中的前馈网络(FFN)计算速度提高高达1.3倍。项目通过自定义内核高效处理稀疏操作,并通过张量分割和令牌排列优化后向传播,展示了稀疏性在加速大型语言模型(LLM)中的关键潜力。
暂无评论...