直接偏好优化 (DPO) 是一种新算法,旨在改变大语言模型(LLM)与人类反馈的对齐方式,提供强化学习的替代方案,从而提高模型对人类偏好的理解和响应能力。
RoRF路由森林是一个基于随机森林的模型路由框架,能够通过智能选择不同模型来降低成本,同时保持或提升性能,特别适用于大规模语言模型(LLM).
GPT-Minus1是一个通过随机替换文本中的单词为同义词来帮助迷惑GPT的工具。它旨在通过引入微妙的变化来增强文本生成模型的性能和准确性。用户只需输入文本并点击'Scramble'按钮,该工具就会随机替换单词,从而创建修改后的文本版本,用户可以使用该文本来迷惑GPT或其他文本生成模型。
GRANDE是一个基于梯度的决策树集成项目,旨在提高模型的准确性和可解释性,适用于多种机器学习任务。
Yi是一个专为高效语言模型设计的开源框架,支持从零开始训练的大型语言模型。它包含两款双语模型Yi-6B及Yi-34B,均自研训练,参数规模分别为6B和34B。Yi通过优化算法与资源管理,提供从实验到部署的完整流程,支持多种语言的文本生成、对话系统和问答任务。
一种利用隐式神经表示法表示复杂数据结构的方法,适用于多种数据类型的学习和生成建模任务。
OpenDelta是一个开源框架,旨在实现高效的参数调优(Delta Tuning),支持多种机器学习模型和任务,具有易于集成和扩展的特点,能够优化计算资源的使用。