RAG-Reward项目是一个研究项目,旨在通过奖励驱动的监督增强检索增强生成(RAG)模型的性能。该项目包括RAG-Reward数据集和RAG特定的奖励模型,用于生成合成数据集以微调RAG编码器,使其输出更符合人类偏好。研究表明,该方法在多个领域表现出显著性能提升,特别是在相关性和生成响应质量方面。项目通过强化学习从人类反馈(RLHF)优化RAG系统,展示了定制评估系统的重要性。
WebGUM 是一个新的解决方案,设计了适用于离线微调的更有效的奖励模型,能够以多模式方式获得对网页的深刻理解,并推理出下一步行动的准确度大大提升。
旨在开发并开源大型语言模型的对齐技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样和人类反馈强化学习(RLHF)等。
Petals是一个开源工具,旨在通过团队协作运行大型语言模型。用户可以加载模型的一小部分,与其他人合作以提供模型的其他部分,从而实现推理或微调。
Boss Copilot是一个基于AI的应用,作为您的助手,帮助创建大型语言模型应用。它使用多个代理相互协作,处理各种任务。用户只需安装Chrome扩展并启用即可,激活后可以提示AI代理执行工作流程、任务和代码,同时可以与ChatGPT沟通,利用GPT4的强大功能来完成项目。
distilabel是一个用于构建和管理数据集的AI反馈框架,旨在通过使用大型语言模型(LLM)实现高效的标签对齐。该工具具有强大的可扩展性,适合处理大规模数据,并提供了用户友好的接口,方便用户进行数据标注和反馈收集。
VERSE-65B 是由深圳元象科技自主研发的支持多语言的大语言模型,参数规模为 650 亿,开源的底座模型。
Confident AI是一个综合性的LLM评估平台,提供14种以上的指标来运行LLM实验,管理数据集,监控并整合人类反馈,以自动改进LLM应用。它与DeepEval协作,支持任何用例。
一个基于斯坦福的 Alpaca,并进行了中文优化的大语言模型项目,愿景是成为能够帮到每一个人的LLM Engine。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型