该项目实现了针对语言模型的攻击方法,特别是在指令调优过程中,旨在提高模型对恶意输入的鲁棒性,同时研究指令调优对模型性能的影响。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Residual Prompt Tuning是一种通过残差重参数化方法来改善提示调优性能的技术,旨在提高自然语言处理任务中的效果,优化预训练语言模型的表现。
StructuredRAG是一个用于评估大型语言模型(LLM)遵循响应格式指令能力的六个任务基准,旨在研究不同提示策略对模型性能的影响,并提供复杂任务的性能评估。该项目还包括开源实验代码和结果,方便研究人员进行进一步探索。
ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型