ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
一个用于评估大语言模型在数字猜谜游戏中表现的测试框架,支持多个LLM提供商,提供全面的性能指标分析和可视化结果,测试模型的推理能力和上下文记忆能力,包含成功率、格式合规性和效率等多维度评估
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
Open-LLM-Leaderboard是一个用于追踪各种大型语言模型(LLMs)在开放式问题上的表现的基准测试平台,旨在反映模型的真实能力,并通过开放社区促进共同进步。
该项目实现了针对语言模型的攻击方法,特别是在指令调优过程中,旨在提高模型对恶意输入的鲁棒性,同时研究指令调优对模型性能的影响。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
人工智能工作室是一个用户友好的网页应用,旨在简化超参数调优这一通常令人头疼的任务。它提供了一个直观的用户界面,允许用户轻松尝试不同的超参数,从而优化他们的模型。
MathPile是一个多样化且高质量的以数学为中心的语料库,包含约95亿个tokens,数据来源广泛,适用于教育和研究。
情感球体是一款在线平台,旨在帮助用户记录和管理情绪与心情。它不仅作为个人日记和情绪追踪工具,同时提供关于情感健康和心理状态的深入洞察。用户可以通过创建账户,记录每日的情绪和心情,添加相关的笔记和经历。该平台还允许用户设置提醒,以便在一天中定期记录情绪,并生成详细的报告和可视化图表,帮助用户理解影响情感健康的模式和触发因素。
Apollo是一个多语言医学模型、数据集、基准和代码的开源项目,旨在为英语、中文、法语、印地语、西班牙语和阿拉伯语提供医学领域的自然语言处理能力。
Tech Tool Decode由New Age Content Services LLP提供,专注于对人工智能工具、应用程序和服务的评估,旨在帮助初创企业、中小企业和个人开发者选择合适的技术工具并优化其实施。
旨在复制Anthropic的Crosscoders,用于模型差异分析,通过训练模型对比不同版本间的细微差别。该项目提供了易于使用的接口和工具,可以帮助研究人员和开发者深入理解模型的变化。
UltraEval-Audio是一个评估音频大模型的工具,类似于给智能语音助手打分,能够快速、方便地测试其表现,旨在帮助开发者优化和提升语音相关应用的质量。
Promptfoo是一个专门为测试和增强语言模型数学(LLM)提示而设计的库,提供强大的工具来评估提示质量和模型输出,从而提升结果。
SuperCLUE-Llama2-Chinese是基于SuperCLUE的OPEN基准,为Llama2开源模型提供全方位的中文评估,支持多种评测指标,致力于推动中文自然语言处理的发展。