TextArena 是一个专为语言模型评估和强化学习设计的文本游戏集合,提供多种基于文本的游戏环境,支持单机、双人和多人模式,具备本地和在线多人实时评分功能,并采用 Elo 排名系统。项目使用 OpenAI Gym 风格的接口,便于与各种框架集成,适用于语言模型在竞争性文本场景中的评估、强化学习实验、新文本游戏的开发与测试,以及与现有机器学习框架的集成研究。
Ottic是一个用于语言模型(LLM)产品的QA平台,旨在帮助技术和非技术团队高效测试基于LLM的应用程序。它提供了端到端的测试管理、全面的LLM评估和实时用户行为监控等功能。
Zeno Build旨在帮助开发人员快速构建、比较和迭代使用大型语言模型应用的工具,提供简单的代码示例和实验管理功能。
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
MedAlign是一个专门用于帮助临床医师遵循电子病历生成数据集的工具,旨在提升医疗数据的质量和一致性。该项目提供了一个基准数据集,包含983个自然语言指令,由15名临床医生策划,涵盖7个专业领域,并提供303个医生编写的参考响应。此外,它还包含276个纵向电子健康记录(EHR),用于指导指令-响应对,同时也可以用于评估六种常规领域语言模型的性能。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
一项关于代码大语言模型的调研报告,系统地回顾了语言模型在代码处理方面的最新进展。
Hallucination Leaderboard是一个用于评估大语言模型在生成摘要时的幻觉表现的排行榜,旨在提高对模型输出质量的理解和评估方法的透明度。该项目总结了多个知名语言模型在对短文进行摘要时的幻觉产生频率,目前显示GPT-4和GPT-3.5表现最佳。
DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4向源数据植入漏洞,并确保了严格的质量检查。
Promptfoo是一个专门为测试和增强语言模型数学(LLM)提示而设计的库,提供强大的工具来评估提示质量和模型输出,从而提升结果。
一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出效果和对齐度
OpenPipe是一个自托管的平台,旨在以数据驱动的方式快速生成、测试和比较LLM提示。用户可以轻松地在不同模型之间翻译提示,从而优化模型的表现。
GPT vs. Gemini是一个平台,用户可以通过输入提示,实时获得来自多个模型的响应,从而比较GPT-4与其他模型的效果。该平台还提供Gemini 1.5 Pro的私人测试版,具有1M的上下文窗口,方便用户进行深入的对比和探索。
LLM Prompt & Model Playground 是一个让用户可以并排测试两个LLM提示、模型或配置的工具。它支持多种输入的实时测试,极大地加快了提示和模型的测试过程,并且提供了慷慨的免费使用额度。该项目由Context.ai开发。
Many Shot Predictions应用程序是一款强大的工具,能够比较和分析各种AI模型的性能。用户可以使用不同的模型对相同的提示进行多次预测,从而得出最佳答案。
Promptmetheus是一个开发平台,旨在帮助用户为OpenAI平台撰写、测试和评估一次性提示。它使用户能够为他们的应用程序创建专用的AIPI(AI编程接口),充分利用ChatGPT和其他大型语言模型的强大功能。
ChatPlayground.ai是一款强大的AI工具,用户可以访问一流的AI模型,并能够比较不同模型的输出效果。此外,它还提供了AI浏览器助手和定制的AI工作流程功能,帮助用户在网络上更高效地使用AI技术。