一个用于评估大语言模型在数字猜谜游戏中表现的测试框架,支持多个LLM提供商,提供全面的性能指标分析和可视化结果,测试模型的推理能力和上下文记忆能力,包含成功率、格式合规性和效率等多维度评估
iGSM是一个用于生成小学数学问题数据集的工具,能够创建不同难度级别的数学问题,并评估解决方案的正确性。该工具旨在帮助研究人员分析语言模型在数学推理方面的能力,同时创建可用于教育和研究的数据集。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
本研究使用基准测试,将GPT-4及其多模式版本与人类在抽象和推理任务上进行了比较。结果显示,即便使用详细的单次提示和简化的图像任务,两个版本的GPT-4都未能达到人类水平的抽象推理能力。
Promptmetheus是一个开发平台,旨在帮助用户为OpenAI平台撰写、测试和评估一次性提示。它使用户能够为他们的应用程序创建专用的AIPI(AI编程接口),充分利用ChatGPT和其他大型语言模型的强大功能。
LLM预训练数据质量分类工具,支持本地或Huggingface Hub数据集的多维度评估,可总结数据集质量、筛选数据集或训练自定义分类器
LockedIn是一个基于网络的应用程序,提供快速、精准的时间序列预测,采用Roadmap Technologies的顶级机器学习引擎Geneva Forecasting。用户可以直接从电子表格运行预测,并获得实时的AI洞察。