TaxEval 是一个专注于税务领域的语言模型评估工具,支持多种评估指标并提供详细的评估报告,便于集成到现有的税务应用中。
该项目汇集了关于视觉生成模型评估的相关作品,包括评估指标、模型和系统的详细信息。
Many Shot Predictions应用程序是一款强大的工具,能够比较和分析各种AI模型的性能。用户可以使用不同的模型对相同的提示进行多次预测,从而得出最佳答案。
通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
LLM Comparator是一个交互式数据可视化工具,旨在并排评估和分析大型语言模型的响应,由PAIR团队开发。
LLM大型语言模型笔记,包含年份、论文、代码等信息,帮助您了解各个模型的发展历程和应用