Non finito是一个专注于多模态模型评估的工具,旨在为用户提供简单易用的平台,以便比较不同模型并公开分享评估结果。与大多数只关注语言模型的工具不同,Non finito强调多模态模型的重要性,确保每个人都能轻松进行模型评估。
LLMEVAL-2 是一款专为评测中文大语言模型性能而设计的工具,支持多种评测指标和方法,提供易用的接口和文档,集成了多种预训练模型,并允许用户自定义评测任务。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
AskMore利用人工智能为您进行用户访谈,帮助您更快速、更深入地获取反馈,支持多种语言。只需说明您想要了解的内容,AskMore将提供一个可分享的访谈链接,方便您与用户进行互动。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
LLM Zoo收集了各种开源和闭源语言模型的信息,包括发行时间、模型大小、支持的语言、领域、训练数据以及相关资源链接。旨在为自然语言处理(NLP)领域的研究人员提供参考,以帮助其选择适合其需求的模型。
人工智能工作室是一个用户友好的网页应用,旨在简化超参数调优这一通常令人头疼的任务。它提供了一个直观的用户界面,允许用户轻松尝试不同的超参数,从而优化他们的模型。
Algomax是一个平台,旨在简化您的LLM和RAG模型评估,提升提示开发效率,并通过独特的定性指标洞察加速开发过程。该平台提供直观的仪表盘,便于您轻松集成到工作流程中,评估模型性能,评估引擎设计精准,能够深入洞察模型行为。
Persona是一个通过分析故事内容,识别作者个性特征的工具。该项目利用Gemini AI技术,提取与个性相关的属性,帮助用户理解写作风格与内心世界。
一个用于评估奖励模型和LLM裁判的基准测试,帮助在大规模LLM训练和评估中复制人类偏好,包含真实的人类偏好数据和可验证的正确性偏好数据。
Humanity's Last Exam (HLE) 是一个多模态基准,位于人类知识的前沿,旨在成为此类学术基准的最终封闭式评估,覆盖广泛的学科领域。
AnyModel是一个工具,允许用户将多个AI模型的输出并排展示。用户可以利用来自多个AI的信息,选择最适合自己需求的模型,从而获得更平衡的视角,并通过比较多个模型的输出,轻松识别'幻觉'现象。