一个全面的语音智能体测试和评估框架,帮助开发者优化LLM驱动的语音助手。它支持多种语言模型和提示词的对比测试,允许自定义评估指标,能够实现模型迁移和成本优化,同时系统地测试不同场景下的代理表现,非常适合语音助手的开发和迭代优化。
FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
Promptfoo是一个专门为测试和增强语言模型数学(LLM)提示而设计的库,提供强大的工具来评估提示质量和模型输出,从而提升结果。
一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出效果和对齐度
OpenPipe是一个自托管的平台,旨在以数据驱动的方式快速生成、测试和比较LLM提示。用户可以轻松地在不同模型之间翻译提示,从而优化模型的表现。
GPT vs. Gemini是一个平台,用户可以通过输入提示,实时获得来自多个模型的响应,从而比较GPT-4与其他模型的效果。该平台还提供Gemini 1.5 Pro的私人测试版,具有1M的上下文窗口,方便用户进行深入的对比和探索。
LLM Prompt & Model Playground 是一个让用户可以并排测试两个LLM提示、模型或配置的工具。它支持多种输入的实时测试,极大地加快了提示和模型的测试过程,并且提供了慷慨的免费使用额度。该项目由Context.ai开发。
Many Shot Predictions应用程序是一款强大的工具,能够比较和分析各种AI模型的性能。用户可以使用不同的模型对相同的提示进行多次预测,从而得出最佳答案。
Promptmetheus是一个开发平台,旨在帮助用户为OpenAI平台撰写、测试和评估一次性提示。它使用户能够为他们的应用程序创建专用的AIPI(AI编程接口),充分利用ChatGPT和其他大型语言模型的强大功能。
ChatPlayground.ai是一款强大的AI工具,用户可以访问一流的AI模型,并能够比较不同模型的输出效果。此外,它还提供了AI浏览器助手和定制的AI工作流程功能,帮助用户在网络上更高效地使用AI技术。
GPTs-DATA是一个综合性的数据库,包含超过13600个GPT模型、60多个导航网站和每周10多个独家提交门户。该项目致力于提供最新的GPT模型和资源,确保用户获取的信息始终保持新鲜和相关。
大型语言模型的数据、模型和基准集市,为ChatGPT的大众化贡献力量
截至目前,国内已经有了个 188 大语言模型,LLMs-In-China 收录了中国境内的多种大语言模型信息,提供模型的基本参数和性能指标,包含模型的使用案例和应用场景,并支持用户提交新的模型信息。
thisorthis.ai 是一个平台,旨在比较、分析和分享多个AI模型的提示,以便通过数据驱动的比较来优化AI策略,帮助用户更快做出明智的决策。
ZenPrompts是一个卓越的工具,旨在提升你的提示工程技能,并策划一个令人印象深刻的提示组合。该平台提供强大的提示编辑器,使你能够创建、完善、测试并轻松分享提示。
《解构大语言模型:从线性回归到通用人工智能》配套代码,提供了大语言模型的实现与分析,展示了线性回归与语言模型之间的关系,并支持多种数据集与训练配置,易于扩展与自定义。
DeepChecks为开发者、数据科学家和质量保证团队提供全面的检查与平衡工具,确保生成式AI的质量和合规性。其开源框架支持快速迭代和持续监控,大幅提升了机器学习模型的性能和可靠性。
imodelsX是一个专注于自然语言处理的可解释性模型,利用大型语言模型为数据集提供自然语言解释,增强NLP任务的透明度,并支持多种提示和模型选择。