HAL Harness是由普林斯顿大学SAgE团队开发的AI Agent评估框架和排行榜,旨在解决评估过程中的复杂性和效率问题。它支持多种基准测试(如SWE-bench、USACO等),可在本地或云端运行,并通过并行化提高效率。与Weave集成实现自动化的成本跟踪和日志记录,提供Pareto前沿可视化等功能。
Model Royale是一个允许用户比较各种语言模型(LLMs)的平台,帮助用户识别最适合其特定需求的模型。用户可以在不同模型中输入相同的提示,并根据响应时间、token使用量和响应质量分析结果。
LLM Zoo收集了各种开源和闭源语言模型的信息,包括发行时间、模型大小、支持的语言、领域、训练数据以及相关资源链接。旨在为自然语言处理(NLP)领域的研究人员提供参考,以帮助其选择适合其需求的模型。
LLMArena是一个易于使用的工具,可以帮助用户并排比较多个大型语言模型(LLM),并美观地分享这些比较。用户可以选择2到10个LLM进行对比,生成直观的比较结果。
FLEX是一个用于进行统一的、严格的少样本NLP评估的基准和框架,旨在为研究人员和开发者提供一个标准化的评估平台,支持多种NLP任务,便于比较不同模型的性能,并允许用户根据需要自定义评估指标。
Hypercharge AI: Parallel Chats 允许用户同时访问多达10个独立的聊天线程,每个线程涉及不同的系统提示和多种大型语言模型(LLMs)。它提供了首个以卡片式UI展示线程对话的移动聊天机器人界面,提升了用户的交互体验。
GPT4All是一款在本地运行的大型语言模型(LLM),最新发布了V3.0版本,支持多种模型架构,并与多种工具和平台集成。它基于LLaMa模型,使用约80万条GPT-3.5-Turbo生成的数据进行训练,支持多种类型的对话,包括代码和故事。GPT4All完全本地运行,确保数据隐私,支持Windows、MacOS、Ubuntu等操作系统,并具有改进的UI/UX。
Thelo是一个帮助用户选择合适的语言模型(LLM)供应商的平台,它不仅优化各类提示的响应,还能为每个提示找到最佳且最具成本效益的解决方案。通过使用Thelo,用户可以轻松比较不同供应商的性能和价格,从而做出明智的决策。
openlogprobs是一个Python API,旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率,支持topk搜索和精确解算法,从而有效提取语言模型API的完整概率向量。
1000gpt是一个平台,提供由个人创作的各种定制GPT模型。用户可以根据自己的需求找到合适的语言模型,充分释放人工智能的潜力。
Prompt Space是一个全球性的AI提示市场,用户可以在这里使用加密货币购买和出售针对DALL-E 2、Midjourney、ChatGPT和Stable Diffusion的提示。
spelltest 是一个专为语言模型设计的测试工具,能够自动生成测试用例,评估模型性能,并提供详细的测试报告。它支持多种语言模型,用户可以根据需要定制测试参数,以便更好地适应不同的测试场景。
一款用于生成和优化语言模型提示的工具,支持从零开始创建提示或将现有提示转换为Claude3提示,以提高输出效果和对齐度
Clipboard Conqueror 是一个本地多后端的助手替代品,能够与操作系统的复制和粘贴功能协同工作。用户可以编写代理,立即调用它们,混合或串联提示,是网络上最强大的助手替代品,具备丰富的功能。
bench.audio 是一个开源的语音代理评估基准,类似于 LMSYS 的 ELO 基准,旨在让两个不同的语音代理进行对话,并投票哪个表现更好。该项目还计划推出 GPT-4o,以进一步提升其功能和性能。