WarmCall是一个利用AI语音机器人来评估销售提案的平台,旨在提高买卖双方的互动效率。通过自动化评估,买家可以与经过审核的供应商进行互动,确保销售提案的相关性和有效性。
LangFair是一个Python库,旨在评估大型语言模型(LLM)在具体用例中的偏见和公平性。它提供超过20种评估指标,支持多种LLM用例,并配备自动化评估工具,简化了评估流程。
META发布的综合性RAG基准测试工具,专门用于评估检索增强生成(RAG)系统的性能。
Bench是一个用于评估语言模型(LLM)在生产用例中的工具,支持多种语言模型的评估,并提供详细的评估报告和指标,易于集成到现有的生产环境中,且支持自定义评估用例。
Haven是一个用于大型语言模型微调和评估的工具,拥有简单的用户界面,可以方便地进行模型微调并基于多种标准进行评估。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
该论文探讨了语言模型在反事实任务中的能力和限制,揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。
Aviary是一个基于Gymnasium框架的语言模型Agent训练平台,专注于构建性任务,提供了灵活的训练环境和多种模型集成,旨在满足研究和应用中的多样化需求。
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
一套评估大语言模型AI研发能力的任务集合,包含7个具有挑战性的任务,涵盖Rust代码编程、GPT-2微调、嵌入修复、LLM训练优化、GPU内核优化等领域,每个任务都有明确的评分标准和基准分数,用于测试AI代理与人类专家的能力对比
SciBench旨在评估语言模型在复杂科学问题解决中的推理能力。通过开放和封闭数据集的深入基准测试,研究发现当前的语言模型在整体性能方面表现不佳,仅得到35.80%的分数。
提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
GPT4All是一款在本地运行的大型语言模型(LLM),最新发布了V3.0版本,支持多种模型架构,并与多种工具和平台集成。它基于LLaMa模型,使用约80万条GPT-3.5-Turbo生成的数据进行训练,支持多种类型的对话,包括代码和故事。GPT4All完全本地运行,确保数据隐私,支持Windows、MacOS、Ubuntu等操作系统,并具有改进的UI/UX。
‘英特尔创新大师杯’深度学习挑战赛赛道3专注于中文自然语言处理中的地址相关性任务,提供了一种基于深度学习的高效解决方案,包含模型训练、评估及开源实现,旨在促进社区的使用与贡献。
Cerbrec Graphbook 是一个图示平台,旨在让数据科学家专注于模型架构,而非基础设施和软件工程。用户可以从原子级别查看和编辑模型架构,提供透明的AI建模,避免黑箱问题。此外,Graphbook还支持实时检查数据类型和形状,简化模型调试过程,快速识别和修复错误。该平台还抽象了软件依赖关系和环境配置,使用户能够专注于模型架构和数据流。
Cleora PRO帮助数据科学和分析团队在没有昂贵硬件的情况下创建高质量的嵌入。用户可以通过加入Cleora PRO的私人测试版,从数据库中提取三列数据,系统会自动检测数据中的图形。