OpenFactCheck是一个开源的事实核查演示,专为大型语言模型(LLMs)设计,旨在整合各种事实核查工具,提供全面的事实核查流程。该项目支持多种核查工具的整合,使得用户能够高效地进行事实核查,并且由于其开源特性,开发者可以根据需求进行扩展和定制。
TrustLLM专注于LLM(大型语言模型)的可信度研究,制定了不同维度的评估原则,并建立了涵盖真实性、安全性、公平性、鲁棒性、隐私性和机器伦理六个维度的基准评估。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
Graphzila利用OpenAI的GPT-3.5 Turbo,将文本描述转化为详细的知识图谱。用户只需输入文本描述,系统便会生成知识图谱,并允许自定义节点和边的属性,如颜色和维基百科链接,以更生动地可视化信息。
GPTExcel是一个创新工具,旨在简化Excel、Google Sheets和Airtable的工作流程,通过AI生成复杂公式、脚本、SQL查询和正则表达式,提高用户在数据分析和表格管理任务中的生产力。它具有用户友好的界面和多种功能,是新手和专业用户的得力助手。
OpenCompass是一个大型语言模型评测平台,支持20多种模型和50多个数据集,能够通过高效的分布式评估技术进行快速全面的基准测试。
QLLM是一个通用的大语言模型量化工具箱,支持2-8位的LLM量化,用户可以轻松使用GPTQ和AWQ方法进行模型量化和压缩。该工具箱提供了易于使用的工具和接口,适用于多种大语言模型,旨在帮助用户在不同精度下评估模型性能。
Inspect是一个用于评估大型语言模型性能的框架,提供多种评估指标与方法,支持不同类型的模型,易于与现有机器学习工作流集成,同时支持可视化和结果分析。
一款用于评估和红队任何大型语言模型(LLM)应用的简单且模块化工具,由AI验证基金会开发,集成了基准测试和红队测试,帮助AI开发者、合规团队和AI系统所有者评估LLMs和LLM应用。
Fiddler Auditor 是一个用于评估语言模型鲁棒性的工具,旨在测试大规模语言模型(LLM)和自然语言处理(NLP)模型,识别模型中的弱点,并在将其部署到生产之前减轻潜在的对抗结果。
ChatLLM 是一个基础知识库,旨在帮助用户轻松使用大型语言模型(LLM)。它提供生产级的API,支持前后端分离,并兼容多种LLM模型,如文心一言和讯飞星火。该项目易于集成和扩展,具有友好的用户界面,方便开发者和用户使用。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
AIQUEST是一个网络信息整合平台,通过将网络知识注入CHATGPT,解决知识有限的问题。它提供总结的网络结果以及Google搜索结果,包括引用和相关建议。用户只需在搜索框中输入查询,平台将提供整合的网络知识和总结结果,便于查看来源和探索相关建议。
哈佛大学出品的新论文,旨在提升LLM在TrucefulQA数据集上的正确率。该项目通过改进模型的输出和修正机制,使得大型语言模型在处理特定数据集时表现更佳。
CAPTURELAB是一个创新平台,旨在改变专业人士和个人创建及管理数字内容的方式。它提供了一系列工具,简化捕捉、编辑和分发高质量视觉和媒体的过程,是希望增强数字存在感的用户不可或缺的资产。