用于实验、评估和部署基于检索增强生成 (RAG) 的系统的工具包,支持各种大语言模型 (LLM),旨在减少 LLM 幻觉风险并提高可靠性。
parea.ai 是一个专为调试和监控大型语言模型(LLM)应用而设计的开发者工具包。用户可以通过该平台轻松管理LLM工作流程,评估和比较不同的提示,监控应用程序的性能,并进行版本控制和迭代。
本文评估了LLM自动生成特征归因解释的能力,研究不同方式触发自我解释的可信度,并与传统解释方法进行了比较。
关于大型语言模型(LLM)评估的指南,提供了从实践经验到理论知识的见解,旨在帮助用户确保 LLM 在特定任务上表现良好
一个开源实验平台,用于改进基于LLM的应用的功能。通过捕捉输入/输出、添加属性、结合用户反馈和识别,提升生产中的LLM功能。
一个用Rust开发的本地LLM接口工具,支持多平台(Mac/Windows/Linux)的CPU和GPU运行。特色是提供了级联提示工作流(Cascading Prompt Workflow)系统,能将LLM的概率性输出转换为确定性信号,大幅提高输出可靠性。
RAG-Survey系统收集和分类与RAG相关的学术论文,涵盖基础理论、方法分类和应用领域,为AI内容生成提供全面的研究视角,帮助研究者深入了解RAG技术的发展和应用。
Query Vary 是一个革命性的工具,旨在支持开发者高效地与大型语言模型(LLMs)合作,提供可靠和高效的提示创建及测试。它的全面测试套件为开发者提供了设计、测试和完善提示所需的工具,确保准确性、减少延迟,并优化成本。该工具不仅释放了开发者的时间,使其能专注于创新和产品开发,还通过内置的安全措施提高了应用程序的安全性和质量。
用于强化 GenAI 应用的开源工具,旨在帮助开发人员检测和防御针对其应用的 LLM 攻击,包括一个 Playground 聊天界面,用于帮助用户迭代地提高其系统提示的安全性,支持 20 种不同的 LLM 提供商和 20 种动态 LLM 攻击模拟。
一个研究LLM生成的误导信息如何影响开放域问答的项目,旨在分析AI生成错误信息对信息检索的挑战,并提供开放域问答的测试与评估。