本文评估了LLM自动生成特征归因解释的能力,研究不同方式触发自我解释的可信度,并与传统解释方法进行了比较。
解释性大语言模型(LLM)的综述论文,强调了在LLM中增强可解释性的必要性,并讨论了现有解释性方法的应用,以改善模型的透明度和可靠性。
用于实验、评估和部署基于检索增强生成 (RAG) 的系统的工具包,支持各种大语言模型 (LLM),旨在减少 LLM 幻觉风险并提高可靠性。
这是一个在 LLM 中推进提示功能的框架,超越了思维链或思维树等范式所能提供的能力。通过将 LLM 生成的信息建模为任意的图形结构,GoT 提炼整个思维网络的实质,增强思维能力。
一个研究LLM生成的误导信息如何影响开放域问答的项目,旨在分析AI生成错误信息对信息检索的挑战,并提供开放域问答的测试与评估。
ReviewRift 是一款应用先进算法分析电影评论的工具,为用户提供深刻的总结、情感分析和详细的解析。用户可以轻松发现趋势,做出明智的观影选择。
集合了基于大型语言模型(LLM)评估方法的综合调研项目,旨在为开发者、研究者和实践者提供如何有效利用LLM作为评估工具的资源。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
关于大型语言模型(LLM)评估的指南,提供了从实践经验到理论知识的见解,旨在帮助用户确保 LLM 在特定任务上表现良好
Skyvern AI 是一个通过大语言模型(LLM)和计算机视觉技术,自动化基于浏览器的工作流程的项目。它提供了一个简单的 API 端点,便于集成到现有系统中,完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。
llama2.go是一个基于LLAMA-2模型的纯Go语言实现,提供高性能的机器学习功能,易于集成,支持多种数据格式,适合在Go项目中使用。