DebugBench是一个包含4,253个实例的LLM调试基准,涵盖了C++、Java和Python中四个主要的漏洞类别和18个次要类别。为构建DebugBench,作者从LeetCode社区收集了代码片段,使用GPT-4向源数据植入漏洞,并确保了严格的质量检查。
一个开源实验平台,用于改进基于LLM的应用的功能。通过捕捉输入/输出、添加属性、结合用户反馈和识别,提升生产中的LLM功能。
在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
Seer 是一个为 gdb/mi 协议设计的用户友好的图形界面调试工具,提供实时调试和多线程支持,旨在简化调试过程,提升开发效率。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
Athina AI是一款旨在帮助开发者监控和评估其大语言模型(LLMs)应用程序的工具,专注于生产环境中的性能监控、故障检测以及提示管理。通过Athina,开发者可以实时跟踪LLMs的表现,及时发现并修复模型的幻觉问题,从而提升应用的可靠性和用户体验。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型