一个创新的基准测试框架,专门评估大语言模型(LLM)和视觉语言模型(VLM)在游戏环境中的智能Agent能力。支持本地部署和主流AI API集成,提供完整的评估工具集,可用于测试模型在长期交互任务中的推理表现。
Banana-lyzer是一个开源的AI代理评估框架,专为Web任务而设计,支持多种场景和任务,提供性能评估指标,并允许与现有AI代理的轻松集成,便于不同代理之间的比较分析。
LiveBench AI是一个由Abacus AI和杨立昆及其团队合作创建的基准测试工具,通过发布新问题和基于最新数据集设置评测,确保基准测试的无污染性。它包含18个任务,分为6个类别,初始发布960个问题,任务全面多样化。
BuildAI是一个平台,允许用户构建基于AI的网页应用,专为其业务量身定制,无需任何技术技能。通过文本输入,AI应用生成文本输出,提升客户体验、潜在客户生成及内部工具的功能。
该项目提供了一个完整的管道,用于在消费级硬件上微调ChatGLM LLM,结合了LoRA(低秩适应)和RLHF(基于人类反馈的强化学习)技术,旨在提升ChatGLM的能力,使其类似于ChatGPT。
mcp-llm-bridge是一个连接Model Context Protocol(MCP)服务器和OpenAI兼容LLM的桥接工具。它实现了MCP和OpenAI函数调用接口之间的双向协议转换,能够将MCP工具规范转换为OpenAI函数模式,支持云端模型和本地部署如Ollama等OpenAI API兼容端点。
该论文评估了许多开源大语言模型在使用ChatGPT数据微调后的效果,认为这些模型虽然表面上看似提升,但在事实性、编码能力和问题解决方面表现不佳,强调了提高基础语言模型性能的重要性。
Coval 是一个创新的 AI 工具,旨在改变企业开发和评估 AI 代理,特别是在语音和聊天应用中的方式。通过先进的模拟和评估能力,Coval 提供了一种简化测试和优化 AI 驱动交互的有效方法,适用于希望提高 AI 代理可靠性和性能的开发者和企业。
一个新的LLM训练方法,通过将训练分散到不同的边缘设备上以保持数据隐私,同时最大化利用边缘设备的算力。
该项目旨在比较人类、GPT-4 和 GPT-4V 在抽象和推理任务上的表现,分析不同智能体在这些任务中的能力差异,为理解和提升AI模型提供数据支持。
ReComA旨在通过Agent通信实现推理问题的简化开发,提供了一个灵活的框架,支持多Agent间的通信,易于集成到现有系统中。
为了提高LLM的演绎推理能力并确保推理过程的可信度,我们提出了一种基于自然语言的循序渐进的推理验证过程,并使用自然程序格式。