ConsoleX是一个综合性的LLM实验平台,结合了聊天接口、LLM API实验和批量评估,支持所有主流LLM,并提供比官方实验室更多的增强功能。
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
LightEval是一个轻量级的LLM评估套件,Hugging Face在内部使用,并与最近发布的LLM数据处理库datatrove和LLM训练库nanotron集成。
通过 LMSYS 的 Chatbot Arena 数据生成的大语言模型过去一年 ELO 的排名变化对比动画,帮助用户直观了解不同模型的表现和竞争力。
LLMonitor是一个开源的监控与评估工具,专为AI开发者设计,旨在通过日志查询和分析提升应用的质量。它为基于大型语言模型的应用提供可观察性和日志记录功能,帮助开发者优化和调试复杂的AI代理和聊天机器人。
一个社区驱动的LLM数据和基准测试资源库,提供大量语言模型的详细信息,包括模型参数、上下文窗口大小、许可证详情、性能指标等数据。通过llm-stats.com网站可以交互式探索和比较不同的语言模型。
该论文评估了许多开源大语言模型在使用ChatGPT数据微调后的效果,认为这些模型虽然表面上看似提升,但在事实性、编码能力和问题解决方面表现不佳,强调了提高基础语言模型性能的重要性。
Poe API是一个开源项目,提供了对Poe平台的开放接口,可以帮助开发者构建Poe机器人。这些机器人可以使用可视化工具和人工智能技术,如Anthropic和OpenAI的客户端。
spelltest 是一个专为语言模型设计的测试工具,能够自动生成测试用例,评估模型性能,并提供详细的测试报告。它支持多种语言模型,用户可以根据需要定制测试参数,以便更好地适应不同的测试场景。
Movie101是一个大规模的中文电影理解基准,包含101部电影,配备音频描述(AD)。数据集包含30,174个解说片段,总计92小时。基准包含两个任务:电影片段解说(MCN)和时序解说定位(TNG),旨在推动中文电影理解领域的研究与应用。
TensorZero是一个开源基础设施,旨在支持生产级、可扩展和复杂的大型语言模型(LLM)系统。它集成了推理、可观测性、优化和实验功能,支持多步骤LLM系统,并通过ClickHouse数据仓库实现实时、可扩展且开发者友好的分析。
用于LLM360评估和分析的代码库,包含了多种评估指标和分析方法,旨在帮助用户全面理解和优化模型表现。
ComfyUI颜色调整模块:图像色彩、对比度编辑、色调映射、16位和HDR图像支持工具,提供灵活的图像处理功能
该项目实现了针对语言模型的攻击方法,特别是在指令调优过程中,旨在提高模型对恶意输入的鲁棒性,同时研究指令调优对模型性能的影响。
TokenLimits是一个网站,允许用户探索不同AI模型的令牌限制。它提供关于各种AI模型的最大令牌、字符和单词数量的信息,帮助用户了解在不同文本模型(如ChatGPT Plus、GPT-4、GPT-3.5-Turbo、GPT-3和Codex)中可以输入的内容限制。此外,该网站还提供图像提示模型(如Stable Diffusion)和嵌入模型(如Ada-002)的令牌限制。
一个收集了各种开源 API 规范的仓库,像一个 API 规范图书馆,方便你了解 API 的接口定义和使用方法。
Chocolate Factory 是一款开源的 LLM 应用引擎/应用框架,旨在帮助您轻松打造强大的 SDLC + LLM 生成助手,同时集成代码库 AI 助手功能,支持多种设计思想,基于 Apache 2.0 协议进行开发。
Caesium Image Compressor 是一款开源免费的图片压缩工具,支持 PNG、JPG 和 Webp 格式,能够在保持质量的情况下减少图像大小,适用于 Windows、MacOS 和 Linux 系统,便于用户存储、分享和发送数码图片。