DeepEval开源项目 – LLM评估框架

DeepEval 是一个用户友好的开源 LLM 评估框架，专门用于评估和测试大型语言模型系统。它提供了一系列开箱即用的 LLM 评估指标，并支持与 Confident AI 的集成，用于持续评估、比较超参数和调试评估结果。DeepEval 可以用于 RAG 管道、聊天机器人、AI 代理等多种 LLM 应用场景，帮助用户优化模型、提示和架构，防止提示漂移，并自信地从 OpenAI 过渡到自托管模型。

DeepEval的特点:

1. 提供多种开箱即用的 LLM 评估指标，如 G-Eval、幻觉、答案相关性、RAGAS 等
2. 支持自定义评估指标，并自动集成到 DeepEval 生态系统中
3. 生成合成数据集用于评估
4. 与任何 CI/CD 环境无缝集成
5. 支持对 LLM 应用进行红队测试，检测 40+ 种安全漏洞
6. 在 10 行代码内轻松对任何 LLM 进行基准测试
7. 与 Confident AI 平台 100% 集成，支持完整的评估生命周期

DeepEval的功能:

1. 通过 Pytest 集成编写和运行 LLM 测试用例
2. 在本地或云端生成和共享测试报告
3. 使用自定义模型进行 LLM 输出评估
4. 批量评估数据集或测试用例
5. 在 LLM 微调过程中启用实时评估
6. 监控和评估生产环境中的 LLM 响应，改进数据集

相关导航

meson-raytracer开源项目 – 用meson.build编写的轻量级光线追踪器

meson-raytracer 是一个用 meson.build 语言编写的简单光线追踪器。它提供了一个轻量级的实现，支持基本的光线追踪算法，并且易于与 Meson 构建系统集成。该项目适合用于学习光线追踪的基础知识，也可以集成到需要基本光线追踪功能的项目中。用户可以根据具体的渲染需求对其进行定制和扩展，或者在轻量级环境中尝试不同的光线追踪技术。

YuE-s1-7B-anneal-en-cot模型 – 将英语歌词转化为完整歌曲的开源音乐生成模型

YuE-s1-7B-anneal-en-cot 是一个开源音乐生成模型，专注于将英语歌词转化为完整歌曲。它使用Chain of Thought（思维链）条件化技术，生成包含声乐和伴奏的完整音乐结构，适合音乐爱好者、专业创作者和开发者。该模型支持生成长达5分钟的高质量音乐，并具有70亿个参数，增强了生成能力。

DeepScaleR开源项目 – 让强化学习平民化

DeepScaleR旨在为大语言模型（LLMs）提供强大的性能提升，仅用1.5B参数就超越了7B参数模型的性能。该项目完全开源，包括训练脚本、模型、数据集和日志，特别适用于参与AIME 2024竞赛的模型。

RustPython开源项目 – 用Rust实现的高性能Python解释器

RustPython是一个用Rust编写的Python解释器，支持WebAssembly，可以在浏览器中运行Python代码，兼容大部分Python标准库，是一个活跃的开源项目。

Plate开源项目 – 基于 React 的强大富文本编辑器

Plate 是一个基于 React 的富文本编辑器框架，提供了 50+ 个插件可以直接开箱即用，支持与现有系统无缝集成，同时也允许进行组件的定制开发，满足不同用户的需求。

llms-deep-dive-tutorials开源项目 – 大语言模型深入教程

《深入大语言模型》随书代码，配套书籍 'Large Language Models: A Deep Dive'。该项目提供了大语言模型的深入教程和示例代码，涵盖多种应用场景，包含详细的代码注释和解释，支持多种编程语言和框架，并提供实际案例和项目实践。

pyocr开源项目 – Python OCR工具

pyocr是一个Python封装库，支持Tesseract和Cuneiform两种OCR引擎，提供了简单易用的接口，用于实现光学字符识别（OCR）。它支持多种语言，允许用户轻松将OCR功能集成到Python项目中，并提供了图像预处理选项以提高OCR的准确性。

Awesome Isaac Gym开源项目 – 机器人学习与强化研究资源集合

Awesome Isaac Gym 是一个精心整理的 NVIDIA Isaac Gym 相关框架、论文、软件和资源列表，旨在帮助机器人学习和强化学习研究。它提供了丰富的学习材料和视频教程，支持多种强化学习框架，以加速机器人开发。

AI-Bootcamp开源项目 – 自定进度的生成式AI训练营

一个自定进度的生成式AI训练营，帮助你快速掌握机器学习和AI的核心技能。

GitHub Copilot Patterns & Exercises开源项目 – GitHub Copilot最佳实践指南

GitHub Copilot的最佳实践指南，由社区驱动的开源项目，旨在帮助开发者理解和整合AI工具，以提高产品开发效率。该项目汇集了多位开发者的经验，提供了优化使用GitHub Copilot的最佳实践和模式，帮助开发者在提高代码生成效果的同时，也提升了产品的开发效率和质量。

personal-ai开源项目 – 本地化个人AI助手

Personal AI 是一个利用 Apple Shortcuts、Cloudflare Workers 和 Llama 3 组装的本地 AI 助手，无需额外硬件或月费。它通过 Apple Shortcuts 提供 ASR、TTS 和 HTTP 请求功能，并通过 Cloudflare Workers 处理文本和函数调用。该助手支持与 Llama 3 的集成，比所有 AI 可穿戴设备更快，并且可扩展以支持更复杂的函数调用和内存管理。

Monotty Desktopio开源项目 – 终端内的文本桌面环境

Monotty Desktopio 是一个在终端内运行的基于文本的桌面环境，为用户提供了一个完整的桌面体验，同时保持了轻量级和高效的特点。它支持多种桌面应用程序，并且界面高度可定制化，非常适合在远程服务器或现有的终端工作流中使用。

Lagent开源项目 – 轻量级智能代理框架

Lagent是一个专为轻量AI代理设计的开源框架，旨在为开发者提供高效构建智能代理的工具。它通过简化的架构支持快速开发与部署，特别适用于资源受限场景。Lagent支持用户快速地将一个大语言模型转变为多种类型的智能体，并提供了一些典型工具为大语言模型赋能。

Swarm开源项目 – 轻量级多代理协调框架

Swarm 是一个实验性的教育框架，专注于轻量化、模块化和易于测试的多智能体系统协调。它提供了两种基本抽象：代理（Agent）和传递（Handoff），代理包含指令和工具，可以随时选择将对话传递给另一个代理。Swarm 探索了轻量级、可扩展和高度可定制的模式，最适合处理大量独立的功能和指令。该项目由 OpenAI 提供，旨在简化多智能体系统的协调和执行，并使其可测试。

VIMA开源项目 – 连接机械臂的多模态语言模型

VIMA是一款连接了机械臂的语言模型（LLM），能够接收多模态的指令，支持文字、图片、视频等输入形式。该系统能够逐步感知环境并采取实际动作，支持多模式提示，使任务描述简单灵活，统一多种任务，如视觉目标达到、视频演示模仿、学习新概念和满足安全限制。作为一个开源项目，VIMA提供了代码、预训练模型、数据集和物理模拟基准，无需付费或填写表格，便于用户使用和开发。

暂无评论

暂无评论...