Giskard开源项目 – 大规模快速LLM & ML测试工具

Giskard是一个开源测试框架，专为生成式AI和机器学习模型设计。它集成了130多种评估指标，支持自动化检测生成内容的事实性、安全性及合规性。Giskard可以处理从表格模型到大型语言模型（LLM）的所有内容，并提供企业级测试中心，支持自托管和云部署。它还与Hugging Face、MLFlow、Weights & Biases等平台无缝集成，帮助团队更快、更好地交付机器学习产品。

Giskard的特点:

1. 自动化检测幻觉和偏见
2. 支持从表格模型到LLM的全面测试
3. 集成130多种评估指标
4. 企业级测试中心，支持自托管和云部署
5. 与Hugging Face、MLFlow、Weights & Biases等平台集成
6. 知识图谱验证，通过Wikidata等知识库检测幻觉内容
7. 合规审计，生成符合GDPR/ISO标准的评估报告

Giskard的功能:

1. 企业级AI助手上线前质量验证
2. 开源模型社区质量评估
3. 生成内容审查
4. 自动化构建提示词攻击测试集
5. 监控和提升部署的机器学习模型性能
6. 协作开发和部署机器学习模型

相关导航

Ludwig v0.8官网 – 简化构建机器学习模型的框架

Ludwig v0.8是一个开源的低代码框架，旨在帮助开发者轻松构建先进的机器学习模型，特别是优化用于使用私有数据构建定制的大型语言模型（LLM）。它提供了一种声明式接口，使得模型的构建过程更加高效和简便。

AnyCores官网 – 深度学习编译器，加速模型性能

AnyCores 是一个深度学习编译器，旨在通过优化深度神经网络的性能来降低计算成本，提供超过10倍的加速效果。

Entry Point AI官网 – 简化大语言模型的微调平台

Entry Point AI 是一个现代化的微调平台，支持定制和管理大语言模型，用户无需编程技能即可训练和评估模型。它提供用户友好的界面，帮助用户按照具体需求优化大语言模型的表现。

Terracotta官网 – 快速直观的LLM实验平台

Terracotta是一个平台，使用户能够快速直观地实验大型语言模型（LLMs），支持模型管理、微调和评估。用户可以安全存储数据，针对分类和文本生成微调模型，并进行定性与定量比较。

TrustAI开源项目 – 可信AI工具集，助力NLP开发

飞桨可信AI，基于PaddlePaddle开发的集可信分析和增强于一体的可信AI工具集，助力NLP开发者提升深度学习模型效果和可信度，推动模型安全、可靠的落地于应用

Encord官网 – AI模型开发的完整数据引擎

Encord是一个全面的数据引擎，专为AI模型开发而设计。它为高级计算机视觉团队提供工具和工作流程，以简化标记和工作流管理，清理和整理数据，验证标签质量，以及评估模型性能。用户可以通过创建项目和上传视觉数据来使用Encord，随后使用注释工具和工作流管理功能进行数据标注。

river开源项目 – 实时机器学习的Python库

river是一个用于在线机器学习的Python库，支持增量学习和数据流处理，适合实时预测系统的构建。它具有多种机器学习算法和模型，易于与现有的数据处理管道集成，同时支持模型评估和性能监控。

jepa-intuitive-physics开源项目 – 自监督学习直观物理理解

jepa-intuitive-physics是一个通过自然视频的自监督预训练，让机器学会直观物理理解的项目。它利用自监督学习方法，无需标注数据即可训练，提供了完整的代码和数据，支持多种模型评估，为研究直观物理理解提供了强大的工具。

xCodeEval开源项目 – 多语言代码理解与生成基准

xCodeEval是一个大规模多语言多任务基准，用于评估代码理解、生成、翻译和检索的能力，旨在为研究和开发提供支持。

Simple-SimCSE开源项目 – 简单实现SimCSE模型

Simple-SimCSE是SimCSE模型的简单实现，支持无监督和有监督的训练方法，易于与流行的深度学习框架（如PyTorch）集成，并允许自定义训练和评估设置。

awesome-LLM-resourses开源项目 – 全面的大语言模型资源库

awesome-LLM-resourses 是一个涵盖广泛的LLM资源集合，包括数据集、微调、推理、知识库、智能体、书籍、课程、学习教程以及相关论文等内容。项目持续更新，旨在成为最好的大语言模型资源汇总，适合从入门到进阶的研究者和开发者使用。

Awesome-LLM开源项目 – 大模型导航资源，全面覆盖

一个大模型导航资源，里面收集了几乎全部的模型，具有里程碑意义的论文，排行榜，测试集，训练框架，部署，应用，书籍等

LLM Zoo开源项目 – 大型语言模型的资源集市

大型语言模型的数据、模型和基准集市，为ChatGPT的大众化贡献力量

GrokTune开源项目 – 高效AI模型微调框架

GrokTune是一个专为模型微调设计的开源框架，旨在为开发者提供高效优化AI模型的工具。它支持快速调整预训练模型以适配特定任务，从而显著降低开发成本与时间。框架内置了多种功能，包括参数微调、数据处理、训练加速和模型评估等，确保用户能够高效地进行模型优化。

chatgpt-finetune-ui-gpt-3.5开源项目 – turbo微调图形界面

这是一个为gpt-3.5-turbo模型提供的微调图形界面，通过简单易用的Web界面，用户可以自定义数据集进行微调，并实时查看训练进度和结果。

lightning-uq-box开源项目 – 提供不确定性量化的PyTorch库

lightning-uq-box是一个基于PyTorch和Lightning的库，旨在为现代神经网络提供多种不确定性量化(UQ)技术，支持灵活的模型训练和评估，并与现有的PyTorch项目无缝集成。

ModernBERT开源项目 – 现代化的BERT模型

ModernBERT 是一个开源项目，旨在通过架构变更和扩展将 BERT 带入现代化。它引入了 FlexBERT，一种模块化编码器构建方法，并依赖于 YAML 配置文件来构建模型。ModernBERT 扩展了 MosaicBERT 的功能，包括 Flash Attention 2，并在各种 NLP 任务中显示出比传统 BERT 模型更高的准确性和效率。该项目提供了用于预训练和评估的代码，并支持与 PyLate 和 Sentence Transformers 集成的检索模型训练和评估。

暂无评论

暂无评论...