微调和评估支持

Chain of Thought Hub开源项目 – 促进和支持链式思考的工具库

Chain of Thought Hub开源项目 – 促进和支持链式思考的工具库

一个用于促进和支持链式思考的工具库，旨在提高模型推理能力和理解力。

基准测试工具微调和评估支持模型推理能力提升链式思考工具库

Compositional Generalization in NLP开源项目 – 研究自然语言处理中的组合泛化

Compositional Generalization in NLP开源项目 – 研究自然语言处理中的组合泛化

该项目旨在通过研究自然语言处理中的组合泛化，提供有效的模型和方法，以提升NLP任务的表现。

NLP模型评估组合泛化研究聊天机器人集成

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM开源项目 – 评估语言模型的高效工具

JudgeLM是经过微调的语言大模型，旨在有效、高效地在开放式基准测试中评估语言大模型（LLM），提供系统化的模型能力和行为分析，解决多种偏见问题，并在新旧基准测试中展示出色的评判性能。

偏见分析基准测试工具微调语言模型语言模型评估工具

SuperCLUE开源项目 – 中文通用大模型综合性基准

SuperCLUE开源项目 – 中文通用大模型综合性基准

SuperCLUE是一个针对中文大模型的综合性基准测试平台，提供标准化的评估指标和多任务测试能力，旨在帮助研究者评估和比较中文大模型的性能。

中文大模型基准测试性能评估工具模型比较平台

nanoChatGPT开源项目 – 基于nanoGPT的强化学习模型

nanoChatGPT开源项目 – 基于nanoGPT的强化学习模型

nanoChatGPT是在nanoGPT基础上，结合了人类反馈的强化学习层，使用Gumbel-Softmax技巧以提高训练效率，适合进行小型模型的快速实验。

Gumbel-SoftmaxnanoGPT人类反馈强化学习模型

llm-numbers开源项目 – 为LLM开发者提供重要数字

llm-numbers开源项目 – 为LLM开发者提供重要数字

llm-numbers是一个每个LLM开发人员都应该了解的工具，提供关键的统计数据和指标，帮助开发者深入理解模型性能。它支持多种语言模型的评估，并易于集成到现有的机器学习工作流中。此外，llm-numbers还提供可视化工具，以便展示模型数据，让开发者更直观地分析结果。

LLM性能评估工具数据可视化工具机器学习工作流集成

FlexGen开源项目 – 在单个 GPU 上高效运行大型语言模型

FlexGen开源项目 – 在单个 GPU 上高效运行大型语言模型

FlexGen: 针对面向吞吐量的场景在单个 GPU 上运行大型语言模型，旨在提高模型的运行效率和简化部署过程。

单个GPU运行大型语言模型模型微调与参数调整自然语言处理推理高效模型部署

Custom.MT官网 – 为本地化团队提供的AI翻译平台

Custom.MT是一个为本地化团队、语言服务提供商、产品经理和翻译人员设计的生成式AI和机器翻译平台。它提供了包括模型微调、机器翻译评估、内部机器翻译、语言数据匿名化、术语合规、翻译记忆清理、数据获取和开源机器翻译研讨会等多种服务。此外，Custom.MT还为流行工具如Trados、Smartling和memoQ提供AI翻译平台，以及API文档、博客、案例研究、事件和网络研讨会等资源。

AI翻译平台本地化服务机器翻译模型微调

MAP-NEO/document-convert开源项目 – 文档格式转换工具

MAP-NEO/document-convert开源项目 – 文档格式转换工具

MAP-NEO/document-convert是一个高效的转换管道，能够将PDF或扫描图像转换为类似Markdown格式，保留文档结构和格式，适用于多模态艺术投影项目。

大型语言模型开源项目模型微调自然语言处理

Ludwig v0.8官网 – 简化构建机器学习模型的框架

Ludwig v0.8是一个开源的低代码框架，旨在帮助开发者轻松构建先进的机器学习模型，特别是优化用于使用私有数据构建定制的大型语言模型（LLM）。它提供了一种声明式接口，使得模型的构建过程更加高效和简便。

低代码机器学习框架定制大型语言模型开源机器学习工具

LLM-Datasets开源项目 – 帮助模型提升准确性与多样性

LLM-Datasets开源项目 – 帮助模型提升准确性与多样性

大型语言模型微调用高质量数据集大列表，帮助提升模型的准确性和多样性，使其更好地理解和执行指令。该项目提供了丰富的高质量数据集，支持不同语言模型的微调需求，适合研究人员和开发者使用。

大型语言模型微调工具数据集比较研究开发基础

PrimeQA开源项目 – 多语言问答系统的前沿研究库

PrimeQA开源项目 – 多语言问答系统的前沿研究库

PrimeQA是一个先进的多语言问答研究与开发的主要资源库，支持最新的深度学习模型，易于扩展和定制，并提供多种数据集与基准测试，适用于实时问答和批量处理场景。

API接口多语言问答系统实时问答批量处理

Phoenix-一个notebook开源项目 – first的Python库

Phoenix-一个notebook开源项目 – first的Python库

Phoenix是一个notebook-first的Python库，利用嵌入技术发现LLM、计算机视觉(CV)、自然语言处理(NLP)和表格模型中的潜在现象和问题。它支持多种模型的可观察性，提供洞察发现工具，帮助识别和解决模型问题，并集成监控功能以实时跟踪模型性能，同时支持模型的微调和优化。

LLM可观察性notebook-first Python库数据分析工具模型微调

为语言模型的事实性评估生成基准数据集-评估语言模型生成事实性的能力

在部署语言模型前，评估其在特定领域生成事实性信息的能力很重要。我们提出了方法，通过语料库转换自动生成，以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准，并发现基准分数与模型大小和检索增强相关，但在模型排名上并不总是与困惑度一致。

基准数据集生成模型性能评估生成准确性优化语言模型事实性评估

Turbo-Alignment开源项目 – 大型语言模型微调与对齐库

Turbo-Alignment开源项目 – 大型语言模型微调与对齐库

专门用于大型语言模型微调和对齐的库，它提供了一系列高效和可扩展的技术，以及广泛的支持方法和指标，旨在简化模型的训练和部署过程

大型语言模型微调模型对齐训练和部署工具

Llama Stack开源项目 – 集成化的 LLM 应用开发工具

Llama Stack开源项目 – 集成化的 LLM 应用开发工具

Llama Stack 是一个开源项目，旨在将 LLM 应用构建生成周期的所有组件打包，包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等，并支持 9+ 提供商。

LLM应用开发工具产品评估工具合成数据生成开源项目

ChatGPT Next Web LangChain开源项目 – 一键拥有自己的 ChatGPT 网页服务

ChatGPT Next Web LangChain开源项目 – 一键拥有自己的 ChatGPT 网页服务

这是一个基于 LangChain 实现的插件版本，用户可以轻松搭建和部署自己的 ChatGPT 网页服务，具备多种自定义功能和实时聊天记录保存，适合多种场景应用。

LangChain插件多语言模型集成实时聊天记录保存自定义ChatGPT网页服务

TokenLearn开源项目 – 提升自然语言处理词嵌入

TokenLearn开源项目 – 提升自然语言处理词嵌入

TokenLearn 静态词嵌入：一种预训练模型2Vec的方法，专注于提升自然语言处理中词嵌入的静态特性，使其更适用于各种下游任务。

TokenLearn模型自然语言处理优化词嵌入预训练

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3