MAP-NEO/document-convert是一个高效的转换管道,能够将PDF或扫描图像转换为类似Markdown格式,保留文档结构和格式,适用于多模态艺术投影项目。
FATE-LLM是基于FederatedAI开发的联邦学习框架,支持大语言模型的分布式训练,旨在促进AI技术在保护知识产权和隐私的前提下的应用。该项目通过联邦学习架构,使得多方在不共享原始数据的情况下,能够协同训练出高效的AI模型,有效应对数据隐私和合规性挑战。
gigaGPT是一个用于训练具有数百亿参数的大型语言模型的代码库,仅有500多行代码。它受到Andrej Karpathy的nanoGPT启发,但专为Cerebras硬件优化,能够扩展到GPT-3规模的模型。gigaGPT旨在提供一个干净、高效和可用的代码库,而不是追求训练最先进的模型。
Megatron-LLM是一个专为大规模分布式训练设计的库,旨在高效支持语言模型的预训练和微调。它提供灵活的模型架构配置,并支持多种优化算法,使得用户可以根据需求进行优化和扩展,同时易于与其他深度学习框架集成。
一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。
用于微调和评估开源大型语言模型的工具集,目前处于早期开发阶段,旨在为研究人员和开发者提供一个强大、灵活且易于使用的解决方案。
LLMBox是一个用于实现大型语言模型的综合库,提供统一的训练流程和全面的模型评估,支持多种训练策略和数据集构建策略,以及高效的数据预处理工具。其可扩展的插件系统使得用户可以根据需求灵活定制,适用于多种大语言模型架构。
FewCLUE是一个专为中文自然语言处理设计的小样本学习测评基准,提供多种评测任务,支持各种模型和算法的评估,易于扩展和定制,旨在推动中文NLP研究的发展。
Lume是一个先进的技术解决方案,旨在通过人工智能自动化数据映射过程,使用户能够以空前的速度和效率创建数据管道。该工具专为需要快速、准确数据集成的专业人员设计,提供了一系列功能,将耗时的数据处理任务转化为无缝的自动化操作。
FalkorDB是一款从零开始构建的图数据库,专为不愿在性能上妥协和不想牺牲数据建模的应用程序而设计。它是获取知识的最快方式。