一个用于促进和支持链式思考的工具库,旨在提高模型推理能力和理解力。
该项目旨在通过研究自然语言处理中的组合泛化,提供有效的模型和方法,以提升NLP任务的表现。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
nanoChatGPT是在nanoGPT基础上,结合了人类反馈的强化学习层,使用Gumbel-Softmax技巧以提高训练效率,适合进行小型模型的快速实验。
llm-numbers是一个每个LLM开发人员都应该了解的工具,提供关键的统计数据和指标,帮助开发者深入理解模型性能。它支持多种语言模型的评估,并易于集成到现有的机器学习工作流中。此外,llm-numbers还提供可视化工具,以便展示模型数据,让开发者更直观地分析结果。
FlexGen: 针对面向吞吐量的场景在单个 GPU 上运行大型语言模型,旨在提高模型的运行效率和简化部署过程。
Custom.MT是一个为本地化团队、语言服务提供商、产品经理和翻译人员设计的生成式AI和机器翻译平台。它提供了包括模型微调、机器翻译评估、内部机器翻译、语言数据匿名化、术语合规、翻译记忆清理、数据获取和开源机器翻译研讨会等多种服务。此外,Custom.MT还为流行工具如Trados、Smartling和memoQ提供AI翻译平台,以及API文档、博客、案例研究、事件和网络研讨会等资源。
MAP-NEO/document-convert是一个高效的转换管道,能够将PDF或扫描图像转换为类似Markdown格式,保留文档结构和格式,适用于多模态艺术投影项目。
Ludwig v0.8是一个开源的低代码框架,旨在帮助开发者轻松构建先进的机器学习模型,特别是优化用于使用私有数据构建定制的大型语言模型(LLM)。它提供了一种声明式接口,使得模型的构建过程更加高效和简便。
大型语言模型微调用高质量数据集大列表,帮助提升模型的准确性和多样性,使其更好地理解和执行指令。该项目提供了丰富的高质量数据集,支持不同语言模型的微调需求,适合研究人员和开发者使用。
PrimeQA是一个先进的多语言问答研究与开发的主要资源库,支持最新的深度学习模型,易于扩展和定制,并提供多种数据集与基准测试,适用于实时问答和批量处理场景。
Phoenix是一个notebook-first的Python库,利用嵌入技术发现LLM、计算机视觉(CV)、自然语言处理(NLP)和表格模型中的潜在现象和问题。它支持多种模型的可观察性,提供洞察发现工具,帮助识别和解决模型问题,并集成监控功能以实时跟踪模型性能,同时支持模型的微调和优化。
在部署语言模型前,评估其在特定领域生成事实性信息的能力很重要。我们提出了方法,通过语料库转换自动生成,以评估模型从语料库生成真实事实而非不正确陈述的能力。我们创建了两个基准,并发现基准分数与模型大小和检索增强相关,但在模型排名上并不总是与困惑度一致。
专门用于大型语言模型微调和对齐的库,它提供了一系列高效和可扩展的技术,以及广泛的支持方法和指标,旨在简化模型的训练和部署过程
Llama Stack 是一个开源项目,旨在将 LLM 应用构建生成周期的所有组件打包,包括训练、微调、产品评估、观测、Agent & Memory、合成数据生成等,并支持 9+ 提供商。
这是一个基于 LangChain 实现的插件版本,用户可以轻松搭建和部署自己的 ChatGPT 网页服务,具备多种自定义功能和实时聊天记录保存,适合多种场景应用。
TokenLearn 静态词嵌入:一种预训练模型2Vec的方法,专注于提升自然语言处理中词嵌入的静态特性,使其更适用于各种下游任务。