模型训练与优化

LongRoPE-扩展LLM上下文窗口至200万Tokens

LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens，显著提升长文本处理能力，同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值，以及采用渐进扩展策略，在256k训练长度内仅需1k微调步骤，从而实现高效的模型训练与优化。

LLM微调模型扩展上下文窗口模型训练与优化

Baichuan 2开源项目 – 新一代开源大语言模型

Baichuan 2开源项目 – 新一代开源大语言模型

百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。

对话系统开源大语言模型文本生成模型训练与优化

FATE-LLM开源项目 – 支持隐私保护的大语言模型训练

FATE-LLM开源项目 – 支持隐私保护的大语言模型训练

FATE-LLM是基于FederatedAI开发的联邦学习框架，支持大语言模型的分布式训练，旨在促进AI技术在保护知识产权和隐私的前提下的应用。该项目通过联邦学习架构，使得多方在不共享原始数据的情况下，能够协同训练出高效的AI模型，有效应对数据隐私和合规性挑战。

大语言模型训练数据隐私保护知识产权保护联邦学习

LLMFarm开源项目 – 支持iOS和MacOS的离线大语言模型

LLMFarm开源项目 – 支持iOS和MacOS的离线大语言模型

LLMFarm是一个基于GGML库构建的项目，支持在iOS和MacOS平台上离线运行多个大语言模型，提供用户友好的界面和高效的模型加载与推理功能。

iOS和MacOS支持文本生成离线大语言模型自然语言处理

ChatGPT.nvim-与GPT开源项目 – 3的便捷交互插件

ChatGPT.nvim-与GPT开源项目 – 3的便捷交互插件

ChatGPT.nvim是一个用于与OpenAI GPT-3聊天机器人的Neovim插件，提供了一个易于使用的界面，让用户能够探索GPT-3及其自然语言处理功能。

GPT-3交互Neovim插件文本生成自然语言处理

baichuan-7B开源项目 – 开源可商用的大规模预训练语言模型

baichuan-7B开源项目 – 开源可商用的大规模预训练语言模型

由百川智能开发的一个开源可商用的大规模预训练语言模型，支持中英双语，基于Transformer结构，训练于约1.2万亿tokens，具有70亿参数，提供4096的上下文窗口长度，在标准的中文和英文权威benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果。

中英文双语支持对话系统开源可商用语言模型文本摘要

zgi官网 – 简化大型语言模型应用构建

Zgi.ai致力于简化大型语言模型（LLM）应用的构建过程，为开发者和企业提供必要的工具和资源，帮助他们将梦想转化为现实，打破技术限制，实现前所未有的可能性。

内容生成与编辑大型语言模型应用构建工具智能对话系统开发自然语言处理支持

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq开源项目 – 用于多种序列建模的开源工具包

fairseq是一个用于序列建模的开源工具包，支持多种自然语言处理和语音处理任务。

fairseq对话系统序列建模文本生成

Qwen开源项目 – 多语言处理开源框架

Qwen开源项目 – 多语言处理开源框架

Qwen是阿里通义千问开源的多语言处理框架，支持多种自然语言处理任务，提供高效的模型推理和友好的用户接口。它兼容多种开发环境，旨在为开发者提供高效构建语言模型的工具，支持广泛的语言覆盖与任务适配，帮助解决全球化场景下的文本处理需求。最新的720亿参数版Qwen-72B和Qwen-72B-Chat在多个任务上超越LLaMA2-70B和GPT系列模型。

对话系统开源模型情感分析文本生成

nanoGPT-mup开源项目 – 中等大小GPT模型训练和微调的简易工具

nanoGPT-mup开源项目 – 中等大小GPT模型训练和微调的简易工具

专注于训练和微调中等大小 GPT 模型的最简仓库，是 karpathy/nanoGPT 的一个分支，并提供了最大更新参数化（muP）的最小实现，旨在简化用户的使用体验和模型的优化过程。

中等大小GPT模型训练微调工具最大更新参数化模型优化

world-models开源项目 – 破解世界模型的计算框架

world-models开源项目 – 破解世界模型的计算框架

一个用于语言信息思维的计算框架，通过概率程序与自然语言相结合，破解世界模型。

上下文理解世界模型计算框架机器学习概率程序与自然语言结合

Lorai官网 – 快速生成独特品牌设计资产

Lorai是一个平台，允许用户使用自己的品牌资产训练生成AI模型，以在几秒钟内创建独特内容。用户可以在浏览器中轻松训练低秩适应（LoRAs），无需计算资源，快速生成高质量设计元素。

低秩适应训练品牌设计资产生成无需技术知识的设计工具自定义艺术风格生成

Slideflow开源项目 – 深度学习图像分析流水线

Slideflow开源项目 – 深度学习图像分析流水线

Slideflow是一个用于组织学图像分析的深度学习流水线，支持Tensorflow/Keras和PyTorch。它提供了一个便捷的环境来构建和管理图像分析工作流程，具有良好的可扩展性，可以满足各种图像分析需求。

PyTorchTensorflow/Keras图像分析工作流程深度学习图像分析

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3