数据预处理

LightGBM Transformation Library – LightGBM数据转换工具库

LightGBM Transformation Library – LightGBM数据转换工具库

LightGBM Transformation Library 是微软为LightGBM模型提供的一个数据转换工具库，旨在增强LightGBM模型的数据预处理能力。该库支持多种数据转换技术，能够无缝集成到LightGBM的现有流程中，提供高效且可扩展的转换解决方案，帮助用户更好地处理数据并提升模型性能。

LightGBM开源项目数据转换数据预处理

Kaggle_TGS2018_4th_solution开源项目 – 盐体识别深度学习解决方案

Kaggle_TGS2018_4th_solution开源项目 – 盐体识别深度学习解决方案

该项目是Kaggle TGS Salt Identification Challenge 2018的第四名解决方案，专注于使用先进的深度学习模型进行盐体识别。项目包括数据预处理和增强技术，提供全面的训练和评估流程，并利用集成方法提高性能。此外，项目还提供了详细的文档和代码注释，便于理解和使用。

Kaggle竞赛解决方案数据预处理深度学习模型盐体识别

RePlay开源项目 – 全面的推荐系统框架

RePlay开源项目 – 全面的推荐系统框架

RePlay是一个全面的端到端推荐系统框架，集成了最新的推荐算法模型。它提供了数据预处理和切分、多种推荐模型支持、超参数优化、全面的评估指标、模型集成和混合，以及从离线实验到在线生产的无缝切换。该框架支持CPU/GPU和分布式计算，适用于大规模推荐系统的构建和评估。

推荐系统框架数据预处理模型集成离线实验到在线生产

sliceguard开源项目 – 检测数据问题片段的库

sliceguard开源项目 – 检测数据问题片段的库

sliceguard 是一个用于检测结构化和非结构化数据中问题片段的库，只需少量代码即可实现。支持图像、文本、音频等多种非结构化数据，并能够生成交互式报告，快速识别数据中的问题。

交互式报告生成数据清洗数据预处理机器学习数据质量

The Predictor官网 – 简化机器学习模型构建的工具包

The Predictor 是一个精简的工具包，专为构建监督学习模型而设计。它包含数据预处理、模型训练、评估和生成预测的专用模块，简化了预测分析解决方案的开发。

数据预处理机器学习模型构建工具模型训练预测分析

transformer_from_scratch开源项目 – 深入浅出Transformer架构与PyTorch实现

transformer_from_scratch开源项目 – 深入浅出Transformer架构与PyTorch实现

该项目深入介绍了Transformer模型的背景、关键组件及其实现细节，旨在帮助开发者理解并实现Transformer架构。

PyTorch实现Transformer模型实现多头注意力数据预处理

mvdatasets开源项目 – 为3D视觉研究搭建便捷数据桥梁

mvdatasets开源项目 – 为3D视觉研究搭建便捷数据桥梁

为3D计算机视觉提供标准化数据加载器的项目，让研究人员能快速获取和使用多视角数据集，加速研究进程。

3D视觉研究多视角数据集数据加载器数据预处理

Meta-Transformer开源项目 – 统一处理多模态数据的框架

Meta-Transformer开源项目 – 统一处理多模态数据的框架

Meta-Transformer是一个用于多模态学习的统一框架，能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知，并且可以在没有配对的多模态训练数据的情况下进行训练，同时可学习的数据预处理器能够处理每个输入模态，生成共享的嵌入表示。

共享嵌入表示图像描述生成多模态学习框架数据预处理

Practical Machine Learning开源项目 – 通过实验学习机器学习

Practical Machine Learning开源项目 – 通过实验学习机器学习

机器学习实战资料(Jupyter Notebooks) - 通过在Jupyter Notebooks中实验最先进的机器学习模型和算法进行学习。

Jupyter Notebooks可视化工具数据预处理机器学习实战

sohu2022-nlp-rank1开源项目 – 2022搜狐校园NLP赛道冠军方案

sohu2022-nlp-rank1开源项目 – 2022搜狐校园NLP赛道冠军方案

这是2022搜狐校园算法大赛NLP赛道第一名的开源方案，包含实验代码，旨在提供高效的自然语言处理解决方案。该项目经过优化，能够支持多种数据预处理方式，并提供详细的实验结果和分析，帮助用户更好地理解和应用自然语言处理技术。

实验结果分析开源NLP项目数据预处理模型训练优化

NeMo Curator开源项目 – 用于创建和处理NLP数据集

NeMo Curator开源项目 – 用于创建和处理NLP数据集

一个 Python 库，用于创建和处理自然语言处理 (NLP) 数据集，以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块，允许 NLP 研究人员从无标注 Web 采集高质量文本，并提供 GPU 加速功能。

GPU加速数据处理NLP数据集创建工具大型语言模型训练数据预处理

datatrove开源项目 – 平台无关的数据处理开源工具

datatrove开源项目 – 平台无关的数据处理开源工具

datatrove是一个平台无关的数据处理开源工具，旨在解放数据处理中的脚本疯狂，提供一套可定制的管道处理块，支持高效的数据处理，适用于不同规模的数据。

开源数据处理工具数据处理管道数据预处理

Collie开源项目 – 简化AI模型训练与部署的框架

Collie开源项目 – 简化AI模型训练与部署的框架

Collie是一个多功能的AI模型训练与部署框架，旨在简化机器学习模型的开发和管理过程。它基于PyTorch，结合了DeepSpeed和MegatronLM，避免使用复杂的外部库，并提供用户友好的接口和多种内置工具。

AI模型训练框架PyTorch性能监控数据预处理

PredictEasy Add-on官网 – 无代码AI数据分析平台

PredictEasy是一个Google Sheets附加组件，提供集成的无代码AI数据分析平台，能够进行数据预处理、可视化和模型构建。用户只需在Google Sheets中安装该附加组件，即可通过附加组件菜单访问各种功能，轻松审计数据、描述数据、预测未来趋势并构建模型。

Google Sheets附加组件数据可视化数据审计与分析数据预处理

autotrain-advanced开源项目 – 简单易用的LLM微调工具

autotrain-advanced开源项目 – 简单易用的LLM微调工具

在本地计算机上微调 LLAMA-v2（或任何其他 LLM）的最简单方法，提供用户友好的界面和高效的训练过程，支持多种语言模型，方便用户上传数据并进行微调。

LLM微调工具一键微调数据预处理用户友好的界面

Trudo AI: AI-Powered Workflow Automation官网 – 无代码的AI工作流自动化平台

Trudo AI是一个平台，允许用户在几分钟内构建、自动化和扩展复杂的Python工作流，无需DevOps知识。它提供了一个直观的用户界面，用户可以在此基础上微调OpenAI GPT3模型，构建复杂的AI应用。

AI应用构建与集成OpenAI GPT3模型微调无代码AI工作流自动化平台模型性能监控

llm.c-用纯C实现GPT开源项目 – 2模型训练

llm.c-用纯C实现GPT开源项目 – 2模型训练

一个用纯C语言实现的项目，旨在训练GPT-2模型，代码量仅为1000行，具有高效的内存管理和性能优化，方便扩展和修改。

性能优化文本生成纯C实现GPT-2模型训练高效内存管理

LLMs Tool开源项目 – 大语言模型训练与测试工具

LLMs Tool开源项目 – 大语言模型训练与测试工具

一个基于HuggingFace开发的大语言模型训练、测试工具。支持各模型的webui、终端预测，低参数量及全参数模型训练和融合、量化。

HuggingFace大语言模型训练工具模型融合模型量化

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。

Copyright © 2025 AI-magic 浙ICP备19008543号-3