LightGBM Transformation Library 是微软为LightGBM模型提供的一个数据转换工具库,旨在增强LightGBM模型的数据预处理能力。该库支持多种数据转换技术,能够无缝集成到LightGBM的现有流程中,提供高效且可扩展的转换解决方案,帮助用户更好地处理数据并提升模型性能。
该项目是Kaggle TGS Salt Identification Challenge 2018的第四名解决方案,专注于使用先进的深度学习模型进行盐体识别。项目包括数据预处理和增强技术,提供全面的训练和评估流程,并利用集成方法提高性能。此外,项目还提供了详细的文档和代码注释,便于理解和使用。
RePlay是一个全面的端到端推荐系统框架,集成了最新的推荐算法模型。它提供了数据预处理和切分、多种推荐模型支持、超参数优化、全面的评估指标、模型集成和混合,以及从离线实验到在线生产的无缝切换。该框架支持CPU/GPU和分布式计算,适用于大规模推荐系统的构建和评估。
sliceguard 是一个用于检测结构化和非结构化数据中问题片段的库,只需少量代码即可实现。支持图像、文本、音频等多种非结构化数据,并能够生成交互式报告,快速识别数据中的问题。
The Predictor 是一个精简的工具包,专为构建监督学习模型而设计。它包含数据预处理、模型训练、评估和生成预测的专用模块,简化了预测分析解决方案的开发。
该项目深入介绍了Transformer模型的背景、关键组件及其实现细节,旨在帮助开发者理解并实现Transformer架构。
为3D计算机视觉提供标准化数据加载器的项目,让研究人员能快速获取和使用多视角数据集,加速研究进程。
Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。
机器学习实战资料(Jupyter Notebooks) - 通过在Jupyter Notebooks中实验最先进的机器学习模型和算法进行学习。
这是2022搜狐校园算法大赛NLP赛道第一名的开源方案,包含实验代码,旨在提供高效的自然语言处理解决方案。该项目经过优化,能够支持多种数据预处理方式,并提供详细的实验结果和分析,帮助用户更好地理解和应用自然语言处理技术。
一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。
datatrove是一个平台无关的数据处理开源工具,旨在解放数据处理中的脚本疯狂,提供一套可定制的管道处理块,支持高效的数据处理,适用于不同规模的数据。
Collie是一个多功能的AI模型训练与部署框架,旨在简化机器学习模型的开发和管理过程。它基于PyTorch,结合了DeepSpeed和MegatronLM,避免使用复杂的外部库,并提供用户友好的接口和多种内置工具。
PredictEasy是一个Google Sheets附加组件,提供集成的无代码AI数据分析平台,能够进行数据预处理、可视化和模型构建。用户只需在Google Sheets中安装该附加组件,即可通过附加组件菜单访问各种功能,轻松审计数据、描述数据、预测未来趋势并构建模型。
在本地计算机上微调 LLAMA-v2(或任何其他 LLM)的最简单方法,提供用户友好的界面和高效的训练过程,支持多种语言模型,方便用户上传数据并进行微调。
Trudo AI是一个平台,允许用户在几分钟内构建、自动化和扩展复杂的Python工作流,无需DevOps知识。它提供了一个直观的用户界面,用户可以在此基础上微调OpenAI GPT3模型,构建复杂的AI应用。
一个用纯C语言实现的项目,旨在训练GPT-2模型,代码量仅为1000行,具有高效的内存管理和性能优化,方便扩展和修改。
一个基于HuggingFace开发的大语言模型训练、测试工具。支持各模型的webui、终端预测,低参数量及全参数模型训练和融合、量化。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型