gla-jax 是一个专注于使用 JAX 和 Pallas 实现 Gated Linear Attention (GLA) 内核的项目,旨在高效处理长序列。该项目特别适用于语言建模等需要处理长序列的任务,提供了三种不同的 GLA 实现,优化了内存使用,并支持多尺度子分块,以提高计算效率。gla-jax 可以作为 Transformer 模型中标准注意力层的替代方案,为长序列处理提供更高效的解决方案。
JAXSeq建立在Huggingface的Transformers库之上,可用JAX训练非常大的语言模型,目前支持GPT2,GPTJ,T5和OPT模型。它结合了JAX的高效计算能力与Huggingface的丰富模型资源,提供了一个灵活且高效的训练平台,适用于不同规模和类型的语言模型的训练与微调。
Supervised是一个平台,允许用户使用OpenAI的GPT引擎构建监督型大语言模型(LLMs)。它提供用户友好的界面,支持使用自定义数据来微调AI模型。用户还可以通过Supervised API部署、变现和集成他们的模型。
该项目是一个基于Colab的Gradio网页界面,旨在便捷地运行和使用多个已训练好的大语言模型,支持用户直接输入文本并进行生成,同时也允许使用自定义模型进行文本生成,适用于自然语言处理和文本生成等多个领域的研究和应用。
WhisperPlus 是一款先进的语音转文本处理工具,致力于提供高准确率的语音识别,支持多种语言,并具备实时转录功能。它能够处理不同音质的音频,并提供用户友好的API接口,方便开发者进行集成和使用。
该项目旨在展示如何在中文环境中使用Transformers库进行自然语言处理(NLP)任务,提供了丰富的示例和详细的文档,以帮助用户理解和应用相关技术。
Passarel是一个AI驱动的平台,通过使用特定领域的数据创建定制语言模型,帮助新员工快速入职。它提供了一个入职助手,整合现有文档和知识库,使新员工能够便捷地获取信息。
nanotron是一个开源工具,旨在简化大型语言模型的训练过程,提供了一种高效的3D并行训练方法,从而更好地利用计算资源。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型