BD3-LM(Block Diffusion Language Model)是一种创新的语言模型,旨在通过结合自回归模型和离散扩散模型的优点,显著提升语言建模任务的性能。它通过在token块上执行自回归,并在每个块内进行离散扩散,实现了灵活且高效的建模方式。该模型特别适用于生成任意长度的序列,展现了其在自然语言处理领域的潜力。
Loong是一个利用自回归语言模型生成分钟级长视频的项目,支持从短视频逐步训练到长视频,采用损失重新加权方案以解决训练中的损失不平衡问题,同时通过视频标记重新编码和采样策略减少推理中的错误积累。
专为物理AI设计的世界基础模型平台,旨在帮助物理AI开发者更好更快地构建物理AI系统。
一种上下文学习方法,将基于提示的表示应用于自回归模型,以生成高质量的句子嵌入,无需微调。该方法通过利用上下文信息,避免了传统微调过程的复杂性,同时支持不同规模的语言大模型,能够在多种转移任务上取得最佳结果。
Asian Bart是一个专为亚洲语言设计的BART模型,支持英语、汉语、韩语、日语等多种语言,适用于文本生成、翻译和摘要等多种自然语言处理任务,并提供预训练模型以便于研究和应用。
EnergeticAI是为无服务器功能优化的TensorFlow.js,提供快速冷启动、小模块大小和预训练模型,非常适合在Node.js应用中集成开源AI。
TAWNY是一个情感分析平台,能够分析驱动消费者决策和行为的人类情感状态。
nlp-notebook 实现了 NLP 领域常见任务,包括新词发现、基于 PyTorch 的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等功能,旨在为用户提供便捷的自然语言处理解决方案。
tf-transformers是基于Tensorflow 2.0实现的最先进的自然语言处理架构,旨在提供更快的自动递归译码,支持多种前沿的NLP模型,如BERT、RoBERTA、T5、Albert和mt5等。其设计简化了API,便于用户使用和扩展,适合各种NLP任务。
Auto-GPT-ZH是中文版AutoGPT,旨在提供一个中文环境下的自动化GPT应用,支持多种API扩展,用户可以自定义任务和目标,具有高效的文本生成和对话能力,界面友好,适合各种中文场景的应用。
基于Andrej Karpathy的GPT-2实现和训练,添加大量注释以帮助理解模型原理,计划逐步增加更多功能。
一个用于非因果建模的双向线性注意力实现项目,通过Triton优化模型性能,特别适合需要高效处理大量数据的AI应用