TorchScale 包含我们在Transformers稳定性(DeepNet)、通用性(Magneto/Foundation Transformers)和效率性(X-MoE)的一系列研究的官方实现。我们希望通过基础本质的研究探索AI(尤其是大模型)的通用结构,并在NLP,CV,Speech和多模态等领域的任务和基础模型中广泛验证,欢迎大家使用、交流、合作开发。
Llama已然是最领先的开源大模型LLM,下载量接近3.5亿次,需求巨大,适用于各种自然语言处理任务。
LanceDB是一个开创性的工具,旨在彻底改变企业和个人处理多模态AI应用的方式。它提供强大的数据库解决方案,专门满足AI驱动环境的需求,简化了管理文本、图像、视频和音频等多种数据类型的复杂性,适用于开发者、数据科学家和商业分析师。
B-cos Networks旨在通过对齐实现模型的可解释性,提供最先进的性能,适用于各种机器学习任务。
NLPretext是一个综合性的NLP文本预处理库,提供多种文本处理功能,旨在为各种NLP用例提供高效和灵活的解决方案。它支持大规模文本数据的高效处理,并且允许用户根据需求定制预处理选项,方便集成和使用。
MoveNet是一个基于深度学习的高效姿态检测模型,能够在PyTorch环境中实时估计人体姿态,支持多种输入格式,并能在多个设备上运行,包括移动设备。
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述
Anyscale是一个统一的计算平台,旨在利用Ray简化可扩展AI和Python应用的开发、部署和管理。用户可以轻松地开始使用Anyscale端点进行服务和微调开源大型语言模型(LLMs)。
这个项目能分析图像中对象之间的关系,是一个将Meta的Segment-Anything模型与ECCV'22论文相结合的演示:Panoptic Scene Graph Generation。
Semantic Scholar 是一个免费的AI驱动研究工具,旨在帮助学者发现相关的科学文献,利用先进的AI技术理解文献的语义,提升研究效率。
Scenic是一个基于JAX的计算机视觉研究库,支持多种计算机视觉任务,利用JAX的高性能特点,提供灵活和模块化的架构。
该项目专注于通过同心因果注意机制减轻模型中的物体幻觉问题,旨在提高模型对物体的识别能力,特别是在复杂的视觉语言任务中。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型