Intel的LLM加速库,旨在通过使用Intel显卡和带NPU的CPU来加速主流深度学习框架的运行。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。
Sparse-Marlin是一个优化工具,专为4bit量化权重的2:4稀疏性推理核设计,旨在提升深度学习模型的计算效率和存储效率,适用于各种深度学习应用。
fastllm是一个纯C++开发的全平台大模型加速库,具有无第三方依赖的特性,当前支持国产大模型如ChatGLM-6B和MOSS。该库在单卡上可实现超过10000个token每秒的处理速度,并且能够在安卓设备上流畅运行ChatGLM-6B,同时支持CUDA进行计算加速。
一个 Python 优先的工具包,旨在简化 AI 编译器、运行时和复合 AI 系统的开发,提供多种功能以提高开发效率和系统性能。
Decoding Attention是针对大型语言模型(LLM)解码阶段的多头注意力(MHA)优化工具,利用CUDA核心进行推理,解决Flash Attention在LLM推理解码阶段张量核心利用率低的问题。该工具支持更多类型的注意力机制和KV缓存量化优化,有助于提升模型性能。
NVIDIA free-threaded-python 提供了一个无全局解释器锁(GIL)的 Python 环境,集成了 NVIDIA 的深度学习库,旨在为 Python 生态系统中的并发执行迈出一步。该项目通过消除 GIL 限制,提高 Python 在多线程环境下的性能,并且易于与现有的 Python 项目集成,为开发者提供了更高效的多线程应用解决方案。
OneFlow-ONNX v0.6.0是一个用于将ONNX模型转换为OneFlow格式的工具,提升了转换接口的易用性,并新增支持多种模型和算子。
A.I Framewerks是一个强大而全面的人工智能框架,旨在帮助开发者轻松创建和部署AI模型。它提供广泛的功能和工具,以加速开发过程并提高性能。
Tree of Thoughts (ToT) 是一个强大而灵活的算法,能将模型推理能力提升多达70%。该插件式版本允许用户连接自己的模型,体验超智能的推理能力。
这是最大的约 100 万个数学竞赛问题解决方案对的集合,难度从初级挑战赛到数学奥林匹克预选赛不等。
Gemini是谷歌最大的AI模型,旨在通过加速人类进步和改善生活给人类和社会带来巨大利益。它在多个领先基准上表现出色,支持不同尺寸的优化:Ultra、Pro和Nano。Gemini从零开始构建为多模态,能够理解、操作和结合文本、代码、音频、图像和视频等不同类型的信息。
通过蒸馏技术将复杂模型中的知识转移到更小的模型中,以便在资源受限的设备上有效运行AI模型。
AGI Memory System 是一个复杂的数据库设计,旨在为人工通用智能 (AGI) 提供记忆管理。该系统实现了多种类型的记忆存储和检索机制,灵感来源于人类的认知架构,旨在提高记忆的效率和灵活性。
arc24是一个致力于创建能解决从未见过的推理任务的AI系统项目。这是基于Kaggle ARC Prize 2024比赛的实现,采用CRISP-DM方法论,包含完整的训练脚本、数据处理工具和文档,旨在探索通用人工智能(AGI)领域的推理能力。
VT-Transformer是一个基于第一性原理的AI模型转换器,采用宏展开的DSL技术,旨在优化各种AI模型在复杂硬件环境下的性能,特别是针对国产硬件。