rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎,提供高性能、低成本和用户友好的推理服务,帮助客户和开发人员定制适合其业务的推理服务,从而促进业务增长
一个用于非因果建模的双向线性注意力实现项目,通过Triton优化模型性能,特别适合需要高效处理大量数据的AI应用
专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
该项目提供了一个完整的管道,用于在消费级硬件上微调ChatGLM LLM,结合了LoRA(低秩适应)和RLHF(基于人类反馈的强化学习)技术,旨在提升ChatGLM的能力,使其类似于ChatGPT。
AgentX是一个可构建、训练、部署和集成的AI代理,旨在为企业生成线索,提供客户支持,具有最小的人为干预和无幻觉的特点。用户可以通过简单的复制粘贴或API接入,将其部署到网页或消息应用中,并根据选择的知识进行训练。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
Basejump AI 是一种创新的数据访问工具,旨在通过对话的方式快速、便捷地获取数据,解决传统数据访问缓慢和繁琐的问题。它利用先进的人工智能技术,使用户能够轻松地与数据互动,获得所需的信息。