AiInfer是一个C++版的AI推理库,目前专门支持TensorRT模型的推理,旨在提供高性能和易用性。
llama.cpp是一个开源的C++实现项目,专门用于运行Facebook的LLaMA语言模型。该项目无外部依赖,基于CPU运行,适合资源受限的环境。它支持跨多个设备的分布式推理,提供高性能的推理能力,并具备灵活的模型配置。llama.cpp还支持多种量化格式,极大降低模型运行所需的内存,并实现了高效的推理算法,能够在普通的CPU上提供快速的响应。
一个强大的框架,通过集成sparse kernel、量化、剪枝和注意力键/值的缓存,进一步优化了在CPU上进行的能力。
基于ONNX Runtime的Java的Stable Deffusion管线,具有GUI界面和负面文本支持,展示了如何在Java中使用ONNX Runtime进行推理,并提供了性能优化的最佳实践
go-redislock是基于Go语言的高性能Redis分布式锁服务,旨在提供高效、可靠的锁机制,适用于微服务架构。它支持自动过期功能,拥有简单易用的API,方便开发者在分布式环境中管理锁。
socketify.py是一个为PyPy3和Python3提供WebSockets和高性能Http/Https服务器的项目,旨在让开发者能够轻松创建高效的网络应用。
利用torchao和diffusers优化扩散模型的端到端方案,支持推理和FP8训练,旨在提升模型的性能和效率。
专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署。
Apollo是一个JavaScript库,用于获取实时的经济声明,如通货膨胀率、失业率或各国政府及其他实体报告的利率。
Hugging Face是一个专注于人工智能的开放源代码平台,旨在通过开放科学推进和普及人工智能技术。该项目提供了一系列工具和库,帮助开发者和研究人员轻松构建和应用自然语言处理(NLP)模型。
Spice.ai是一个预装Web3数据的平台,旨在加速下一代智能软件的开发。开发者可以结合Web3数据、代码和机器学习,构建数据驱动和AI驱动的应用程序。该平台提供高质量、丰富的数据集,并提供开发者友好的SDK,方便集成。用户可以使用SQL查询Web3数据,并进行过滤和聚合。此外,Spice.ai还支持无服务器功能,并提供一个可扩展到PB级的数据平台,适用于实时和时间序列数据。
Bubbly是一个即时的AI支持平台,允许用户通过简单的步骤为产品或服务创建虚拟助手,利用GPT3 AI技术提供相关问题的答案。
通过使用GPT模型在本地设备上与文档进行问答交流的方式,实现100%私密且不离开设备的聊天。
LULA提供全面的保险解决方案,灵活的产品组合可根据企业规模进行调整和扩展。其集成的保险API可以无缝嵌入现有平台,无需额外开发。LULA旨在帮助保险买家和卖家现代化业务,降低成本,提高效率,特别是在卡车运输行业,提供按需保险服务。
MiniRBT (中文小型预训练模型) 是由iFLYTEK开发的一个小型中文预训练模型,旨在提供高效的自然语言处理能力。