基于TensorRT实现的Streaming-LLM技术,旨在支持LLM模型进行无限输入长度的推理,提供高效、实时的AI服务。
Sparse-Marlin是一个优化工具,专为4bit量化权重的2:4稀疏性推理核设计,旨在提升深度学习模型的计算效率和存储效率,适用于各种深度学习应用。
Kogito是一个专注于自然语言处理中的常识推理的工具包,集成了多种推理算法,并提供易于使用的API,支持自定义知识库,使得用户能够灵活地进行知识推理任务。
一个通过PyTorch从头开始训练Llama 2 LLM架构模型的项目,支持将权重保存到原始二进制文件并在简单的C文件中推断模型。
Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装项目,专门用于部署 Kokoro-82M 文本到语音模型。它支持 CPU ONNX 和 NVIDIA GPU PyTorch 加速,提供自动分割和拼接功能,并支持多种语言和音频格式。该项目通过 Docker 实现便捷部署,适用于需要高效、多语言支持的语音合成场景。
使用AI生成的表单,以转化更多潜在客户。
RisingWave是一个为云设计的开源分布式SQL流数据库,旨在降低构建实时应用程序的复杂性和成本,并与PostgreSQL生态系统无缝集成。
Hailo通过先进的处理器和软件解决方案,专注于边缘设备上的AI能力,降低延迟,提升效率,适用于汽车、工业自动化等多个领域。
一个新的LLM训练方法,通过将训练分散到不同的边缘设备上以保持数据隐私,同时最大化利用边缘设备的算力。