一种利用隐式神经表示法表示复杂数据结构的方法,适用于多种数据类型的学习和生成建模任务。
直接偏好优化 (DPO) 是一种新算法,旨在改变大语言模型(LLM)与人类反馈的对齐方式,提供强化学习的替代方案,从而提高模型对人类偏好的理解和响应能力。
picollm是一个基于X-Bit量化的设备端大型语言模型(LLM)推理引擎,专为运行压缩的大型语言模型而优化。它提供跨平台、高准确性的SDK,支持本地运行以确保隐私安全,适合在资源受限的设备上使用。
该论文提出了一种训练语言模型的方法,通过同时预测多个未来Token来提高样本效率,并在多个生成基准上实现了显著的性能提升。
FlashAttention是一个开源的推理加速工具,专为AI大模型设计,通过优化注意力机制的计算流程,显著提升推理速度,尤其适合需要实时响应的场景。其v2版本比v1快2倍,比标准注意力机制快5-9倍,在A100上达到225 TFLOPs/s的训练速度,并已在大多数LLM库中得到广泛应用。