llama.cl是一个用Common Lisp实现的LLaMA推理工具,旨在简化AI语言模型的探索过程,并提高推理效率。它兼容Karpathy的llama2.c,能够无缝对接现有模型,并支持BLAS加速,显著提升性能。在Intel i7 5930等硬件上,推理速度可达34.4 tok/s,为开发者提供高效的模型推理体验。