ChunkDot矩阵计算库:多线程矩阵乘法和余弦相似度计算工具,适用于密集和稀疏矩阵,通过分块项目矩阵表示(嵌入)和使用Numba加速计算,快速计算大量项目中最相似的K个项目
taco(张量代数编译器)用于对稀疏和密集张量进行高效的张量表达式计算,支持优化计算性能,适用于多种应用场景。
Textbook Quality是一个用于生成非常长、教科书质量的LLM预训练数据的项目,旨在为机器学习模型提供高质量的文本数据。该项目支持多种文本生成选项,并能够处理大规模数据集,优化生成文本的连贯性和准确性。
Python科学计算必备的包
Galactic是一个用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对LLM预训练Web规模数据集进行去重。
由知乎和ModelBest公司开发的高性能LLM推理引擎,针对PCIe GPU优化,支持Llama等大模型变体。
一个正在开发中的 SQLite 扩展,提供了轻量、足够快的向量搜索功能,可以在任何支持 SQLite 的平台上运行
BlazeSQL是一个前沿AI工具,旨在革命性地改变数据分析和SQL查询生成,无需深入的SQL编码,帮助技术和非技术用户将复杂的数据问题转化为可操作的洞察。它提供用户友好的界面,支持各类团队高效地进行数据分析,增强决策能力和生产力。