Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

该项目专注于近似最近邻搜索(ANN)中的向量ID无损压缩,采用非对称数字系统(ANS)和小波树方法,旨在不影响搜索性能的前提下,显著减少索引的存储空间。研究表明,在某些情况下,可将向量ID压缩7倍,在十亿级数据集上,索引大小可减少30%。该方法特别适用于大规模数据检索,特别是在倒排文件和基于图的索引中,解决了辅助数据存储成本高的问题。
近似最近邻搜索向量ID无损压缩的特点:
- 1. 采用ANS和小波树进行无损压缩
- 2. 不影响搜索性能或准确性
- 3. 在某些设置下,可将向量ID压缩7倍
- 4. 对十亿级数据集,索引大小可减少30%
近似最近邻搜索向量ID无损压缩的功能:
- 1. 作为Faiss向量搜索库的插件集成
- 2. 适用于图像检索和文本相似性匹配
- 3. 用于需要快速访问RAM的系统
- 4. 在十亿级数据集的ANN搜索中,显著降低存储需求
相关导航

vector_db_id_compression开源 – 无损压缩向量ID,优化ANNS索引存储
vector_db_id_compression 是一个基于论文 'Lossless Compression of Vector IDs for Approximate Nearest Neighbor Search' 的实现项目,专注于无损压缩近似最近邻搜索(ANNS)索引中的向量 ID,以显著减少存储空间。该项目使用非对称数字系统(ANS)和小波树(WT)技术,在不影响搜索精度和速度的情况下,实现了高达7倍的向量 ID 压缩率,并在十亿级数据集上将整体索引大小减少了30%。此外,项目还探索了簇内量化码的条件熵编码,进一步提高了压缩率。

makeMoE开源项目 – 稀疏专家混合语言模型实现
makeMoE 是一个从头开始实现的稀疏专家混合语言模型,基于 PyTorch 框架,采用自回归字符级语言模型架构。该项目灵感来源于 Andrej Karpathy 的 makemore 项目,旨在通过稀疏专家混合架构实现高效的语言模型训练和推理。它涵盖了模型的基本组成、自注意力机制、专家网络、Top-k 路由、噪声 Top-k 路由等核心组件的代码实现,并提供了模型的初始化方法、训练循环以及文本生成示例。makeMoE 不仅适用于研究和学习稀疏专家混合语言模型的实现,还可作为自回归字符级语言模型的参考实现,适用于自然语言处理领域的实验和开发。
暂无评论...