3FS是一种高性能分布式文件系统,专门设计用于解决AI训练和推理工作负载中的挑战。它利用现代SSD和RDMA网络,提供高达6.6 TiB/s的聚合读取吞吐量,并支持强一致性语义,简化分布式应用的开发。3FS在180节点集群中表现出色,在GraySort基准测试中达到3.66 TiB/分钟的吞吐量,每个客户端节点的KVCache查找峰值吞吐量超过40 GiB/s。该系统支持多种工作负载优化,如随机访问训练样本和高效KVCache缓存,适用于大规模数据集的排序与处理、深度学习模型的训练与推理等场景。
SmallPond 是一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架,旨在高效处理大规模数据集。它结合了 3FS 的高性能分布式存储能力和 DuckDB 的强大数据处理能力,支持 PB 级数据扩展,同时保持操作的简单性和零服务依赖。