该项目提出了一种基于主成分分析(PCA)的文本数据有序语义多样化采样方法,旨在选择信息量最大且规模小的代表性子集,特别适用于大型语言模型(LLM)的应用场景。研究引入了“聚合浪费机会”新度量标准,以评估有序样本列表的多样性。该方法在多样性和时间效率上优于现有基准,改进幅度为6%至61%。