该项目构建了一个基于f-散度的通用损失函数框架,为机器学习模型提供了更广泛和灵活的损失函数选择。实验表明,α-散度(α=1.5)损失函数在分类和语言建模任务中表现良好,尤其是在预训练、微调(SFT)和知识蒸馏等场景下。该框架包括f-softargmax运算符和并行双分算法,增强了计算效率。