2025年最强大的评估与对齐AI工具推荐

社会科学研究中的大型语言模型（LLM）应用精选，汇集了评估、对齐、工具增强等方面的优秀论文，帮助研究人员更好地理解和利用LLM

LLMDrift是一个项目，旨在研究大型语言模型（如GPT-3.5和GPT-4）的性能漂移，特别关注其性能可能随时间下降的趋势及其影响。

DeepMark是一款基准测试工具，旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能，帮助开发者理解模型的表现并优化其在不同场景下的应用。

关于基于大型语言模型（LLM）的终身学习（Lifelong Learning）代理（Agent）的资源和研究论文的库，旨在促进LLM在不断变化环境中的适应能力，收集了优秀的调研和资源，包含多篇相关研究论文，并提供多样的学习和应用案例。

一个关于机器学习新类发现(Novel Class Discovery)相关资源的综合列表，汇集了大量研究论文、方法和工具，旨在为研究人员提供便捷的参考和学习资源。