社会科学研究中的大型语言模型(LLM)应用精选,汇集了评估、对齐、工具增强等方面的优秀论文,帮助研究人员更好地理解和利用LLM
LLMDrift是一个项目,旨在研究大型语言模型(如GPT-3.5和GPT-4)的性能漂移,特别关注其性能可能随时间下降的趋势及其影响。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
关于基于大型语言模型(LLM)的终身学习(Lifelong Learning)代理(Agent)的资源和研究论文的库,旨在促进LLM在不断变化环境中的适应能力,收集了优秀的调研和资源,包含多篇相关研究论文,并提供多样的学习和应用案例。
一个关于机器学习新类发现(Novel Class Discovery)相关资源的综合列表,汇集了大量研究论文、方法和工具,旨在为研究人员提供便捷的参考和学习资源。