关于摊销推断(Amortized Inference)的社区驱动资源库,提供了包括综述文章、软件工具、方法论论文和应用论文在内的资源列表,旨在为研究人员和开发者提供全面的信息和工具支持。
一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准
这是一个与大型语言模型评估相关的论文和资源集合,旨在为研究人员和从业者提供全面的参考资料,定期更新新发现和资源。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
这是一个关于大规模语言模型的精彩集合,汇聚了最新的研究成果和资源,包括论文、技术进展以及各种语言模型的比较和评估,支持社区的贡献和反馈。
PlagiarismCheck 是一款在线查重工具,提供 100% 准确的抄袭检测服务,适用于教育机构和学生,帮助用户高效地识别和避免抄袭问题。
本项目对大型语言模型中的上下文长度扩展进行了详细调研,讨论了现有策略、评估复杂性及研究者面临的挑战。