wyd-benchmark是一个为可控人类视频生成提供精细评估的新基准。它包含1544个标注视频,覆盖56个细分类别,系统性衡量9个人类生成方面的表现,并提出并验证了更贴近人类评价的自动评估指标。
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Control,提供有关操作系统代理的研究进展、相关论文、框架、评估基准及安全隐私资源。
这篇论文探讨了如何评估大模型的性能,包括评估的内容、地点和方法,并分析了当前评估方法的有效性和可信度。
一个关于LLM作为评判器的综合资料库,收集整理了大语言模型在评判任务中的应用研究,涵盖了帮助性、无害性、可靠性、相关性、可行性等多个评估维度,以及相关方法论和评估基准
这是一个与大型语言模型评估相关的论文和资源集合,旨在为研究人员和从业者提供全面的参考资料,定期更新新发现和资源。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
这是一个关于大规模语言模型的精彩集合,汇聚了最新的研究成果和资源,包括论文、技术进展以及各种语言模型的比较和评估,支持社区的贡献和反馈。
PlagiarismCheck 是一款在线查重工具,提供 100% 准确的抄袭检测服务,适用于教育机构和学生,帮助用户高效地识别和避免抄袭问题。
本项目对大型语言模型中的上下文长度扩展进行了详细调研,讨论了现有策略、评估复杂性及研究者面临的挑战。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型