本项目研究大型视觉数据集中存在的偏见,旨在为数据集创建者提供洞察,促进数据集的公平性提升。
SuperClass是一个旨在提高视觉和语言预训练任务中分类准确性的项目,通过整合视觉和语言模态,优化预训练任务的性能。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
由Hugging Face、Argilla和开源机器学习社区共同合作的项目,旨在赋予开源社区共同构建有影响力的数据集的能力。
该项目旨在记录和修正评估数据集中的错误,提供了报告个别样本问题和整个数据集问题的方法,帮助用户提高数据集的质量和可靠性。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型