标签:AI评估

MLE-bench:AI在机器学习工程任务中的表现评估

OpenAI最新发布的MLE-bench基准测试,专注于评估AI在机器学习工程任务中的表现。o1-preview模型在测试中表现卓越,获得7枚金牌,超越了人类Kaggle大师的标准...