人工智能基准测试

GAIA测试：AI智能体性能的“黄金标准”

GAIA测试作为评估通用AI助手能力的国际化基准测试，已成为衡量AI智能体性能的“黄金标准”。本文深入探讨GAIA测试的核心价值，分析Manus和DeepResearch在测试中...

AI快讯

2个月前

报道了开源大模型Llama 3.1的发布消息，包括其版本升级、性能提升、训练细节以及与其他模型的对比。此外，还提到了新的开源协议和相关的评测结果。

AI快讯

2个月前

Meta最新发布的Llama 3.1开源大模型在多项基准测试中表现优异，尤其是405B参数的旗舰模型，甚至在部分任务中超越了OpenAI的GPT-4o。这场开源与闭源大模型的较...

AI快讯

2个月前