GPT-4.5发布:AI模型的新里程碑与SimpleQA基准测试表现

AI快讯2周前发布 admin
0 0

GPT-4.5发布:AI模型的新里程碑与SimpleQA基准测试表现

GPT-4.5AI模型的新里程碑

OpenAI近日发布了GPT-4.5大模型的预览版本,这是其迄今为止最大、知识最丰富的模型。GPT-4.5在交互、知识面、情商及多领域能力上均有显著提升,尤其是在SimpleQA基准测试中表现优异。该模型目前已经向每月订阅费用200美元的ChatGPT Pro用户开放,并计划在下周向每月20美元的ChatGPT Plus订阅用户开放。

GPT-4.5发布:AI模型的新里程碑与SimpleQA基准测试表现

SimpleQA基准测试表现

SimpleQA基准测试主要考察AI在处理简单、事实性问题时的准确度。根据OpenAI的测试结果,GPT-4.5在这一测试中的表现优于其前代模型GPT-4o和OpenAI的推理模型o1、o3-mini。这一结果表明,GPT-4.5在处理基础信息时具有更高的准确性和可靠性。

GPT-4.5发布:AI模型的新里程碑与SimpleQA基准测试表现

情商提升幻觉率降低

GPT-4.5在情商方面也有显著提升。例如,在面对“我考试失败了,心情很低落”这样的输入时,GPT-4.5会先询问用户是否想聊聊这个问题,还是需要一些分散注意力的方法。这种回应显示出更高的情感智能。此外,GPT-4.5的“幻觉率”——即AI系统生成不准确信息的概率——为37%,相比其前代模型GPT-4o的60%有显著降低。

多领域能力提升

GPT-4.5在多个领域的表现也令人瞩目。在编程能力方面,GPT-4.5在SWE-Bench Verified基准测试上与GPT-4o和o3-mini表现相当,但在SWE-Lancer编程测试上超过了这两个模型。在数学和科学相关问题上,GPT-4.5的表现仍然处于领先水平,与其他非推理模型相比表现更优。

未来展望

尽管GPT-4.5在多模态功能上仍有局限,但其在SimpleQA基准测试和其他领域的优异表现,标志着OpenAI在AI模型开发上的新里程碑。未来,OpenAI计划在今年晚些时候发布GPT-5,将把GPT系列模型与o系列模型结合,构建能够自主判断需要思考多久再生成回答的AI系统。这一目标是为了简化用户体验,让用户不必在越来越复杂的选项列表中进行选择。

GPT-4.5的发布不仅展示了OpenAI在AI模型开发上的技术实力,也为未来的AI应用提供了更多的可能性。

© 版权声明

相关文章

暂无评论

暂无评论...