GPT-5与Claude 3.5 Sonnet：AI在推理与编码能力上的新突破

0 0

OpenAI的首席技术官Murati近日宣布，GPT-5将在18个月后发布，并预计达到博士水平。这一消息引发了广泛关注，尤其是在AI领域的研究者和开发者中。与此同时，Claude 3.5 Sonnet在多个基准测试中刷新了SOTA（State of the Art），包括研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval），首次突破了GPQA 65%的分数，达到了最聪明的人类博士水平。

Claude 3.5 Sonnet在HumanEval上的表现

HumanEval是一个广泛使用的编码能力评估基准，用于测试AI模型在生成代码时的准确性和效率。Claude 3.5 Sonnet在这一测试中表现出色，展示了其在编码能力上的显著提升。与之前的模型相比，Claude 3.5 Sonnet不仅在代码生成的速度上有所提高，还在代码的正确性和逻辑性上取得了突破。

GPT-5与Claude 3.5 Sonnet：AI在推理与编码能力上的新突破

多语言代码生成与问题解决能力

为了更好地评估AI模型在代码生成中的表现，研究人员构建了一个多语言代码生成基准——PseudoEval。这一基准不仅包含问题-解决方案对，还提供了中间解决方案的伪代码表示，从而将问题解决能力与语言编码能力分离开来。通过这一方法，研究人员发现，尽管现有的大型语言模型（LLMs）在某些编程语言（如Python、C++和Rust）中能够成功生成代码，但在没有提供解决方案的情况下，所有实验模型都未能解决简单标记的问题。这表明，这些模型在问题解决能力上仍然存在瓶颈。

GPT-5与Claude 3.5 Sonnet：AI在推理与编码能力上的新突破

LLM生成代码的常见问题

尽管LLM在代码生成方面取得了显著进展，但它们生成的代码仍然存在一些常见问题。例如，LLM生成的深度学习代码中经常出现数据结构问题，如张量不匹配和维度错误。此外，逻辑错误和API误用也是LLM生成代码中的常见问题。这些问题与人类编写的代码中的错误模式相似，表明LLM在生成代码时仍然依赖于人类生成的训练数据，从而导致了这些共享的错误模式。

结论

GPT-5和Claude 3.5 Sonnet的发布标志着AI在推理和编码能力上的新突破。尽管这些模型在多个基准测试中表现出色，但在问题解决能力和代码生成的准确性上仍然存在挑战。未来的研究需要进一步探索如何提高LLM在代码生成中的问题解决能力，并减少常见的错误模式，以实现更高效和可靠的AI编码工具。

通过不断优化和训练，AI模型有望在不久的将来达到甚至超越人类博士水平，为各个领域带来革命性的变革。