推理性能 | AI-magic

测试时扩展：提升语言模型推理性能的新方法

本文探讨了一种简单且资源高效的测试时扩展方法，通过“预算强制”策略控制推理过程中的计算资源，显著提升语言模型的推理性能。研究在s1K数据集上验证了该方法...

AI快讯

2个月前

谷歌DeepMind推出的'可微缓存增强'方法，通过引入机器学习算法动态调整缓存策略，显著提升了大语言模型的推理性能。本文将深入探讨这一技术的原理、应用场景...

AI快讯

2个月前

Grok 3的发布标志着AI技术的又一次飞跃，其强大的计算能力和推理深度在全球范围内引发了广泛关注。本文将探讨Grok 3的技术优势、成本挑战以及其对全球AI竞争...

AI快讯

2个月前

本文探讨了英伟达Hopper架构与下一代Blackwell芯片的竞争，分析了黄仁勋对DeepSeek开源模型的认可及其对AI计算需求的推动。文章还深入讨论了Blackwell比Hoppe...

AI快讯

2个月前

DeepSeek R1以其低成本、高性能和开源特性，正在颠覆AI大模型领域。通过蒸馏技术和FP8运算，它实现了训练成本的大幅降低，同时在数学、编程和中文理解上表现...

AI快讯

2个月前

字节跳动豆包大模型团队在AI领域展现了强大的创新能力，推出了UltraMem架构以优化推理性能，同时与DeepSeek等开源模型展开竞争。本文探讨了豆包大模型的技术...

AI快讯

2个月前

中国人工智能公司深度求索（DeepSeek）发布的开源大模型DeepSeek-R1在全球引发热议，标志着低成本高性能AI大模型的崛起。字节跳动豆包大模型团队推出的新架构...

AI快讯

3个月前