大语言模型 | 第 8 页

强化学习之力：QwQ-32B如何以320亿参数挑战巨型模型

阿里开源发布的全新推理模型QwQ-32B，凭借320亿参数，通过大规模强化学习训练，在数学推理和编程任务上表现卓越，甚至能与6710亿参数的DeepSeek-R1媲美。本文...

AI快讯

3个月前

DeepSeek-R1作为一款拥有6710亿参数的大型推理模型，在数学和编程任务中表现出色。尽管面临来自Alibaba QwQ-32B等竞争对手的挑战，DeepSeek-R1凭借其独特的混...

AI快讯

3个月前

本文探讨了AI Agent在模拟社交环境中的表现及其在现实应用中的潜力。通过类比发动机的发明，强调了基础模型的重要性，并指出通过增加配套设施（如Agent）可以...

AI快讯

3个月前

本文探讨了大语言模型（LLM）的现状与未来发展趋势，从基础模型的重要性到配套设施的完善，分析了GPT-4.5的最新进展、LLM在企业的应用、开发中的安全风险以及...

AI快讯

3个月前

DeepSeek凭借其开源大模型DeepSeek-R1，在知识问答、长文本处理、代码生成和数学能力等方面达到顶尖水平，迅速超越ChatGPT，登顶苹果美国地区应用商店免费App...

AI快讯

3个月前

GPT-4.5在LLM竞技场中意外登顶，凭借高情商和优异表现引发热议。尽管智商测试成绩平平，但其在多轮对话、编程、数学等领域的表现令人惊叹。本文将探讨GPT-4.5...

AI快讯

3个月前

智源研究院的BGE模型在Hugging Face月度榜单中登顶，成为中国首个获得该榜单冠军的国产AI模型。BGE是一款开源通用向量模型，专为信息检索和大语言模型检索增...

AI快讯

3个月前

DeepSeek-R1模型的成功引发全球关注，印度政府计划在10个月内开发本土大语言模型，挑战DeepSeek与OpenAI。印度在硬件资源上具备优势，但在创新生态系统方面仍...

AI快讯

3个月前

本文探讨了深度学习的演变历程，从Transformer架构的引入到多模态AI的兴起，详细分析了大语言模型的工作原理、技术基础及其在业务环境中的应用。文章还讨论了...

AI快讯

3个月前

本文深入探讨了Transformer架构如何成为大语言模型（LLM）的技术基石，详细解析了自注意力机制、并行计算等核心创新，并回顾了从GPT到BERT再到DeepSeek-R1的...

AI快讯

3个月前