标签:大语言模型

强化学习之力:QwQ-32B如何以320亿参数挑战巨型模型

阿里开源发布的全新推理模型QwQ-32B,凭借320亿参数,通过大规模强化学习训练,在数学推理和编程任务上表现卓越,甚至能与6710亿参数的DeepSeek-R1媲美。本文...

DeepSeek-R1:推理模型领域的强劲竞争者

DeepSeek-R1作为一款拥有6710亿参数的大型推理模型,在数学和编程任务中表现出色。尽管面临来自Alibaba QwQ-32B等竞争对手的挑战,DeepSeek-R1凭借其独特的混...

AI Agent:从模拟社交到现实应用的跨越

本文探讨了AI Agent在模拟社交环境中的表现及其在现实应用中的潜力。通过类比发动机的发明,强调了基础模型的重要性,并指出通过增加配套设施(如Agent)可以...

大语言模型(LLM)的现状与未来:从基础模型到配套设施的全面进化

本文探讨了大语言模型(LLM)的现状与未来发展趋势,从基础模型的重要性到配套设施的完善,分析了GPT-4.5的最新进展、LLM在企业的应用、开发中的安全风险以及...

DeepSeek:开源大模型引领AI新浪潮

DeepSeek凭借其开源大模型DeepSeek-R1,在知识问答、长文本处理、代码生成和数学能力等方面达到顶尖水平,迅速超越ChatGPT,登顶苹果美国地区应用商店免费App...

GPT-4.5逆袭登顶:LLM竞技场的新王者与未来展望

GPT-4.5在LLM竞技场中意外登顶,凭借高情商和优异表现引发热议。尽管智商测试成绩平平,但其在多轮对话、编程、数学等领域的表现令人惊叹。本文将探讨GPT-4.5...

智源研究院BGE模型:中国AI在Hugging Face榜单的突破

智源研究院的BGE模型在Hugging Face月度榜单中登顶,成为中国首个获得该榜单冠军的国产AI模型。BGE是一款开源通用向量模型,专为信息检索和大语言模型检索增...

印度AI使命:挑战DeepSeek与OpenAI,迈向全球AI领导地位

DeepSeek-R1模型的成功引发全球关注,印度政府计划在10个月内开发本土大语言模型,挑战DeepSeek与OpenAI。印度在硬件资源上具备优势,但在创新生态系统方面仍...

深度学习的革命:从Transformer到多模态AI的未来

本文探讨了深度学习的演变历程,从Transformer架构的引入到多模态AI的兴起,详细分析了大语言模型的工作原理、技术基础及其在业务环境中的应用。文章还讨论了...

Transformer架构与大语言模型的革命性演进

本文深入探讨了Transformer架构如何成为大语言模型(LLM)的技术基石,详细解析了自注意力机制、并行计算等核心创新,并回顾了从GPT到BERT再到DeepSeek-R1的...
1 6 7 8 9 10 17