大型语言模型

大型语言模型（LLM）的竞争格局与未来趋势

本文探讨了大型语言模型（LLM）的竞争格局，分析了合成数据、模型蒸馏和提示工程等关键技术。文章还梳理了多家公司在合成数据领域的技术积累和业务应用，并展...

AI快讯

3个月前

北京时间2月18日，马斯克旗下人工智能初创公司xAI发布了新一代Grok 3大型语言模型，该模型在20万个英伟达H100 GPU上使用大量合成数据进行训练，参数规模超过2...

AI快讯

3个月前

本文探讨了生成式AI和提示工程的最新进展，重点介绍了Anthropic、OpenAI等公司在AI研究中的创新方向，以及AGI（人工通用智能）的发展前景。文章还分析了大型...

AI快讯

3个月前

本文深入探讨了监督微调（SFT）在大型语言模型（LLM）中的应用及其与强化学习（RL）的结合。通过分析DeepSeek R1的技术研讨，我们揭示了SFT如何提升模型的可...

AI快讯

3个月前

本文回顾了大型语言模型（LLM）从2017年Transformer架构的引入到2025年DeepSeek-R1的演变历程。文章探讨了LLM的关键技术突破，包括自注意力机制、生成能力、...

AI快讯

3个月前

本文详细介绍了如何从基础到高级学习AI智能体，涵盖生成式AI、大型语言模型、提示工程、智能体框架、多智能体协作等关键知识点，帮助读者全面掌握AI智能体的...

AI快讯

3个月前

本文探讨了强化学习（RL）在大型语言模型（LLM）中的应用，特别是DeepSeek R1模型的研究进展。通过结合监督微调（SFT）和RL，模型在可验证任务中表现出色，但...

AI快讯

3个月前

本文深入探讨监督微调（SFT）在大型语言模型（LLMs）中的应用，解析其如何通过更新模型权重实现高效定制。结合Hugging Face与NeMo AutoModel的集成，文章还提...

AI快讯

3个月前

本文探讨了Transformer架构在AI领域的演进，分析了其在大型语言模型中的应用，并预测了AI推理未来的发展趋势。随着ASIC芯片的普及，AI推理将迎来更高效、更低...

AI快讯

3个月前

本文探讨了如何通过微调大型语言模型Llama 3来优化客户服务体验，涵盖任务特定性、定制化和成本降低等关键方面，适用于真实聊天机器人、情感分析和内容生成等...

AI快讯

3个月前