DeepSeek官网 – 低成本高性能的中文AI模型

DeepSeek是一家位于中国杭州的人工智能公司，专注于开发大型语言模型（LLMs）。公司成立于2023年7月，隶属于中国对冲基金High-Flyer。DeepSeek的核心产品包括一系列LLMs，涵盖对话、搜索、编程和推理功能。其模型在性能和成本效益上表现出色，特别是在推理任务和编程支持方面，能够与国际领先模型如OpenAI的GPT-4o媲美。DeepSeek的模型训练成本显著低于行业平均水平，例如V3模型的训练成本仅为600万美元，而OpenAI的GPT-4在2023年耗资1亿美元。2025年1月，DeepSeek推出了同名聊天机器人和DeepSeek-R1模型，迅速在全球AI领域崭露头角。

DeepSeek的特点:

1. 开放权重，但自由度低于开源软件
2. 成本效益高：V3模型训练成本仅为600万美元
3. 采用混合专家（MoE）、多头潜在注意力（MLA）、KV缓存和多标记预测等技术
4. 性能表现优异：DeepSeek-R1在数学和编码任务上超过OpenAI o1
5. 支持多种编程语言和长上下文对话

DeepSeek的功能:

1. 编程代码开发：支持项目级代码补全和填空任务
2. 内容创作：适合长文本对话和创意写作
3. 文件处理：支持上传文档进行长上下文分析
4. 推理任务：特别适用于数学和逻辑推理等学术场景
5. 聊天机器人：免费提供iOS和Android用户使用
6. API集成：通过API和聊天界面访问模型，适合开发者集成到应用中

相关导航

gigax开源项目 – 高性能的游戏NPC交互项目

利用大型语言模型(LLM)驱动的NPC(非玩家角色)项目，旨在为游戏开发提供高性能的交互式角色，支持多种游戏场景，能够在本地硬件上运行，为开发者提供灵活的API接口，增强游戏的互动体验。

MCTS-GSM8k-Demo开源项目 – 高效解决数学问题的AI演示

用蒙特卡洛树搜索与大型语言模型结合解决数学问题的演示项目，就像给AI装上了解题的“指南针”，让它能更高效地找到解题路径

Deita开源项目 – 高效的指令微调数据选择工具

Deita旨在为大型语言模型(LLM)的指令微调提供自动数据选择工具和高质量的对齐数据集，Deita模型能通过比其他SOTA LLM少10倍的指令微调数据进行训练，达到与它们相媲美的性能。

BreveAI官网 – 高效集成现实数据的语言模型

BreveAI 提供了一种独特的大型语言模型（LLM）方法，能够与现实世界数据整合，优先考虑任务效率。它采用开源模式，提供易于使用的API，定价透明，较当前LLM价格低30%，且准确率高40%。

ReSearch开源项目 – 强化学习让LLM学会搜索推理

ReSearch 是一个开源项目，通过强化学习将搜索操作整合到大型语言模型（LLMs）的推理过程中，使其能够通过搜索工具更有效地回答问题。该项目通过强化学习训练LLM，使其在无监督数据的情况下学会何时以及如何调用搜索工具。基于Qwen2.5-7B模型，从零开始训练，展现了强大的泛化能力，并在HotpotQA等数据集上验证，性能显著提升。

Harmonic Loss论文 – 提升模型可解释性的新型损失函数

Harmonic Loss 是一种新型的损失函数，旨在替代传统交叉熵损失函数，用于训练神经网络和大型语言模型。它通过引入尺度不变性和有限收敛点等特性，提升模型的可解释性并加速收敛。研究表明，Harmonic Loss 在减少模型泛化延迟（'grokking'现象）和数据效率方面表现优异，并在算法、视觉和语言数据集上验证了其有效性。

llguidance开源项目 – 约束解码大型语言模型输出

实现了对大型语言模型输出的约束解码，支持多种格式的语法规则，并且具有高效的性能。该项目旨在提高语言模型的输出质量，确保生成文本符合特定的语法和结构要求，适用于多种自然语言处理任务。

Falcon 2 11B模型 – 高效多语言大型语言模型

Falcon 2 11B 是由阿联酋技术创新研究所（TII）开发的大型语言模型，拥有110亿参数，经过5.5万亿token的训练。该模型在语言理解和生成方面表现出色，支持多种语言，适合研究和商业用途。其性能优于Meta的Llama 3 8B，与Google的Gemma 7B相当，尤其在Hugging Face的评估工具中表现领先。

FLEXTAF开源项目 – 优化表格推理的AI项目

FLEXTAF是一个针对表格推理的AI项目，旨在通过使用不同表格格式来优化大型语言模型（LLM）在表格问答任务中的性能。项目包含两个主要模块：FLEXTAF-Single和FLEXTAF-Vote。FLEXTAF-Single通过训练分类器来预测最合适的表格格式，并在推理时使用该格式来解决问题。FLEXTAF-Vote则通过整合不同格式的结果，并通过投票确定最终答案。研究显示，不同的表格格式在处理不同类型的问题时表现出不同的性能优势。

OpenManus开源项目 – 快速复刻Manus的开源项目

OpenManus是一个开源项目，旨在让开发者能够轻松访问、修改和扩展Manus的功能。它无需邀请码，打破AI封闭生态，提供快速上手的体验。项目集成了多种成熟技术，包括大型语言模型（LLM）、AI Agent、计算机/浏览器使用、图像/视频理解、爬虫等，通过产品思维和工程集成，提供高效、智能的解决方案。

Awesome-Agent4SE开源项目 – 软件工程Agent资源宝库

Awesome-Agent4SE是一个关于软件工程中Agent的资源列表，汇集了大量关于如何将大型语言模型（LLM）应用于软件工程领域的研究论文。该项目旨在帮助开发者和研究人员更好地理解和利用这些技术，以提升软件开发的效率和质量。通过提供全面的调查、现状和未来展望，Awesome-Agent4SE成为了一个宝贵的资源库，适用于学术研究、开发项目以及教学培训。

LLM Finetuning Hub开源项目 – 个性化微调大型语言模型

LLM微调中心，用于将各种大型语言模型进行微调，以适应个性化用例，提供丰富的微调脚本和最新研究成果，支持模型部署及自定义微调，旨在提高模型在特定数据集上的性能。