Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

DeepSeek-V3-0324 是由DeepSeek AI开发的大型语言模型,采用Mixture-of-Experts (MoE)架构,总参数约为6850亿。该模型利用Multi-head Latent Attention (MLA)和DeepSeekMoE架构,创新性地引入了无辅助损失的负载均衡策略,并设置多令牌预测训练目标以提升性能。在14.8万亿多样化高品质令牌上预训练后,通过监督微调和强化学习进一步优化,DeepSeek-V3-0324 在推理、代码生成和其他语言任务中表现出色。
DeepSeek-V3-0324的特点:
- 1. 约6850亿参数,模型规模庞大
- 2. 支持BF16、F8_E4M3、F32等多种张量类型
- 3. 开源MIT许可,适合文本生成任务
- 4. 采用无辅助损失的负载均衡策略,提升性能
- 5. 支持功能调用和JSON输出
- 6. 支持Fill-in-the-Middle (FIM)完成,增强代码生成能力
DeepSeek-V3-0324的功能:
- 1. 使用系统提示:’该助手为DeepSeek Chat,由深度求索公司创造。今天是{当前日期}。’
- 2. 设置API温度T=1.0,对应模型温度T=0.3,平衡创造性和准确性
- 3. 文件上传和网络搜索提示,提供中文和英文模板
- 4. 本地运行,参考DeepSeek-V3 GitHub仓库,支持功能调用和JSON输出
- 5. 自动化任务,如代码生成和文本生成
- 6. API集成,支持结构化数据输出
相关导航

CodeShell开源项目 – 最强代码大模型,提升开发效率
CodeShell 是由北京大学软件工程国家工程研究中心与四川天府银行 AI 实验室联合开源的 70 亿参数的代码大模型,号称同等规模最强代码基座。它基于 5000 亿 Tokens 进行了冷启动训练,具备 8192 的上下文窗口长度,融合了 StarCoder 和 Llama 的核心特性,支持中英文和代码的平衡且高效的编解码,并在 HumanEval 和 MBPP 代码评估基准中表现优异。该模型还支持 Flash Attention2 加速,训练吞吐量高达每 GPU 每秒 3400 Token,同时提供 IDE 插件,兼容 VSCode 和 IntelliJ IDEA。
暂无评论...