AI交流(进群备注:Moxin-LLM)

Moxin-7B是一个在模型开放框架(Model Openness Framework)指导下完全开源的大模型,不仅开源了预训练代码、配置文件、训练和微调的数据集,还公开了中间检查点。训练数据集综合了SlimPajama、DCLM-BASELINE文本数据和the-stack-dedup的编程代码数据,支持32K的上下文长度,并采用了GQA、Sliding Window Attention、Rolling Buffer Cache等先进技术。
Moxin-LLM的特点:
- 1. 完全开源,包括预训练代码、配置文件和数据集
- 2. 公开了中间检查点,便于研究和复现
- 3. 训练数据集综合了SlimPajama、DCLM-BASELINE文本数据和the-stack-dedup的编程代码数据
- 4. 支持32K的上下文长度
- 5. 采用了GQA、Sliding Window Attention、Rolling Buffer Cache等先进技术
Moxin-LLM的功能:
- 1. 用于自然语言处理任务,如文本生成、翻译和问答
- 2. 支持长上下文处理,适用于需要长文本理解的应用
- 3. 可用于编程代码的生成和理解
- 4. 作为研究和开发的基础模型,支持进一步的微调和优化
相关导航
暂无评论...