AI交流(进群备注:LongWriter)

LongWriter是由清华大学和智普联合开源的一种超长输入、超长输出的AI模型,旨在通过超长上下文输入和超长答案输出来确保正确的答案隐藏在输出中。该模型通过构建包含更长文本的高质量训练数据集,显著提升了模型的长文生成能力。LongWriter开源了两个模型:THUDM/LongWriter-llama3.1-8b和THUDM/LongWriter-glm4-9b,并提供了试用空间进行测试。该模型能够生成连贯、逻辑性强的长篇文章,致力于释放长上下文LLM的10,000+字生成能力。
LongWriter的特点:
- 1. 支持超长上下文输入和超长文本生成
- 2. 生成连贯、逻辑性强的长篇文章
- 3. 开源两个模型:THUDM/LongWriter-llama3.1-8b和THUDM/LongWriter-glm4-9b
- 4. 提供试用空间进行测试
- 5. 支持10,000+字生成
LongWriter的功能:
- 1. 用于生成长篇文章,如旅游指南、小说等
- 2. 用于生成超长文本的对话内容
- 3. 用于测试和评估长文本生成模型的性能
- 4. 用于构建包含超长文本的高质量训练数据集
- 5. 用于研究长上下文LLM的生成能力
相关导航

LLaVA-NeXT 是一个先进的多模态模型,基于 LLaVA-1.5 进行改进,于 2023 年 10 月发布基础版本,并于 2024 年 1 月推出 LLaVA-NeXT。该项目旨在提升图像处理和语言理解能力,特别是在视觉推理、OCR(光学字符识别)和多模态指令遵循方面。LLaVA-NeXT 通过增加输入图像分辨率(最高达 672x672、336x1344、1344x336)以及改进视觉指令调整数据集,显著增强了模型性能。它还支持更大的语言模型,如 Mistral-7B 和 Nous-Hermes-2-Yi-34B,进一步提升了其能力。LLaVA-NeXT 的训练成本低,仅需约 32 个 GPU 运行一天,使用不到 100 万视觉指令调整样本,总训练数据为 131.8 万样本,计算成本分别为 7B 模型 8x20 GPU 小时、13B 模型 16x24 GPU 小时、34B 模型 32x30 GPU 小时。这使其训练效率高于许多竞争对手,成本低至其他模型的 100-1000 倍。LLaVA-NeXT 的开放源代码特性使其广受研究者欢迎,代码、数据和模型均可公开访问,得到了 A16Z 开源 AI 资助计划的支持。