LCT: Long Context Tuning for Video Generation官网 – 场景级视频生成框架

LCT 是由香港中文大学和字节跳动联合开发的场景级视频生成框架，旨在通过数据驱动方法学习场景一致性，扩展 MMDiT 的上下文窗口到整个场景，无需额外参数。它通过扩展上下文窗口和数据驱动方法，试图实现更真实的叙事视频制作，特别适用于需要多镜头、多场景连贯性的叙事视频生产。

LCT: Long Context Tuning for Video Generation的特点:

1. 使用长上下文 MMDiT 块，全注意力机制覆盖所有文本和视频标记。
2. 采用交错三维旋转位置嵌入（RoPE）区分不同镜头，保持内部相对位置关系。
3. 异步时间步策略，支持联合去噪和条件生成。
4. 支持条件生成和组合生成，可基于身份或环境图像生成视频。
5. 能将单镜头视频扩展到分钟级时长，通过自动回归生成 10 秒片段保持视觉一致性。
6. 提供互动式多镜头开发，导演可基于先前片段逐步完善内容，支持即时视觉反馈的创意决策。

LCT: Long Context Tuning for Video Generation的功能:

1. 联合生成：使用双向注意力模型，适合一次性生成所有镜头。
2. 自动回归生成：使用经过上下文因果注意力微调的模型，需设置历史条件和特定扩散时间步（通常在 t=100 到 t=500 之间），以平衡生成质量和保真度。
3. 互动生成：允许基于先前片段逐步完善内容，导演可逐镜头调整，无需全面的初始提示。

相关导航

BD3-LM开源 – 结合自回归与扩散模型的语言模型

BD3-LM（Block Diffusion Language Model）是一种创新的语言模型，旨在通过结合自回归模型和离散扩散模型的优点，显著提升语言建模任务的性能。它通过在token块上执行自回归，并在每个块内进行离散扩散，实现了灵活且高效的建模方式。该模型特别适用于生成任意长度的序列，展现了其在自然语言处理领域的潜力。

Gemini 1.5 Pro官网 – 高效的多模态混合专家模型

一种计算效率高的多模态混合专家模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。

Maverick官网 – 个性化视频营销工具

Maverick是一款前沿的AI工具，旨在通过个性化视频增强电子商务企业与客户的互动，提高客户终身价值。该工具专为希望改善转化率、增加重复购买率并实现显著投资回报的电子商务商店量身定制。

Aug X Labs AI video editing官网 – 将文字转化为引人入胜的视频内容

Aug X Labs是一家基于AI的视频技术和出版创业公司，帮助用户将文本转化为引人注目的视频内容。其AI助手Augie可以将脚本、旁白或录音转化为定制的视频，用户只需输入相关内容，Augie便会生成视频，且无需专业编辑技能。最终视频可下载为MP4格式，支持竖屏或横屏模式。

Ollama model direct link generation and installation tool开源 – Ollama模型直链生成与安装工具

这是一个专为Ollama模型设计的工具，旨在简化模型的下载和安装过程。它通过快速生成直接下载链接和提供简单的安装命令，帮助开发者、研究人员和爱好者高效地获取并部署Ollama模型。工具支持多种模型，操作直观，适合本地部署大型语言模型（LLMs）。

dubsync.ai官网 – 最智能的AI配音系统

dubsync.ai 是一个先进的AI配音系统，能够将视频自动翻译并配音，支持超过20种语言。用户只需登录并上传视频，系统便会处理一切，让用户轻松创建多语言视频，拓展全球受众。

Sora Hunters官网 – AI视频爱好者的平台

Sora Hunters是一个专为AI视频爱好者设计的平台，提供AI生成的视频、提示、新闻以及社区讨论。用户可以在这里观看强大的AI视频，阅读最新的AI新闻，寻找AI项目的提示，并参与社区讨论。

知识导向的检索增强生成调查论文 – RAG技术的全面调查报告

这篇论文由明月程等人于2025年发表，隶属于中国科学技术大学认知智能国家重点实验室。论文全面概述了知识导向的检索增强生成（RAG）技术，涵盖其基本组件、挑战和应用。RAG通过结合大规模检索系统与生成模型，增强自然语言理解和生成，利用外部知识来源如文档、数据库或结构化数据来提升模型表现并生成更准确、上下文相关的输出。论文还探讨了RAG的关键特性，如通过动态外部知识增强生成模型的能力，以及在检索信息与生成目标对齐方面的挑战。此外，论文还呈现了一个从基本检索增强方法到包含多模态数据和推理能力的高级模型的方法分类。