AI交流(进群备注:Genie: Generative Interactive Environments)

Genie 是由 Google 开发的生成式 AI 模型,基于纯视频数据训练,能够从单一图像提示生成交互式可玩环境。该模型拥有 110 亿参数,训练数据超过 20 万小时的 2D 平台游戏视频,通过无监督学习角色运动、控制和动作,以及世界的物理和逻辑规则。尽管目前生成动画的帧率较低、持续时间较短,但其在潜在动作预测上的表现展示了生成交互式虚拟世界的潜力。
Genie: Generative Interactive Environments的特点:
- 1. 从单一图像提示生成交互式环境
- 2. 无需动作标签,通过无标签互联网视频学习
- 3. 由潜在动作模型、视频标记器和动态模型组成,能预测视频的下一帧
- 4. 允许用户逐帧在生成环境中行动,支持训练代理模仿未见视频中的行为
Genie: Generative Interactive Environments的功能:
- 1. 生成新虚拟世界,用于训练 AI 代理
- 2. 探索新娱乐形式,如游戏开发
- 3. 用于 AI 研究,训练通用的 AI 代理
- 4. 在机器人学中模拟可变形对象和精细控制
相关导航

Forgetting Transformer (FoX) 是一种改进的 Transformer 模型,通过在 Softmax 注意力机制中加入遗忘门,增强了处理长文本和序列任务的能力。它的设计目标是提升长文本建模、长度外推和短文本任务的性能,同时保持长上下文处理能力,并解决标准 Transformer 缺乏显式数据依赖遗忘机制的问题。FoX 通过数据依赖的方式下调未归一化的注意力分数,命名为“遗忘注意力”(Forgetting Attention)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上优于标准 Transformer,而在长上下文下游任务上表现相当。此外,FoX 兼容 Flash Attention 算法,且无需位置嵌入,保留了 Transformer 相对于循环序列模型(如 Mamba-2、HGRN2 和 DeltaNet)在长上下文能力上的优势。

AI-Waifu-Vtuber是一个基于VoiceVox Engine、DeepL、Whisper OpenAI、Seliro TTS和VtubeStudio等技术构建的AI伴侣虚拟YouTuber项目。该项目的功能包括生成具备人工智能语音和表情交互能力的虚拟YouTuber角色,支持在流媒体平台上进行直播并与观众互动。其中,VoiceVox Engine用于实现自然的语音合成,DeepL用于机器翻译,Whisper OpenAI用于自然语言处理和对话生成,Seliro TTS用于将文本转化为自然流畅的语音输出,VtubeStudio用于虚拟YouTuber角色的动作捕捉和控制,使其能够进行逼真的表情和动作交互。