近日,人工智能领域顶级学术会议NeurIPS 2024公布了最佳论文名单,其中一篇由北京大学与字节跳动团队合作完成的论文《视觉自回归建模:通过下一尺度预测实现可扩展的图像生成》脱颖而出,成为焦点。然而,这篇论文的第一作者田某某却因“破坏大模型训练”事件陷入法律纠纷,使得技术突破与争议交织在一起。
技术突破:视觉自回归建模的创新
自回归模型(Autoregressive Model)是一种基于序列前面值预测后面值的生成模型,广泛应用于自然语言处理领域,如GPT系列模型。然而,在图像生成领域,自回归模型的表现一直落后于扩散模型(Diffusion Transformer)。
北京大学与字节跳动团队的这篇获奖论文提出了一种名为视觉自回归建模(Visual Autoregressive Modeling,简称VAR)的新型图像生成范式。VAR通过下一尺度预测(Next-Scale Prediction)实现可扩展的图像生成,能够快速学习视觉分布并具备良好的泛化能力。实验表明,VAR在图像生成质量、推理速度和可扩展性等方面均超越了传统的扩散模型,验证了自回归模型在视觉领域的巨大潜力。
这一创新不仅为图像生成领域提供了新的研究方向,也进一步拓展了自回归模型的应用边界。
争议焦点:第一作者的法律纠纷
然而,这篇论文的第一作者田某某却因另一事件引发广泛关注。字节跳动起诉田某某在实习期间篡改代码,恶意攻击公司内部模型训练任务,造成资源损耗。字节跳动已向法院请求判令田某某赔偿经济损失800万元及合理支出2万元,并公开赔礼道歉。
字节跳动内部人士表示,田某某的行为已触犯公司安全红线,且其在事件处理期间多次否认指控,称攻击模型训练任务的并非自己。公司决定通过法律途径严肃处理此事,以杜绝类似事件再次发生。
技术天才与道德争议
田某某的学术能力毋庸置疑。作为北京大学在读博士生,他已在多个顶级学术会议发表论文,包括ICLR 2023的Spotlight论文和NeurIPS 2021、2020的Poster论文。此次NeurIPS最佳论文的荣誉更是对其研究能力的肯定。
然而,其与字节跳动的法律纠纷也引发了关于技术天才与道德责任的讨论。有网友评论称,“实至名归”,也有网友表示“德行败坏者,能力越强,危害越大”。
结语
视觉自回归建模的技术突破为人工智能领域带来了新的希望,但与之相关的争议也提醒我们,技术创新与职业道德同样重要。如何在推动技术进步的同时,确保科研人员的道德底线,将是未来需要深入探讨的课题。