Google最近发布了一项名为“Generative Powers of Ten”的图像生成功能,这项功能支持对生成的图像进行无限放大。这意味着用户可以将一张人像照片放大到可以看到细胞结构,或者将地球大气层缩放到地面上的物体。
这一目标是通过联合多尺度扩散采样方法实现的。这种方法鼓励不同尺度的一致性,同时保持每个单独采样过程的完整性。而传统的超分辨率方法可能很难在截然不同的比例下创建新的上下文结构,而这项新的方法能够比传统方法实现更深层次的缩放。
论文地址:https://arxiv.org/pdf/2312.02149.pdf
具体实现方法是使用预训练的扩散模型来同时去噪多个不同尺度的场景图像。每个缩放级别的噪声图像以及相应的提示同时输入到相同的预训练扩散模型中,返回对应的清晰图像的估计。然后采用多分辨率混合将这些区域融合成一致的缩放堆栈,并从一致的表示中重新渲染不同的缩放级别。最后,重新渲染的图像被用作DDPM采样步骤中的清晰图像估计。
与其他生成缩放视频的方法相比,这项新方法的观察结果显示,因果生成通常会导致较差的结果,因为先前的生成结果并不总是与后续的缩放级别兼容。而新方法的联合多尺度扩散采样方法则能够产生更深层次的缩放,并保持一致性,是一项重要的突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...