字节跳动最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!
一个文本—图像对数据都不用,也能让 AI 学会看文作图来自字节的最新 text2image 模型,就做到了实验数据显示,它的效果比 VQGAN—CLIP 要真实,尤其是泛化能力还比不少用大量文本—图像数据对训练出来的模型要好很多
不用文字训练也能根据文本生成图像
一共分三大步。
首先,对于一幅没有文本标签的图像,使用 CLIP 的图像编码器,在语言—视觉联合嵌入空间中提取图像的 embedding。
接着,将图像转换为 VQGAN 码本空间中的一系列离散标记也就是将图像以与自然语言相同的方式进行表示,方便后续使用 Transformer 进行处理其中,充当 image tokenizer 角色的 VQGAN 模型,可以使用手里的无标记图像数据集进行训练
最后,再训练一个自回归 Transformer,用它来将图像标记从 Transformer 的语言—视觉统一表示中映射出对应图像经过这样的训练后,面对一串文本描述,Transformer 就可以根据从 CLIP 的文本编码器中提取的文本嵌入生成对应的图像标记了
那这样全程没有文本数据参与训练的文本—图像生成器,效果到底行不行。
性能与清华 CogView 相当
其中,VQGAN—CLIP 的结果比较不真实,并且伴随严重的形状扭曲来自清华的 CogView 号称比 DALL—E 更优秀,在这里的实验中,它确实可以生成良好的图像结构,但在纹理细节上差点儿事儿DF—GAN 可以生成具有丰富细节的合理图像,但也容易产生局部伪影
定量实验结果基本证明了这一结论:
CLIP—GEN 拿到了最高的 FID—0,FID—1 分数,CapS 得分除了比 CogView 低 4%,比其他模型都高很多。
一作 Wang Zihao 本科毕业于北京理工大学,博士毕业于 UC 伯克利,曾在谷歌担任 3 年软件开发工程师,现就职于 TikTok。
论文地址:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。