单级生成网络:代表有DF-GAN等。只使用一个生成器、一个鉴别器、一个预训练过的文本编码器,使用一系列包含仿射变换的UPBlock块学习文本与图像之间 的映射关系,由文本生成图像特征。 堆叠结构:多阶段生成网络,代表有stackGAN++、GoGAN等。GAN 对于高分辨率图像生成一直存在许多问题,层级结构的 GAN 通过逐层次,分阶段生成, 一步步提生图像的分辨率。在每个分支上,生成器捕获该尺度的图像分布,鉴别器分辨来自该尺度样本的真假,生成器G1接收上一阶段的生成图像不断对图像进行 细化并提升分辨率,并且以交替方式对生成器和鉴别器进行训练。

多阶段GAN相比二阶段表现出更稳定的训练行为。(一般来说,GAN的训练是不稳定的,会发 生模式倒塌的现象mode collapse,即生成器结果为真但多样性不足)。生成对抗网络实现文本生成图像主要分为三大部分:文本编码器、生成器和鉴别器。文 本编码器由RNN或者Bi-LSTM组成,生成器可以做成堆叠结构或者单阶段生成结构, 生成模型捕捉样本数据的分布,不断生成图像,判别模型判别输入是来自是真实数据还 是来自生成模型,鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。 两者在对抗中,不断提升各自的能力,生成器逐渐提升生成图像的能力,生成图像的分 布接近真实图像分布,从而提高判别器的判别能力,判别器对真实图像和生成图像进行 判别,来提高生成器的生成能力。

AIGC专题报告:从文生图到文生视频
download

声明:本站所有报告及文章,如无特殊说明或标注,均为本站用户发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。