[发明专利]基于对抗生成网络的跨模态文本到图像生成方法在审
申请号: | 202111271415.9 | 申请日: | 2021-10-29 |
公开(公告)号: | CN114329025A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 鲍秉坤;袁博闻;盛业斐 | 申请(专利权)人: | 南京南邮信息产业技术研究院有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F40/211;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08;G06V10/75;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 邓道花 |
地址: | 210038 江苏省南京市栖霞区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 生成 网络 跨模态 文本 图像 方法 | ||
本发明公开了基于对抗生成网络的跨模态文本到图像生成方法,通过在再生成模块引入对抗学习,提高了优化缺陷图片的效果;另外使用语义距离度量优化来保证图片对之间语义的一致性,所生成的图片有更好的语义一致性表现,将输入的文本与真实图片进行融合,生成与对应描述文本间找到良好的语义关联的优化图像。
技术领域
本发明涉及计算机图像生成技术领域,特别是涉及基于对抗生成网络的跨模 态文本到图像生成方法。
背景技术
随着信息技术的发展和多媒体技术的应用,我们接受到的信息,对世界的体 验逐渐变为多模态的,我们看见物品的同时便会想到物品的名字,视觉信息和文 字信息同时地被我们经历。而多模式机器学习旨在建立能够处理和关联来自多种 模式的信息的模型。这是一个日益重要且具有潜力的充满活力的领域。在该领域 中生成符合给定文本描述的真实图像(text-to-image)是多模态任务之一,该 任务有很好的应用前景,在图像编辑,视频编辑,用户个性化生成,个性化推荐 等领域有很好的发展潜力。由于生成对抗网络(GANs)在生成真实感图像方面的成 功,文本到图像的生成取得了显著进展。文本到图像的生成创作需要对被创造的 事物有深刻的理解,无论是单一种类的物件或者是包含各种人物的事件,要求计 算机能够理解文本与图片不同模态下的语义信息,并保证生成的图片能与对应的 文本有较好的一致性。自动图像生成可以帮助设计类的工作。未来定制图像和视 频的算法可能会取代图像和视频搜索引擎或简单的图片设计修改软件,以响应每 个用户的个人喜好。文本生成图像的相关工作相较于图像描述,图像所包含的信 息更为复杂,因此生成图像任务的提出晚于图像描述,但目前也取得了较为显著 的进步。
在本发明中,训练集和测试集来自于MSCOCO2014数据集以及CUB2011鸟类 数据集,每张MSCOCO图片对应5条描述,每张CUB图片对应10条描述。目前对 文本到图像生成的研究,使用了对称式的再生成网络来保证再生成文本与原始图 片保留语义上的一致性,而这种方法在优化生成有缺陷的图片时,可能会导致优 化距离的不准确,从而误导生成器生成了语义含义与原始文本不一致的图片,且 常规的判别器结构往往是以拟合图像分布为目的,忽略了图片对之间语义的一致 性。
本发明需要解决的技术问题主要为:如何利用对抗学习与语义距离度量在文 本生成图像任务上保证更好的语义一致性,即能够在生成图片与对应描述文本间 找到良好的语义关联。
发明内容
为了克服上述现有技术的不足,本发明提供了一种该通过在再生成模块引入 对抗学习,提高了优化缺陷图片的效果;另外使用语义距离度量优化来保证图片 对之间语义的一致性,所生成的图片有更好的语义一致性表现的基于对抗生成网 络的跨模态文本到图像生成方法。
本发明所采用的技术方案是:
基于对抗生成网络的跨模态文本到图像生成方法,其特征在于:包括如下步 骤:
S100.提取文本的句向量:
将文本分别输入至协同注意力编码器和BERT预训练编码器进行句子级特征 提取,分别获得协同注意力句子级特征向量S1,以及预训练BERT句子级特征向量 S2;
S200.线性优化协同注意力句子级特征向量S1和预训练BERT句子级特征向量 S2,并且将S100步骤获得的句子级特征向量S1和句子级特征向量S2优化为优 化文本句子向量St,假定与协同注意力句子级特征向量S1相关的线性系数λ1, 预训练BERT句子级特征向量S2的线性系数为λ2,进行线性优化得到优化的优
化文本句子向量St:
S1=TextEncoder(X)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京南邮信息产业技术研究院有限公司,未经南京南邮信息产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111271415.9/2.html,转载请声明来源钻瓜专利网。