有监督的图像翻译——Pix2Pix
应用:图像到图像的翻译是GAN的一个重要方向,基于一个输入图像得到输出图像的过程,图像和图像的映射,如标签到图像的生成,图像边缘到图像的生成过程。
图像处理、图形和视觉中的许多问题涉及到将输入图像转换为相应的输出图像。这些问题通常使用算法来处理,尽管设置总是相同的:将像素映射到像素。条件对抗性网是一种通用的解决方案,它似乎能很好地解决各种各样的此类问题。这里我们展示了几种方法的结果。在每种情况下,我们使用相同的架构和目标,只是针对不同的数据进行训练。
使用条件GAN(CGAN)作为一种图像到图像的解决方案,添加条件信息来指导图像的生成,因此输入条件就是输入图像,其他GAN的生成器基于随机噪声产生图像,CGAN不依赖损失函数实现,无需手动设计损失函数。
图像领域的许多问题归结为图像翻译称为相应的输出,从像素预测像素,设计损失函数,生成模型最小化损失函数,
无条件GAN:生成器随机产生图像;有条件GAN:生成器和鉴别器都考虑了边缘映射,条件GNA损失是学习来的。总结:图像到图像到生成,用特定算法实现,像素到像素的映射,用loss function让算法优化。
输入图像为y,x是y的边缘,x经过生成器,得到G(x),x和G(x)作为输入经过判别器,该预测值表示输入是否是一对真实图像。概率越大比表示越接近,
y 和x也作为输入,
随机噪音z作为输入的到生成器,作用???
网络结构:
生成器:U-Net结构
常见的先降采样到低维度,再升采样到原始分辨率的编解码(Encoder-Decoder)结构的网络相比,U-Net的区别是加入skip-connection,对应的feature maps和decode之后的同样大小的feature maps按通道拼(concatenate)一起,用来保留不同分辨率下像素级的细节信息。U-Net对提升细节的效果非常明显。
判别器:采用PathGAN
利用重建解决高频成分,一方面使用L1loss使得生成图片和训练图片相似,另一方面Gan只能用于构建高频信息,
总结:pix2pix使用CGAN框架为图像到图像的翻译提供了一个通用的框架,使用U-Net网络作为生成器,提升细节,利用PatchGAS作为判别器,处理图像的高频部分
参考:https://www.jianshu.com/p/8c7a7cb7198c
最新文章
- 【iOS】NSNumberFormatter
- 【原创】O2O,你真的知道怎么玩吗?
- Java 8之二小坑:stream parallel 和 lamada
- Log4Net
- 【Unity】常用代码
- Excel下拉框选项切换行颜色切换
- 用原生js实现一个页面乘法口诀表
- CM_RESOURCE_LIST structure
- VS2010 安装 Boost 库 1.54
- mysql按照天统计报表,当天没有数据,填0
- 【ASP.NET Core快速入门】(一)环境安装
- promise用法十道题
- 实例:vue中点击空白区域关闭某个div图层
- linux学习第十六天 (Linux就该这么学)
- 【转】Go Interface 源码剖析
- U-boot的编译方式及目录结构解析
- Centos 6.4 安装dnsmasq
- Hadoop学习之pig
- [UE4]widget事件:On Mouse Enter、On Move Leave、Set Color And Opactiy
- winform只允许一个应用程序运行
热门文章
- 从工具到实践:如何在GitHub上保障开源项目安全?
- Java关键词synchronized解读
- 三台服务器使用docker搭建redis一主二从三哨兵,概念-搭建-整合springboot
- [常用工具] 深度学习Caffe处理工具
- Spark详解(08) - Spark(3.0)内核解析和源码欣赏
- TensorRT基础笔记
- Xversion 在 macOS12.4
- _Bool類型
- Entrypoint undefined = index.html html-webpack-plugin 错误ERROR in Error: Child compilation failed: Module build failed (from ./node_modules/html-webpack-plu SyntaxError: Unexpected token )
- python3异常打印堆栈信息