Stacked generative adversarial networks for image compositing

EURASIP Journal on Image and Video Processing

Table 1 The architecture of G₁/G₂ network. “IN” represents InstanceNorm, “LReLU” represents Leaky ReLU activation, “Conv.”/“DeConv.” denotes convolutional/transposed convolutional layer with kernel size of 4, “st” means stride, “Concat” explains the skip connections, “Guidance” means guidance loss operation, and “Shift” means shift-connection operation. The different layers of G₁ and G₂ are listed separately

The generative model G₁/G₂
Input G₁: Image (512×512×3)/ G₂: Feature (512×512×6)
Layer 1 G₁: Conv. (3, 64), st=2;/ G₂: Conv. (6, 64), st=2;
Layer 2 LReLU; Conv.(64, 128), st=2; IN;
Layer 3 LReLU; Conv.(128, 256), st=2; IN;
Layer 4 LReLU; Conv.(256, 512), st=2;IN;
Layer 5 LReLU; Conv.(512, 512), st=2; IN;
Layer 6 LReLU; Conv.(512, 512), st=2; IN;
Layer 7 LReLU; Conv.(512, 512), st=2; IN;
Layer 8 LReLU; Conv.(512, 512), st=2;
Layer 9 ReLU; DeConv.(512, 512), st=2; IN; Concat.(9, 7);
Layer 10 ReLU; DeConv.(1024, 512), st=2; IN; Concat.(10, 6);
Layer 11 ReLU; DeConv.(1024, 512), st=2; IN; Concat.(11, 5);
Layer 12 ReLU; DeConv.(1024, 512), st=2; IN; Concat.(12, 4);
Layer 13 ReLU; DeConv.(1024, 256), st=2; IN; Concat.(13, 3);
Layer 14 ReLU; Guidance; Shift; DeConv.(768, 128), st=2; IN; Concat.(14, 2);
Layer 15 ReLU; DeConv.(256, 64), st=2; IN; Concat.(15, 1);
Layer 16 ReLU; DeConv.(128, 3), st=2; Tanh;
Output G₁: Feature (512×512×3)/ G₂: Image (512×512×3)