『论文阅读』Generating Videos With Scene Dynamics [ xyma ]

来源：NIPS2016

这篇论文提出了一个基于GAN的网络模型，同时可以进行视频识别和视频生成的task。

Task

　　Video recognition & video Generation.

　　即利用一些Unlabeled videos 去训练模型同时解决识别问题和视频生成的任务。

实验表明：

1. 模型可以生成一些短小的视频并且效果较好

2. 可以根据static image 预测之后的图片序列

3. 模型学习到的特征可以很好的用来进行图片分类

model

OneStream Architecture:

　　在Figure 1 中蓝色的部分即为 One Stream Architecture。

Two StreamArchitecture:

　　即Figure 1 完整版，因为One StreamArchitecture不能很好的建模实际情况：视频通常由静态的背景和动态的前景构成。

　　所以设计了双路的生成模型分别用来生成静态背景 Background 和前景动态Foreground。然后利用：

\[ G_2(z) = m(z)\odot f(z) + (1-m(z))\odot b(z). \] 　　合并前景和背景。

DiscriminatorNetwork

　　直接利用和生成模型对称的卷积网路结构用来作为判别模型。

Learningand Implementation

　　利用SGD来训练模型。激活函数采用ReLU。

数据集的处理

　　对于特征表示的学习可以直接利用unlabeled videos.

　　对于GAN网络的训练，采用Places2 pre-trained model 来进行过滤视频（依据场景类别），最后利用的四个场景类别：golf course, hospital rooms, beaches andtrain station.

　　同时对于相机抖动进行处理，防止出现背景变化的情况。

实验结果

　　tinyvideo 可以看到生成的动态视频。

对于实验结果如何评价

　　Evaluation Metric: We quantitatively evaluate our generation using apsychophysical two-alternative forced choice with workers on Amazon MechanicalTurk.

　　即人工评判，对照实验为 AutoEncoder (即Discriminator>endoer,Generator->decoder)

Video Representation Learning

　　即将GAN模型的Discrimination部分作为特征视频表示学习的模型。

实验证明效果挺好。

Future Generation

　　即CGAN (Conditional GAN), 利用静止的图片作为输入的condition。

　　同时加一个约束：input 和 generator生成的第一帧直接的L1 loss.

确保生成的视频和输入保持一致。