SYDLAB_inha/Paper Reviews

Paper Review - Video Compression based on Jointly Learned Down-Sampling and Super-Resolution Networks

빈그레 2023. 10. 25. 22:14
introduction

down sampling based-video coding
: 이미지 해상도를 감소시켜 픽셀의 수를 줄이는 과정으로, 주로 밝기 정보는 유지하면서 이미지를 축소시킨다

bicubic 
: 이미지나 비디오에서 픽셀 값을 예측하거나 interpolation(보간)하는데 사용되는 고급 보간 알고리즘

codec 
: 압축(인코딩)하거나 압축된 신호를 복원(디코딩)하는 시스템

 

 

up&down sampling으로 optimization 불가능

 

: 본래는 down sampling과 up samplihng을 함께 joint하여 GAN과 같은 딥러닝 기술로 저해상도 이미지에서 고해상도 이미지를 생성하며 최적화를 진행할 수 있으나 codec module에서는 불가능하다 왜인지 알아보자.

 

down sampling과 up sampling에 대해 각각 network를 구성하여 학습시킨다고 할 때,
이들사이에 codec의 encoding과 decodign module이 위치해있다.

***down sampling : 이미지 정보를 줄여 낮은 해상도로 만드는 과정
***up sampling : 이를 높은 해상도로 복원하는 과정

인코딩 과정에 quantization이 있는데 양자화는 불연속적인 연산이므로 미분이 불가능하다. (non-differentiability)
 
따라서 codec module에서는 back-propagation이 불가능하다
(back-propagation은 미분 연산이므로)

 

 

optimization 문제 해결

 

문제 1, 인코딩에서의 양자화 때문에 미분 불가능하여 back propagation 불가능
문제2, 따라서 up&down sampling으로 optimization 불가능

본 논문에서는 딥러닝 기반의 down sampling network를 설계 및 학습시키고 virtual codec network를 설계하여 위 문제를 해결하였다. 

 

 

 

Proposed Method

 

 

 

 

high-resolution (HR) 프레임이 down-sampling network (DSN) 을 통해 low-resolution (LR) 프레임이 되며,

이 LR 프레임은 인코더와 디코더를 거쳐 압축에 의한 손실이 발생한 reconstructed LR이 된다.

Inference 단계에서는 이렇게 얻은 decoded LR (DLR)이 super-resolution network (SRN)의 입력으로 들어가 SR 프레임을 생성하지만,

Training 단계에서는 코덱에서 끊기지 않고 end-to-end로 DSN과 SRN을 학습시키기 위해 virtual codec network (VCN)을 구축해 기존의 코덱을 대체하도록 구성했다.

이 때, 학습의 안정화를 위해 VCN은 DSN+SRN과 번갈아가며 파라미터를 업데이트 시켜 학습시켰다. 즉, DSN+SRN을 학습시킬 때는 VCN의 파라미터를 고정시키고, VCN을 학습 시킬 때는 DSN+SRN의 파라미터를 고정시켰다.