SYDLAB_hanyang/Paper Reviews

Paper Review - EMA-VFI(1) / Introduction / Related Work

빈그레 2024. 4. 28. 17:55

 

 


 Extracting Motion and  Appearance via Inter-Frame Attention

for Efficient Video Frame Interpolation

 

 

 

 

 

 

 

 

Introduction

 

VFI( Video Frame Interpolation) 은 두 프레임 사이 중간 프레임을 생성하는  fundamental한 low-level vision taks이다. 

(low level은 영상 처리의 영역, high level은 컴퓨터 비전의 영역)

 

VFI 접근 방식은 크게 두 가지로 나뉜다. 

1) Appearance 정보와 motion 정보를 혼합하여 추출 ( mixed feature )

2) Appearance 정보와 motion 정보를 sequeital하게 별도 추출 ( motion featrue )

 

1)도 2)도 아닌 feature 정보 동시! 별도! 추출!

이 논문에서는 inter frame attention을 통해 appearance와 motion정보를 동시 추출하는 새로운 모듈을 제안한다.

(a),(b)가 본래 존재하던 VFI 접근 방식이고, 이 논문에서 제안하는 것은 (c)이다. 혼합되지도 sequential하게 따로 처리되지도 않으며, parallel하게 attention map을 활용하여 동시에 추출된다.

 

Parallel extraction을 통해 아래와 같은 이점을 얻을 수 있다.

 

1) 프레임의 appearance 정보 강화

motion 정보와 혼합되지 않아 appearance의 정적인 구조를 보존

2) motion feature 확장

extraction한 motion feature는 시간에 따라 확장이 가능하여 입력 프레임 사이 모든 시점에서 프레임을 생성할 수 있다.

3) 성능 및 속도 향상

parallel하게 처리하므로 전반적은 속도가 빠르고, 모듈 수 제어 가능

 

 

[Hybrid  pipeline]

 

효율적 VFI를 위해 CNN과 Trnasformer architecture를 결합한 hybrid pipeline을 통해 feature를 효과적으로 추출한다.

 

 

Related Work

 

2.1 Video Frame Interpolation
 
- Motion aware methods
: 초기 연구에서는 appearance 정보를 활용하지 않고 픽셀 수준에서 프레임 간의 motion만 예측했으나, Niklaus 등의 연구에서 contextual features를 활용한 synthesis network를 거친 aligned intermediate frames를 제안했다.
*** contextual features : 프레임 간의 연속적인 관계를 파악한 특징

이후 연구들에서도 motion modeling과 appearance synthesis를 위한 모듈을 설계하는 방향으로 발전했다. 하지만 연구에서 성능을 보였음에도 불구하고, 시스템의 복잡성이 너무 커서 실제 적용하기에는 어려움이 있었다.
 
-> 이 논문에서는 motion과 appearance 정보를 통합하여 효율적으로 추출하면서도, 각각의 정보는 명시적으로 modeling하는 방법을 제안한다. 이를 통해 기존 방식들의 복잡성을 줄이면서도, 효과적은 성능을 유지할 수 있도록 한다.

2.2 Extracting Motion and Appearance
이 논문에서는 attention map을 사용하여 motion 과 appearance 정보를 직접적으로 추출한다.

2.3 Transformer
Trnasformer느는 최근 컴퓨터 비전의 다양한 작업에서 널리 사용되고있다. 하지만, 고해상도 비디오 프레임을 interpolation할 때, Trnasformer는 CNN보다 더 많은 계산과 메모리 overhead를 요구한다.

최근 몇 연구에서 CNN과 Transformer를 결합하면 모델의 성능이 향상된다는 것을 확인하였다.


따라서, 위와 같이 CNN을 사용하여 고해상도 특징을 먼저 추출한 다음, Transformer를 사용하여 motion feature와 appearance feature를 extraction한다.

이를 통해 Frame interpolation의 정확도를 높이면서도, 계산 비용을 최적화한다.

 

 

Inter-Frame Attention

 

: 연속되는 프레임 간의 관계를 모델링하기 위해 attention 메커니즘을 활용하는 방법이다.

프레임의 특정 부분이 다음 프레임에서 어떻게 변화하는지를 보다 정밀하게 이해하고 예측할 수 있다.

 

1. Query, Key, Value

Query :  현재 분석하고 있는 대상 프레임의 특정 부분
Key :  비교 대상이 되는 인접 프레임들의 특성
Value :  key에 대응하는 값으로, 프레임의 특성

->Query frame이 key frame과 어떤 관계를 가지고 있는지 분석하고, 이를 통해 Value 값을 가중 평균하여 새로운 특성을 생성하게 된다. 

 

2. Attention 계산

 

Query와 각 Key 사이의 유사성을 계산하고, 이를 바탕으로 Value를 가중 평균하여 새로운 특성을 생성한다. 이 과정에서 프레임 간의 동적인 변화를 포착할 수 있다.

 

 

3. 응용

 

이렇게 얻어진 정보는 비디오 프레임 사이의 움직임이나 변화를 더 잘 이해하고, 새로운 프레임을 생성할 때 이 정보를 사용하여 더 자연스러운 결과를 얻을 수 있게 도와준다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

https://www.youtube.com/watch?v=bfqPkj8JkSo&t=288s

 

 

Overview

 

이전 연구들에서도 분리된 모듈에서 motion이랑 appearance 정보를 사용하기도 했는데, 

표현이 명확하지 않고 (representation ambiguity ) 낮은 효율성 문제가 있었다.

 

이 논문에서는 unfiying operation(통합된 동작)으로 motion 정보와 appearance 정보를 명확하게 추출한다.

 

appearance feature를 향상 시키고, 필수적인 motion 정보를 추출하면서 메커니즘을 만들었다.

 

 

연속적인 프레임들의 attention map을 재사용하여 apperance 와 motion정보를 추출한다.

 

* attention map

 

 

 

 

 

 

 

- Hybrid CNN and transformer architecture 

( 효율과 퍼포먼스에 밸런스를 맞추기 위해서 )

 

//patch가 query가 됨

//key 와 value는 다른 프레임에서의 patch (꼭 동일 위치가 아닐 수 있음 )

query,key,value가 절대적 위치가 아니라 오브젝트가 존재하는 위치를 따라감으로써 움직임 정보를 모델링

 

 

 

Motivation

 

- (1)  handling both types of information in a mixed way ( mixed extraction )

 -> this approach entails concatenating two adjacent frames and feeding them into a backbone consisting of similar modules in succession which generates features with mixed motion and appearance information although this is simple method

it necessaitates a well-designed and high capacity extractor module as it must handle both motion and appearance information simultaneously 

Additionaly the lack of explicit motion information can lead to constraints in arbitray timestep interpolation

 

 

- (2)Design separate modules for motion and appearance information extraction (sequential extraction )

 -> The second approach involves designing distinct modules for extracting motion and appearance information

This method entails incorporating additional modules such as cost volume to effectively extract motion information which frequently results in a significant computational burden 

Furthermore simply extracting appearance features from a single frame ignores the capturing of the correpondence of appearance informaiton between frame for the same regions which is a valuable cue for the VFI task

 

 

- (3)prarallel extraction 

 

 

 

 

 

 

We propose to utilize a novel module inter-frame attention to extract distinguishable motion and appearance informatino uniformly.

Our motivation for using  inter-frame lies in its a.bility to naturally model interframe motino and transfer appearance information at the same time.

An example of how inter-frame attention acquires motion and inter-frame appearances shown below for the sake of brevity here we only take the example of obatining the motion and enhacing appearance information of i0 for any region in i0 

we use it as a query in the spatial neighbors and i1 as keys values to generate an attention map

-> attention map을 만들기 위해 i0영역의 patch는 query로, i1의 patch는 key나 value로 사용됨

 

As for appearance we first aggregate the similar appearance information for my one and then fuse it with i0 to enhace the appearance informaiton in i0.

 

For motino, our approach involves creating  a coordinate map and then leveraging the coordinates of neighboring points to estimate their corresponding positions from this we can generate a motion vector by subtracting the original position  from the approximated one

-> motion의 경우, 이웃 프레임들의 점으로 추정하여 original 위치에서 보간을 위해 예측되는 위치로의 차를 통해 motion vector를 얻는다.

 

By reusing the attention map in this way, we are able to extract both types of information using a single module

->  attention map을 재사용해서 single module로부터 두가지 정보를 추출

 

 

- position encoding

 ->원래 vision transformer에서의  position encoding 없애고, depth-wise convolution in the MLP로 대체함

 

 

Overall Pipeline

 

 

Directly using interframe attention on original resolution ㅊ

-> 메모리 많이 필요 , computational overhead 생김

 

CNN과 tranformer 모두 사용 -> 학습 잘되고 견고하게

 

CNN은 high-resolutional level feature를 추출하기 위함

interframe attention을 가진 transformer 는 low-resolution motion feqtures and inter-frame apperance features를 추출하기 위함

 

without fine-grained information