SYDLAB_hanyang/Paper Reviews

Paper Review - Softmax splatting(3) / Feature Pyramids

빈그레 2024. 4. 3. 19:43

 

 

 

Feature Pyramids for Image Synthesis

 

 

 

 

 

 

Synthesis Network

 

제안하는 FI에서는 Niklaus의 video frame interpolation pipleine을 채택한다.

1.Optical FLow Estimator

: inter-frame motion (optical flow) F0->1,F1->0을 추정하고 

2  Softmax Splatting ( Forward warping )

: forward warping과 . pre-defined 필터 ψ 사용하여 generic(포괄적인) contextual information을 추출한다.

3. employing a synthesis network φ

4. obtain the interpolation result It

 

proposed frame interpolation

 

이러한 접근법은 개념적으로 간단하고, 잘 동작하는 것 역시 증명되었다.

하지만, Niklaus는 forward warping에 대한 제한 때문에 context extractor인 ψ를 supervise 할 수 없었고,

그 대신  Resnet-18의 conv1을 사용하였다.  

 

제안하는 softmax splatting은 ψ을 supervise할 수 있게 해주어

image synthesis에 중요한 feature들을 extraction할 수 있게 학습한다.

 

더 나아가 feature pyramid형태로 여러 scale에서 feature를 extraction하고 warping하도록 한다. 

이를 통해 φ(합성 네트워크)가 예측을 더욱 향상시킬 수 있도록 한다.

 

 

 

An overview of Frame interpolation framework

 

 

################# Framework

 

양방향 광학 흐름 추정
: 먼저, I 0 ​ 와  I 1 ​ 사이의 양방향 광학 흐름을 추정합니다.
광학 흐름은 한 프레임에서 다른 프레임으로의 픽셀 움직임을 나타내는 벡터 필드입니다.

특징 피라미드 추출
: 각 프레임으로부터 특징 피라미드를 추출합니다. 특징 피라미드는 여러 해상도에서 이미지의 특징을 캡처하는 것으로, 이미지의 다양한 스케일에서 중요한 정보를 포함합니다.

전방 와핑
: 추출한 특징 피라미드와 입력 프레임을 목표 시간 위치 t (0과 1 사이의 값)로 전방 와핑합니다. 와핑은 광학 흐름을 기반으로 하여 특징과 프레임을 새로운 시간 위치에 맞게 변형시키는 과정입니다.

소프트맥스 스플래팅을 사용한 학습
: 소프트맥스 스플래팅을 사용하면 끝까지(end-to-end) 학습이 가능해집니다. 이를 통해 특징 피라미드 추출기는 이미지 합성에 중요한 특징을 수집하도록 학습할 수 있습니다. //미분 가능해져서

합성 네트워크
: 와핑된 입력 프레임과 특징 피라미드를 합성 네트워크에 입력하여 보간 결과  I t ​ 를 생성합니다. 합성 네트워크는 이 정보를 바탕으로 중간 프레임을 합성하며, 이 프레임은 원본 두 프레임 사이의 시간적 중간 지점을 대표합니다.

 

*** end-to-end

"End-to-end 학습이 가능해졌다"는 말은 입력 데이터로부터 최종 출력까지 전체 학습 과정이 하나의 연속된 과정으로 이루어진다는 것을 의미합니다. 이는 모델이 입력 데이터로부터 직접적으로 원하는 출력을 예측하며, 중간 단계에서 별도의 수동적인 특징 추출이나 데이터 전처리 과정을 필요로 하지 않는다는 것을 뜻합니다. 

 

전통적인 기계학습 접근법에서는 특징 추출, 특징 선택, 분류 등 여러 단계를 거쳐야 했고, 각 단계는 독립적으로 최적화되었습니다. 그러나 end-to-end 학습에서는 이 모든 과정이 단일 신경망에 의해 한 번에 처리되며, 네트워크는 원시 입력 데이터로부터 바로 최종 결과를 예측합니다. 

 

따라서, 프레임 보간 과제에서 end-to-end 학습이 가능해진다는 것은 신경망이 입력 프레임으로부터 직접 중간 프레임을 합성할 수 있게 되었으며, 이 과정에서 네트워크는 데이터로부터 필요한 모든 특징과 변환을 자동으로 학습한다는 것을 의미합니다. 이는 학습 과정을 단순화시키고, 모델의 성능을 개선하는 데 도움이 될 수 있습니다.

 

 

 

Optical flow estimator

 

- off-the-shelf optical flow estimator 사용

: correspondence estimate하는데 계속 성과 보여줬던애라

 

- PWC-Net 사용

 

Pyramid

: 이미지 피라미드를 사용하여 다양한 해상도에서 이미지의 특징을 추출합니다. 이 방식은 이미지의 다양한 스케일에서 세밀한 움직임을 포착할 수 있게 해줍니다. 

 

Warping

: 예측된 광학 흐름을 사용하여 한 프레임의 특징을 다른 프레임으로 와핑합니다. 이는 두 프레임 간의 일치를 개선하는 데 도움을 줍니다.

 

Cost Volume

: 와핑된 특징과 원본 특징 간의 유사성을 계산하여 광학 흐름의 정확성을 높입니다.

 

 

 

Feature Pyramid Extractor

 

아래로 갈수록 상위 레벨

 

[구조]

- stride가 2인 부분에서는 해상도를 줄이는 역할을 한다.  (원래 한 피처맵에 있던 걸 피처맵 여러개로 나눠버리니까)

 

- 피라미드의 상위 레벨(96채널)로 갈 수록 해상도가 감소한다.

  : convolution layer를 거침에 따라 각기 다른 해상도로 feature가 추출되는데, 

 다양한 해상도의 feature에서 특징을 추출함으로써 세부정보를 더 잘 포착하게 된다.

 

- 상위레벨로 갈수록 피처의 개수가 많아짐을 통해 네트워크가 더 많은 정보를 포착할 수 있도록 한다

 

-  적용 방안

:  image synthesis르 위한 중요한 feature를 추출하고, softmax splatting 방법을 사용하여 이러한 feature들을 학습하고 가중치를 줄 수 있는 방법을 제공한다.

 

[PReLU]

Parametric Rectified Linear Unit

: 비선형 활성화 함수로, 모델 학습 도움

( 기존의 ReLU는 음수에 대해 다 0으로 하니까 dead ReLU 문제가 발생하나, PReLU는 0이 아닌 작은 기울기를 갖는 선형 함수를 출력한다. )

 

 

 softmax splatting은 feature pyramid extractor를 end-to-end 지도할 수 있게 해주어

이후, image synthesis에 유용한 feature를 추출하도록 학습시킬 수 있따. 

 

 

 

Image synthesis network

 

synthesis network는 interpolation result를 생성한다.

warped input image와 corresponding feature pyramid를 바탕으로 interpolation이 진행된다.

warped input image : forward warping을 통해 생성된 중간 이미

feature pyramid  : 다양한 해상도의 feature 정보를 담고 있는 feature들의 계층적 구조

 

Synthesis Network로 GridNet을 사용한다.( 다양한 스케일의 feature를 합성하여 이미지 생성에 적합)

GridNet(CNN)은 3개의 rows와 6개의 columns를 가진다.

단,artifact를 막기 위해서 Niklas가 제안한 수정방안을 채택한다. 

U-Net의 구조를 일반화환 GridNet은 이미지 형성 작업에 적합하다.

 

GridNet은 서로 다른 스케일에서 정보를 처리하고 여러 레벨의 맥락을 통합할 수 있는 다중 행과 열을 가진 네트워크를 구현하여 이 문제를 해결합니다. 이 다중 스트림 구조는 고해상도의 세부 사항을 보존하는 동시에 더 큰 맥락을 포착할 수 있게 해주며, 지역적 세부 사항과 전역적 맥락 모두 중요한 의미론적 분할과 같은 작업에 유리합니다.

 

 

 

 

Importance metric

 

Z로 동시에 같은 픽셀 매핑하는 것을 해결한다.

brithness constancy을 이용해 지표를 계산한다. 

 

U-net 사용

: CNN의 한 유형으로 주로 이미지 분할 작업에 사용된다. U형태로 인코딩과 디코딩 경로가 있으며 각 경로는 여러 convolution layer로 구성된다. 인코딩 경로에서는 이미지에서 특징을 추출하고 디코딩 경로에서는 이 특징들을 사용하여 분할된 이미지를 재구성한다.