SYDLAB_hanyang 13

Paper Review - EMA-VFI(2) / Proposed Rchitecture / Hybrid / Low-level / motion-appearance feature extractor

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation         Methods   EMA의 전체 아키텍처 구조는 위와 같다.    time 0과 1 사이 t에서의 frame을 생성하는 것이 목적이다. 위 식에서 It hat이 generated frame이다.*** O: proposed model  low-level Feature Extractor 입력 프레임의 해상도가 높을 경우, inter frame attention에서 attention map을 생성하는 데에 큰 메모리 사용이 필요하고, 계산 부하가 생길 수 있으므로, 이러한 문제를 해결하기 위해, CNN으로 이루어진 low..

Paper Review - EMA-VFI(1) / Introduction / Related Work

Extracting Motion and  Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation        Introduction VFI( Video Frame Interpolation) 은 두 프레임 사이 중간 프레임을 생성하는  fundamental한 low-level vision taks이다. (low level은 영상 처리의 영역, high level은 컴퓨터 비전의 영역) VFI 접근 방식은 크게 두 가지로 나뉜다. 1) Appearance 정보와 motion 정보를 혼합하여 추출 ( mixed feature )2) Appearance 정보와 motion 정보를 sequeital하게 별도 추출 ( motion f..

Paper Review - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Vision Transformer)

https://gaussian37.github.io/dl-concept-vit/ Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS, TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)gaussian37's bloggaussian37.github.io  [그냥 transformer 간단 정리! ][ input ]input에서 열의 개수는 문장에서의 단어의 개수즉 세로로 단어 한개씩그러면 행의 개수는 단어의 크기..?차례대로 x[ output ] target이 번역이었으므로 출력도 단어를 표시하는 matrix는 맞으나 입력과 사이즈가 다를 수 있음( 엘 '벡터'의 크기 = 행의 개수 )[ word embedding ]원래 one-hot en..

FI - Attention(Query,Key,Value) / Transformer / Scaled dot-product / Multi head attention

Attention     Attention 구조 간략히 정리 Attnetion은 Q,K,V를 입력으로 갖는다.  querying: query에 해당하는 값이 입력되었을 때, query에 해당하는 key 값을 찾아서 그 key값에 해당하는 value를 출력하는 작업을 말한다. 이때, query와 똑같은 key값을 선택할지, 가장 유사한 key 값을 선택할 지는 문제에 따라 달라지게 된다. Attention에서는 query에 대해 어떤 key와 유사한지 보고 유사도를 반영하여 key에 대응하는 value를 합성(Aggregation)한 것이 Attention value가 된다.   하나의 query에 대해 여러 key값들과 유사도를 계산한다. 여기서 유사도는 내적을 통해 구할 수 있다.위 그림에서 빨간 값이..

Paper Review - Softmax splatting(3) / Feature Pyramids

Feature Pyramids for Image Synthesis Synthesis Network 제안하는 FI에서는 Niklaus의 video frame interpolation pipleine을 채택한다. 1.Optical FLow Estimator : inter-frame motion (optical flow) F0->1,F1->0을 추정하고 2 Softmax Splatting ( Forward warping ) : forward warping과 . pre-defined 필터 ψ 사용하여 generic(포괄적인) contextual information을 추출한다. 3. employing a synthesis network φ 4. obtain the interpolation result It 이러..

Paper Review - Softmax splatting(2) for Frame Interpolation

3. Softmax splatting for frame interpolation # off-the-shelf optical flow method : input frames 사이에서 both direction으로 F0->1, F1->0을 estimate하기 위한 방 #forward warping softmax splatting 형식의 forward warping을 사용한다. 입력프레임을 직접 중간 프레임으로 forward mapping 하여 optical flow의 복잡한 연산이 필요하지 않다. 제안하는 시스템은 색상 뿐만 아니라 여러 해상도(multiple resolutions)에서의 feature space에 대한 와핑을 수행함으로써 synthesis network가 더 나은 예측을 하도록 한다. //..

Paper Review - Softmax Splatting(1) / introduction

Softmax Splatting for Video Frame Interpolation Preview Video FI를 위한 새로운 접근법인 softmax splatting에 대해 설명한다. 이 방법은 Video Frame interpolation에서의 forward warping에 대한 도전 과제를 해결한다. *** forward warping : 한 위치의 픽셀을 새로운 위치로 이동시키는 과정이다. forward warping은 하나의 source pixel이 하나의 target pixel로 mapping되어 겹치는 문제가 발생하며, 일부 pixel은 아무런 source pixel로부터 값이 할당되지 않는 문제가 생긴다. -> artiface 유발, hole 유 *** artifact : 이미지나 비디..