2024/04 17

Paper Review - EMA-VFI(2) / Proposed Rchitecture / Hybrid / Low-level / motion-appearance feature extractor

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation         Methods   EMA의 전체 아키텍처 구조는 위와 같다.    time 0과 1 사이 t에서의 frame을 생성하는 것이 목적이다. 위 식에서 It hat이 generated frame이다.*** O: proposed model  low-level Feature Extractor 입력 프레임의 해상도가 높을 경우, inter frame attention에서 attention map을 생성하는 데에 큰 메모리 사용이 필요하고, 계산 부하가 생길 수 있으므로, 이러한 문제를 해결하기 위해, CNN으로 이루어진 low..

Paper Review - EMA-VFI(1) / Introduction / Related Work

Extracting Motion and  Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation        Introduction VFI( Video Frame Interpolation) 은 두 프레임 사이 중간 프레임을 생성하는  fundamental한 low-level vision taks이다. (low level은 영상 처리의 영역, high level은 컴퓨터 비전의 영역) VFI 접근 방식은 크게 두 가지로 나뉜다. 1) Appearance 정보와 motion 정보를 혼합하여 추출 ( mixed feature )2) Appearance 정보와 motion 정보를 sequeital하게 별도 추출 ( motion f..

Paper Review - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Vision Transformer)

https://gaussian37.github.io/dl-concept-vit/ Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS, TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)gaussian37's bloggaussian37.github.io  [그냥 transformer 간단 정리! ][ input ]input에서 열의 개수는 문장에서의 단어의 개수즉 세로로 단어 한개씩그러면 행의 개수는 단어의 크기..?차례대로 x[ output ] target이 번역이었으므로 출력도 단어를 표시하는 matrix는 맞으나 입력과 사이즈가 다를 수 있음( 엘 '벡터'의 크기 = 행의 개수 )[ word embedding ]원래 one-hot en..

AI - Transfer Learning

Transfer Learning      Transfer Learning ( 전이 학습 )  전이 학습(Transfer Learning)은 머신러닝에서 특정 문제에 대해 학습한 모델을 다른 관련 문제에 적용하는 기법이다. 이 접근 방식의 핵심은 한 영역에서 학습한 지식을 다른 영역에 전달하여, 새로운 작업의 학습에 필요한 데이터의 양을 줄이고, 학습 속도를 가속화하며, 일반적으로 성능을 향상시키는 데 있다. 사전 학습(Pre-training)은 전이 학습의 첫 번째 단계로, 대규모 데이터셋에서 모델을 학습시킨다. 이 과정에서 모델은 다양한 특징과 패턴을 학습하게 된다. 예를 들어, 이미지 인식 작업에서는 ImageNet과 같은 큰 데이터셋에서 모델을 학습시킨다.자연어 처리에서는, 대규모 텍스트 코퍼스를 ..

FI - Attention(Query,Key,Value) / Transformer / Scaled dot-product / Multi head attention

Attention     Attention 구조 간략히 정리 Attnetion은 Q,K,V를 입력으로 갖는다.  querying: query에 해당하는 값이 입력되었을 때, query에 해당하는 key 값을 찾아서 그 key값에 해당하는 value를 출력하는 작업을 말한다. 이때, query와 똑같은 key값을 선택할지, 가장 유사한 key 값을 선택할 지는 문제에 따라 달라지게 된다. Attention에서는 query에 대해 어떤 key와 유사한지 보고 유사도를 반영하여 key에 대응하는 value를 합성(Aggregation)한 것이 Attention value가 된다.   하나의 query에 대해 여러 key값들과 유사도를 계산한다. 여기서 유사도는 내적을 통해 구할 수 있다.위 그림에서 빨간 값이..

AI - Midterm exam

1. Tensor는 무엇인지 설명하라 데이터를 표현하는 방법으로서,  Multidimensional array(다차원 배열)을 나타낸다.vector와 matrix 개념의 일반화라고 할 수 있다.vector,matrix을 모두 포함하는 구조이나, 일반적으로 3차원 이상의 array를 가질 때에, tensor라 칭한다.2. Curse of dimensionality에 대해 설명하라고차원의 데이터를 다룰 때에 나타나는 문제에 대해 지칭하는 용어이다.  실제로 가까웠던 값들이 차원이 올라감에 따라 변수가 많아지면서 멀어지게 되는 문제이다.차원의 저주에 치명적인 알고리즘인 KNN은 근접한 점들을 이용해서 label을 예측하는 알고리즘이나, 차원이 늘어나고 변수의 개수가 많아지면, 가장 근접한 점들이라 해..