SYDLAB_inha/Paper Reviews

Paper Review - "Memory-Efficient CNN Accelerator Based on Interlayer Feature Map Compression"

빈그레 2023. 10. 26. 20:32

기존 CNN 신경망은 network inference동안 엄청난 interlayer feature data를 생성함.

실시간 처리를 하려면 interlayer의 feature map들을 저장할 큰 on-chip memory가 필요함

***real-time processing : 실시간 처리

 

제안

" interlayer feature compression 을 통한 효율적인 CNN 가속 "

//on chip memory size와 off chip memroy access bandwidth를 줄이는..!

 

가속기는 저장된 데이터를 주파수 영역으로 바꾸는 DCT변환을 사용하여 interlayer feature map을 압축하고,

Quantization을 통해 고주파 성분을 제거한다. 

 

- on chip memory 할당 방식

: feature map buffer size와 scratch pad size에 따라 동적 구

 

- hardware accelerator

: compression, decompression, CNN acceleration 포함

 

- light hardware area overhead

-> 403GOP peak throughput 달성

-> interlayer feature map 1.4~3.3배 감소  

 

***overhead :  프로세스 수행에 있어 추가적으로 필요한 자원이나 작

 

Introduction

- Deep CNN

 : 목표 탐지, 객체 인식, 비디오 tracking에 상당한 정확도를 제공함

 

- 최근 CNN들은  high prediction accuracy위해 더욱 복잡하게 multi branched되어있음

//아키텍처 내에서 여러 부분으로 나누어져 정보를 처리함

ex) multi sized filter, multi-level feature extraction

 

- inference중에 CNN이 수백메가바이트의 interlayer를 생성하게 되면, 하드웨어 성능에 영향을 미치게 된다.

IOT에서는 더욱 악화

 

- on chip memory는 크기에 제한이 있기 때문에 CNN interlayer feature map은 on-chip과 off-chip 사이에서 전송된다.

이러한 데이터 이동으로  processing delay가 생기고 device power consumption이 증가

//off chip memory 왔다갔다해서 delay생기고 power소비도 증가

//위성이미지 같은 고해상 이미지일 경우 energy consumption이 더 커짐

 

- weight는 이미 있는 값이라서 off-chip 에서 on-chip으로 전송만 하면되지만, data는 실시간으로 들어옴

-> 병렬 exchange가 어려움

- on-chip과 off-chip 사이에서 양방향으로 교환이 필요하니까 bandwidth도 두배로 필요함

 

- off chip 이용으로 인한 delay와 power제한에도 불구하고,

 on chip memory의 크기는 production cost와 연관이 있어서 작아야한다.  //off-chip 불가피

-> interlayer feature map 의 효율적인 저장이 가능한 CNN accelerator 필요

 

 

 

Sparsity of feature map (희소성)

: sparsity는 feature map에서 값이 0이거나 매우작은 값들로 채워진 비율을 의미함

 

- 0이 많이 채워져 있으면 메모리 효율적 사용 가능

  0이 아닌 값만 저장하고 나머지는 무시하여 메모리 사용량 reduction

 

- 연산 최적화

 

-  Sparse model(희소 모델) 구축

 : 특정 weight가 활성화된 경우만 계산에 참여

 

- noise 감소

: 중요한 특징값들을 제외하고는 0이나 작은 값들로 채워지면 모델일 불필요한 패턴을 학습하는 것을 방지할 수 있음

 

- feature map의 sparsity는 ReLU함수에 의존적

- sparse-matrix compression에 index storage가 추가적으로 필요해져서 storage overhead 생김

 

 

 

Quantization

 

: 양자화는 data는 줄겠지만, 정밀도가 낮아 CnN 성능 저하 문제가 생긴다.

 

 

 

significance-aware(중요성 인식) transform-based codec

: feature map 간의 상관관계 탐색을 위해 사용됨

만약 두 feature map의 상관관계가 낮다면, 두 featrue map이 중복된 정보를 가지고 있지 않다는 것을 의미한다.

따라서 관계가 낮은 각각의 특징맵들은 각각의 독립적이고 본질적인 정보를 나타내고 있다고 간주함.

이 독립적인 특징맵 제외 나머지 맵들은 off-chip access줄이기 위해 양자화하고 인코딩

 

그러나, 이 기법은 on-chip 최적화가 아니라, off-chip access가 줄여졌을 뿐....

 

 

 

탐구 주제

 

feature map을 압축하지 않으면 상당한 on-chip storage overhead와 off-chip access가 발생함..!

 

interlayer data를 효율적으로 지원하는 아키텍처랄 구현하려면 다음과 같은 과제를 탐구해야함

 

1. 효율적인 compression 방식

2. light한 hardware overhead로 high compressionr ratio 달성

3. 특징맵 압축으로 인한 정확도 손실이 허용 범위 내에 있어야함

4. hardware compression, decompresioon, cnn acceleration을 포함해야하며 

 on-chip memory 크기와 off-chip memory access bandwidth를 줄여야함