AI Architecture 14. Dataflow Taxonomy: TPU vs Output Stationary vs Row Stationary
이전 포스팅에서 우리는 메모리 대역폭(Bandwidth)이 성능의 주요 병목이 될 수…
이전 포스팅에서 우리는 메모리 대역폭(Bandwidth)이 성능의 주요 병목이 될 수…
앞선 포스팅에서 우리는 딥러닝 모델 성능 저하의 두 가지 주된…
지난 MLP와 메모리 장벽에서 우리는 메모리 대역폭이 시스템 성능을 제한하는…
지난 Conv 연산의 3가지 매핑에서 우리는 일반적인 합성곱(Standard Convolution)을 하드웨어에서…
지난 Conv 연산의 3가지 매핑에서 우리는 합성곱(Convolution) 연산을 하드웨어에 최적화하기…
지난 글에서 우리는 하드웨어가 CNN(Convolutional Neural Network)을 사랑하는 이유가 지역성(Locality)과…