다운로드 링크가 정상적으로 보이지 않는 경우 애드블록을 해제해 주세요.
본문 바로가기
  • 혜음우리말화연구소
728x90

잡담/대학원13

요즘 하고 있는거 Reuse를 구현 실패했다가 선배님이 stream을 하면 될거 같다는 얘기를 듣고 stream을 이용해서 reuse를 구현해보았다 dataflow의 속도를 유지하면서 reuse를 구현할수 있을거 같다 문제는 DSP 사용량이 6배나 늘어난다는거, 이거는 어떻게 해결해야할지 감이 안온다. 2022. 8. 17.
요즘 하고 있는거.,... Reuse를 구현하려다가 포기... HLS에서 해당 부분에 대해 잘 지원을 하주지 않는것으로 확인되었다. 만약에 진짜 구현할려면 HDL로 설계하는게 더 나을듯 지금은 BRAM간 대역폭 조절에 초점을 맞추고 있다. 2022. 7. 6.
요즘 하고있는거 요즘 하고 있는게, stationary 변경... input과 output stationary로 변경하고 비교해 보고 있는데 버퍼크기가 너무 큰지 너무 잘되서 문제 weight stationary와 input stationary와 output stationary의 특성이 안드러난다 그리고 8x32 pe도 특성이 좀 애매하고.... (오버헤드가 너무 커보임) 신기하게 input stationary가 오버헤드가 더 작다 그리고 l2 reuse를 설계하고 있는데... 왜 안되지? dataflow에서 내가 원하는 흐름을 지원안하는것도 문제고... 문제가 여튼 많다 2022. 6. 18.
요즘 하는거 어쩌다 보니 하게 됬는데 논문 novelty를 생각하고 있다.... 대충 DRAM bandwidth관련해서 알아보고 있는데 괜찮으려나 2022. 6. 2.
SIMD Core Statinoary 변경중... 지금 CNN End-to-End모델을 설계한 후, SIMD CNN의 Stationary를 변경하고 있다. Stationary는 가장 안바뀌는 것을 말하며 Weight Stationary라 하면, 연산중에 Weight가 가장 덜 바뀌는 것을 말한다. 이떄문에 엄청 고민을 했다. 좀더 최적화 하면 될거 같은데 2022. 5. 18.
CNN 설계 끝 대학원에서 C로 FPGA를 이용한 CNN 가속기 설계를 끝냈다. 기존에 FC커널을 분리해 놓았었는데 그냥 convolution과 합쳐서 리소스를 절약했다. 방법은 FC커널을 H,W,R,S=1인 컨볼루션 레이어로 보고 어떻게든 머리 굴리면 된다. 전부다 선배가 짜놓은 커널의 파라미터 기준으로 얘기하는 것이다. 컨볼루션 커널만 측정했을때 속도는 ResNet50 기준 최대 속도 404ms이다. VGG16기준으로는 780ms쯤이 최대 인듯 하다. 원래 각각 1020ms, 1050ms쯤 걸렸는데, 후반 레이어로 가면 FPGA에 할당한 버퍼가 많이 남기 때문에 host 쪽에서 파라미터를 조절하여 이를 최대한 사용하도록 했다. 또한 한번에 계산하는 TILESIZE를 늘리니 속도가 빨라지기도 한다. 하지만 이것도 어느.. 2022. 5. 4.
728x90