본문 바로가기

논문13

GPU 컴퓨팅에서 빠른 데이터 전송을 위한 메모리 피닝 자동 관리 요약엔비디아 CUDA 프로그래밍 모델은 CPU 호스트에서 GPU에서 실행될 인풋 데이터를 만들어 GPU로 보낸다. 이 불가피한 CPU-GPU 데이터 전송에 소요되는 시간이 실제 커널이 돌아가는 시간에 비해 너무 그 비중이 크다. 이 커뮤니케이션 시간을 최소화하기 위해 pinned 메모리를 이용한 해결책이 제시되어 있지만 그 활용법은 사용자가 직접 pinned 메모리를 지정해주어야 하는 수준에 머무르고 있다. 이전 연구에서 밝혀진 어느 정도 이상의 데이터 전송일 때 메모리 pinning이 이점을 가지는지에 대한 데이터들은 최신 아키텍처에서는 더이상 맞지 않아 사용자들의 pinned 메모리 활용을 더욱 힘들게 하고 있다. 본 연구에서는 pinned 메모리를 활용하면 TitanV 모델에서는 기존의 16MB의 .. 2023. 8. 21.
다중 워크로드 환경을 위한 GPGPU 스레드 블록 스케줄링 요약대규모 병렬 워크로드를 GPGPU의 연산 유닛에 할당하기 위한 스케줄링으로 Round Robin 방식이 널리 사용되고 있다. 라운드 로빈은 작업을 각 연산 유닛에 순차적으로 할당하여 구현이 쉽다는 장점이 있으나, 클라우드와 같은 다중 워크로드 환경에서는 연산 유닛 간 부하 균형이 잘 이루어지지 않는 문제점이 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 스레드 블록 스케줄링을 제안한다. 제안하는 방식은 다양한 GPGPU 워크로드가 만들어낸 스레드 블록들을 그 작업량에 근거해 다중큐로 관리하고, 각 연산 유닛의 잔여 자원을 가장 잘 활용할 수 있는 큐에서 스레드 블록을 선택하여, 연산 유닛들의 자원 이용률을 극대화시키고 부하균형을 유도한다. 다양한 부하 환경에서의 시뮬레이션 실험을 통해,.. 2023. 5. 5.
GPU 메모리 접근 시간 부채널 특성 분석 요약최근 연구에서 GPU에서 수행하는 AES와 RSA와 같은 암호 알고리즘에서 GPU의 고유한 메모리 접합 구조에 따른 메모리 접근 시간의 차이를 이용하여 공격자가 암호키를 복원할 수 있음이 밝혀졌다. 이는 GPU 캐시 구조 및 메모리 접합 방식에 따라 공격자가 역연산을 통해 GPU의 메모리 요청 개수와 이에 따른 암호화 커널의 수행시간의 관계를 쉽게 알아낼 수 있기 때문이다. 본 연구에서는 변환 테이블을 사용하는 암호화 알고리즘에서 GPU의 메모리 접합 크기 및 변환 테이블의 접근 시간에 따른 GPU의 메모리 접근 시간 부채널의 특성을 GPU 구조 시뮬레이터를 통해 분석하였다. 이러한 분석을 통하여 메모리 접합 크기 및 접근 시간에 따라 GPU 메모리의 부채널 취약성이 변화함을 밝혀냈으며, 이러한 GP.. 2023. 5. 1.
인공신경망 연산을 위한 하드웨어 가속기 최신 연구 동향 1. 서론최근 인공신경망(Artificial Neural Network) 알고리즘은 이미지 인식, 음성 인식, 자연어 처리 등의 다양한 분야에서 비약적인 성능향상을 보이고 있으며, 이로 인하여 학계 및 산업계의 주목을 받고 있다. 향후 인공신경망 알고리즘은 공장 자동화, 의료 서비스, 자율주행 자동차 등의 분야에서 적극적으로 활용될 것으로 예측되며, 이를 효율적으로 처리하기 위한 다양한 하드웨어 구조의 개발이 활발히 진행되고 있다. ▶ 인공신경망(Artificial Neural Network) 알고리즘 : 인공신경망 알고리즘은 생물학의 신경망 모델로 만들어진 학습 알고리즘이다. 최근에는 2개 이상의 층으로 구성된 Multi Layer Perceptron(MLP)중에서 8개 이상의 많은 층으로 구성된 De.. 2023. 5. 1.