본문 바로가기

논문12

GPU를 위한 프로파일링 기반 페이스 예측 및 적응형 워프 스케줄러 AbstractTo improve the GPGPU performance, many researchers proposed warp scheduling policies. Problem: However, various warp scheduling policies show differenct performance on differenct kernels, since each kernels shows differenct characteristics. Solution: To address this problem, this paper proposes adaptive warp scheduling policy based on profiling information. 1. 서론GPGPU 워크로드의 성능을 향상시키기 위하여.. 2023. 9. 3.

워프 스케쥴링 기법에 따른 GPU 성능 분석 요약GPU에서 실제 연산을 담당하는 세이더코어는 다수의 워프를 동시에 할당받아 수행함으로써, 연산자원 활용률을 극대화한다. 세이더코어가 할당받은 다수의 워프들 중에서 어떠한 워프를 선택하여 수행하는지에 따라 GPU의 성능은 달라질 것으로 예상된다. 효과적인 워프 스케줄링 기법을 개발하기 위해서는 워프 스케줄링 기법의 특성 분석이 선행되어야 한다. 본 논문에서는 워프 스케줄링 기법에 따른 GPU의 성는을 분석하고자 한다. 무작위 스케쥴링, 라운드로빈 스케쥴링, 그리고 선입선처리 스케쥴링 기법을 분석 대상으로 사용한다. 실험 결과에 따르면, 분기 명령어를 포함하지 않는 응용프로그램을 수행하는 경우에는 스케쥴링 기법에 따른 성능 차이가 거의 없는 반면에, 분기 명령어를 다수 포함하는 응용프로그램을 수행하는 경.. 2023. 9. 3.

효율적인 GPU 메모리 컨트롤러 설계를 위한 GPU 메모리 성능 분석 연구 요약CPU와 GPU의 동작 특성이 다르기 때문에 각각이 메모리 컨트롤러에 요구하는 특성은 다르다. CPU는 메모리의 latency가 중요하고, GPU는 대역폭이 중요하다. 따라서 이 논문에서는 GPU 메모리 컨트롤러의 효율적인 설계 방향을 제시하기 위해 CPU와 GPU 메모리의 동작 특성을 비교 분석하였다. 실험 결과 latency는 Row Buffer Locality(RBL)에 의존하고, 대역폭은 Bank Level Parallelism(BLP)에 의존함을 밝혔다. 따라서 대역폭이 중요한 GPU 메모리는 높은 Bank Level Parallelism(BLP)가 의미하는 뱅크간 높은 병렬성을 갖도록 하는 설계가 필요하다. 1. 서론GPU의 수행능력을 요구하는 응용 프로그램은 CPU와는 다르다.CPU: 적.. 2023. 8. 31.

2차원 구조 대비 3차원 구조 GPU의 메모리 접근 효율성 분석 요약최근 반도체 공정 기술이 발달함에 따라 단일 프로세서에 적재되는 코어의 수가 크게 증가하였고, 이는 프로세서의 성능을 급격하게 향상시키는 계기가 되고 있다. 특히, 많은 수의 코어들로 구성된 GPU(Graphics Processing Unit)는 대규모 병렬성을 활용하여 연산처리 성능을 크게 향상시키고 있다. Problem: 하지만 주 메모리 접근 지연시간이 GPU의 성능 향상을 제약하는 심각한 요인 중 하나로 제기되는 상황이다. Solution: 본 논문에서는 3차원 구조를 통한 GPU의 메모리 접근 효율성 향상에 대한 정량적 분석과, 3차원 구조 적용 시 발생 가능한 문제점에 대해 살펴보고자 한다.일반적으로 메모리 명령어 비율은 평균적으로 전체 명령어의 30%를 차지하고, 메모리 명령어 중에서 주.. 2023. 8. 31.

GPU 공유 메모리 크기에 따른 최적화 기법 요약GPU는 코어 수를 비약적으로 증가시키고, 병렬 처리를 강화하는 등 발전하였다.Problem: 하지만 GPU를 효율적으로 활용하는 것에 대해서는 단순히 쓰레드 개수만 증가시킬 뿐, GPU에 관한 연구는 진행이 더딘 편이다.Solution: GPU의 장점인 공유 메모리 크기에 따른 분석과 실험 결과를 통해 본 논문에서 제시하는 방법이 효율적임을 확인한다. 1. 서론그래픽 카드의 성능 중에서 병렬 처리를 하는데 필요한 공유 메모리 크기에 따른 최적화 기법을 연구하고, 향후 효율적인 GPU 활용에 대한 기준점을 제시한다. 2. 관련 연구2.1 CPU와 GPU CPU와 GPU는 트랜지스터를 집적시켜 연산을 처리하는 반도체라는 점에서 유사하지만, 근본적으로 하는 일이 다르다.CPU: 순차 코드의 성능을 최적화.. 2023. 8. 31.

SIMT 구조 GP-GPU의 명령어 처리 성능 향상을 위한 Dispatch Unit과 Operand Selection Unit 설계 요약본 논문은 그래픽 처리 뿐 아니라 범용 연산의 가속화를 지원하기 위한 SIMT 구조 GP-GPU의 DIspatch Unit과 Operand Selection Unit을 제안한다. Problem : Warp Schedular로부터 발행된 명령어에서 사용되는 Operand의 모든 정보를 Decoding하면 불필요한 Operand Load가 발생하여 레지스터 부하가 발생한다.Solution : 이러한 문제점을 해결하기 위해 Pre-decoding 방법을 사용하여 Operand의 정보만을 먼저 Decoding하여 Operand Load를 줄이고, 레지스터의 부하를 줄일 수 있는 방법을 제안한다.제안하는 Dispatch Unit에서 나온 Operand 정보들을 레지스터 뱅크 충돌을 방지하는 방법을 적용한 Op.. 2023. 8. 24.

GPU Register File의 Bank Conflict 분석 AbstractA modern GPU runs tens of thousands threads simultaneously to achieve high throughput and hiding latency. In order to effectively execute the threads, a large amount of a register file, typically organized into multiple banks, is essential. However, if bank conflict occurs, the register file throughput is reduced, thus its results in performance loss. In this paper, as the number of bank.. 2023. 8. 24.

GCN 아키텍쳐 상에서의 OpenCL을 이용한 GPGPU 성능향상 기법 연구 초록현재 프로그램이 운용되는 시스템은 기존의 싱글코어 및 멀티코어 환경을 넘어서 매니코어, 부가 프로세스 및 이기종 환경까지 그 영역이 확장되고 있는 중이다. 하지만 기존 연구의 경우 NVIDIA 벤더에서 나온 아키텍쳐 및 CUDA로의 병렬화가 주로 이루어졌고, AMD에서 나온 범용 GPU 아키텍쳐인 GCN 아키텍쳐에 대한 성능향상에 관한 연구는 제한적으로 이루어졌다. 이런 점을 고려해 본 논문에서는 GCN 아키텍쳐의 GPGPU 환경인 OpenCL 내에서의 성능향상 기법에 대해 연구하고, 실질적인 성능 향상을 보였다. 구체적으로, 행렬 곱셈과 컨볼루션을 적용한 GPGPU 프로그램을 본 논문에서 제시한 성능향상 기법을 통해 최대 30% 이상의 실행시간을 감소시켰으며, 커널 이용률 또한 40% 이상 높였다... 2023. 8. 22.

GPU 컴퓨팅에서 빠른 데이터 전송을 위한 메모리 피닝 자동 관리 요약엔비디아 CUDA 프로그래밍 모델은 CPU 호스트에서 GPU에서 실행될 인풋 데이터를 만들어 GPU로 보낸다. 이 불가피한 CPU-GPU 데이터 전송에 소요되는 시간이 실제 커널이 돌아가는 시간에 비해 너무 그 비중이 크다. 이 커뮤니케이션 시간을 최소화하기 위해 pinned 메모리를 이용한 해결책이 제시되어 있지만 그 활용법은 사용자가 직접 pinned 메모리를 지정해주어야 하는 수준에 머무르고 있다. 이전 연구에서 밝혀진 어느 정도 이상의 데이터 전송일 때 메모리 pinning이 이점을 가지는지에 대한 데이터들은 최신 아키텍처에서는 더이상 맞지 않아 사용자들의 pinned 메모리 활용을 더욱 힘들게 하고 있다. 본 연구에서는 pinned 메모리를 활용하면 TitanV 모델에서는 기존의 16MB의 .. 2023. 8. 21.

이전 1 2 다음

티스토리툴바