user thread가 메모리 컨트롤러 칩이나 DRAM chip 대신 general purpose processor에서 동작하며
correlation prefetching(예전의 미스 address를 보고 예측 및 prefetching)을 software적으로 구현, 데이터를 L2 캐시로 보냄.
- 기존의 하드웨어적 구현은 cost의 부담이 너무 큼
프로세서의 addtional overhead 없이 약간의 L2 캐시의 수정만으로 적용 가능하다.
irregular apps에도 적용 가능하고 prefetching algorithm도 apps에 따라 변경 가능할 정도로 flexible함.
most irregular app에서 1.32배의 성능 향상, 기존의 processor-side sequential prefetcher 사용시 평균 1.46배 성능 향상, prefetching algorithm을 최적화했을 경우 1.53배의 성능 향상을 보임.
계속 읽어야지 -.-
ULMT.pptx
correlation prefetching(예전의 미스 address를 보고 예측 및 prefetching)을 software적으로 구현, 데이터를 L2 캐시로 보냄.
- 기존의 하드웨어적 구현은 cost의 부담이 너무 큼
프로세서의 addtional overhead 없이 약간의 L2 캐시의 수정만으로 적용 가능하다.
irregular apps에도 적용 가능하고 prefetching algorithm도 apps에 따라 변경 가능할 정도로 flexible함.
most irregular app에서 1.32배의 성능 향상, 기존의 processor-side sequential prefetcher 사용시 평균 1.46배 성능 향상, prefetching algorithm을 최적화했을 경우 1.53배의 성능 향상을 보임.
계속 읽어야지 -.-
ULMT.pptx




덧글
규찬 2010/06/02 18:51 # 삭제 답글
요즘은 진짜 영어로 써있는거만 보면 욕이 나오니 어떡해야되냐
Anonymous 2010/06/03 10:18 #
욕해 이년아
듀티 2010/06/03 00:39 # 삭제 답글
그러나 지옥의 prefetching 구현 및 시뮬레이션..
Anonymous 2010/06/03 10:18 #
은 내가 하는 게 아니라 다행 ㅋ_ㅋ