[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101474478B1 - 로컬 및 글로벌 데이터 공유 - Google Patents

로컬 및 글로벌 데이터 공유 Download PDF

Info

Publication number
KR101474478B1
KR101474478B1 KR1020107028532A KR20107028532A KR101474478B1 KR 101474478 B1 KR101474478 B1 KR 101474478B1 KR 1020107028532 A KR1020107028532 A KR 1020107028532A KR 20107028532 A KR20107028532 A KR 20107028532A KR 101474478 B1 KR101474478 B1 KR 101474478B1
Authority
KR
South Korea
Prior art keywords
thread
simd
private
result
lane
Prior art date
Application number
KR1020107028532A
Other languages
English (en)
Other versions
KR20110015439A (ko
Inventor
마이클 제이. 맨터
브라이언 엠베르링
Original Assignee
어드밴스드 마이크로 디바이시즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 마이크로 디바이시즈, 인코포레이티드 filed Critical 어드밴스드 마이크로 디바이시즈, 인코포레이티드
Publication of KR20110015439A publication Critical patent/KR20110015439A/ko
Application granted granted Critical
Publication of KR101474478B1 publication Critical patent/KR101474478B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/30123Organisation of register space, e.g. banked or distributed register file according to context, e.g. thread buffers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3834Maintaining memory consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3887Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3885Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
    • G06F9/3888Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple threads [SIMT] in parallel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Multi Processors (AREA)

Abstract

그래픽 프로세싱 유닛이 설명되며, 그래픽 프로세싱 유닛은 하나의 프로세서를 가지고, 이러한 하나의 프로세서는 하나 이상의 SIMD 프로세싱 유닛들과 상기 하나 이상의 SIMD 프로세싱 유닛들에 대응하는 로컬 데이터 공유를 가지며, 이러한 로컬 데이터 공유는 하나 이상의 실행 웨이브프론트들(execution wavefronts)에 할당된 쓰레드들의 개별 그룹을 위한 하나 이상의 낮은 지연 접근 가능 메모리 영역들(low latency accessible memory regions)을 포함하고, 글로벌 데이터 공유는 쓰레드들의 개별 그룹을 위한 하나 이상의 낮은 지연 메모리 영역들을 포함한다.

Description

로컬 및 글로벌 데이터 공유{LOCAL AND GLOBAL DATA SHARE}
본 발명은 일반적으로 그래픽 프로세싱 유닛에서 실행 쓰레드들(execution threads) 간의 데이터 공유를 최적화하는 것에 관한 것이다.
그래픽 프로세싱 유닛(graphics processing unit : GPU)은 그래픽 프로세싱 오퍼레이션에 최적화된 특수-목적 집적 회로(special-purpose integrated circuit)이다. GPU는 종종, 예를 들어, 비디오 게임 애플리케이션들과 같은 그래픽 프로세싱을 필요로하는 애플리케이션들을 실행하는데 사용되는 컴퓨팅 디바이스들(computing devices)(예를 들어, 개인용 컴퓨터(personal computer), 랜더링 팜(rendering farm) 또는 서버, 핸드헬드 디바이스(handheld device), 디지털 텔레비전 등등)에 집적된다.
프로세싱 효율을 개선하기 위하여, GPU는 일반적으로 데이터 레벨 병렬성(data level parallelism)을 달성하기 위해 단일 명령, 다중 데이터(Single Instruction, Multiple Data : "SIMD", 또는 "벡터(vector)") 명령들을 이용하는 병렬 쓰레드들(parallel threads)을 실행한다. 이것은 예를 들어, 개별 SIMD 레인(lane) 상의 각각의 픽셀들에 대해 별개의 오퍼레이션 쓰레드(thread of operation)를 실시함으로써, SIMD 프로세서가 복수의 데이터 픽셀들에 대해 동일한 명령을 수행할 수 있게 해준다. 그러나 일반적으로, 임의의 한 SIMD 레인 내에서 생성된 데이터는, 계산상 복잡하면서 고비용인 데이터 저장 명령 및 검색 명령의 실행 없이는 다른 SIMD 레인들에 액세스할 수 없다.
따라서, SIMD 레인들 간에 데이터를 공유할 수 있게 하기 위한 개선된 기법이 필요하다.
본 발명의 실시예들은 그래픽 프로세싱 유닛(graphics processing unit)을 포함하며, 여기서 그래픽 프로세싱 유닛은 복수의 SIMD 프로세싱 유닛들과, 그리고 글로벌 데이터 공유(Global Data Share, GDS)를 포함하고, 각각의 SIMD 프로세싱 유닛은, 복수의 쓰레드 프로세서들(thread processors), 복수의 범용 레지스터(General Purpose Register, GPR) 파일(file)들(각각의 GPR 파일은 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서와 통신함), 그리고 (복수의 쓰레드 프로세서들 각각과 통신하는) 로컬 데이터 공유(Local Data Share, LDS)를 포함하고, 글로벌 데이터 공유(GDS)는 복수의 SIMD 프로세싱 유닛들 각각에서의 복수의 쓰레드 프로세서들 각각과 통신한다.
본 발명의 실시예들은 또한, 제조 방법을 포함하며, 이러한 제조 방법은, 복수의 SIMD 프로세싱 유닛들을 형성하는 단계와, 그리고 글로벌 데이터 공유(GDS)를 형성하는 단계를 포함하며, 여기서 각각의 SIMD 프로세싱 유닛은, 복수의 쓰레드 프로세서들, 복수의 범용 레지스터(GPR) 파일들(각각의 GPR 파일은 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서와 통신함), 그리고 (복수의 쓰레드 프로세서들 각각과 통신하는) 로컬 데이터 공유(LDS)를 포함하고, 글로벌 데이터 공유(GDS)는 복수의 SIMD 프로세싱 유닛들 각각에서의 복수의 쓰레드 프로세서들 각각과 통신한다.
본 발명의 실시예들은 추가적으로 컴퓨터-판독가능 매체를 포함하며, 컴퓨터-판독가능 매체에는 컴퓨터-실행가능 명령들이 저장되어 있고, 여기서 명령들은 컴퓨팅 디바이스에 의해 실행될 때, 컴퓨팅 디바이스로 하여금, 이미지 픽셀들의 세트를 SIMD 프로세서들의 세트에 할당하는 것, 픽셀들의 세트의 픽셀들의 서브세트를 SIMD 프로세서들의 세트의 각각의 SIMD 프로세서의 각각의 프로세싱 레인에 할당하는 것, 픽셀들의 서브세트를 각각의 프로세싱 레인과 관련된 범용 레지스터(GPR) 파일에 저장하는 것, 픽셀들의 서브세트에 근거하여 레인당 로컬 결과(per-lane local result)를 계산하는 것, 그리고 GPR 파일로부터의 레인당 로컬 결과를 프로세싱 레인과 관련된 로컬 데이터 공유(LDS)의 프라이빗 영역에 기록하는 것을 포함하는 방법을 수행하게 하며, 여기서 LDS는 프로세싱 라인을 포함하는 SIMD 프로세서와만 관련된다.
본 발명의 추가 특징들과 장점들, 그리고 본 발명의 다양한 실시예들의 구조와 동작은 첨부된 도면들을 참조로 하기에서 자세하게 설명된다. 본 발명은 본 명세서에 설명된 특정 실시예들에 한정되는 것이 아님에 주목해야한다. 이러한 실시예들은 단지 예시적인 목적으로 본 명세서에 제시된 것이다. 추가적인 실시예들은 본 명세서에 포함된 설명들을 근거로 관련 기술 분야에서 숙련된 자들에게는 자명할 것이다.
본 명세서에 포함되며 본 명세서의 일부를 이루는 첨부의 도면들은, 본 발명의 실시예들을 도시하며, 상세한 설명과 함께 본 발명의 원리들을 설명하고, 당업자가 본 발명을 사용할 수 있게 해줄 것이다.
도 1은 본 발명의 실시예에 따른 컴퓨팅 아키텍처이다.
도 2는 본 발명의 실시예에 따른 로컬 데이터 공유(local data share)이다.
도 3은 본 발명의 실시예에 따른 글로벌 데이터 공유(global data share)이다.
도 4는 본 발명의 실시예에 따라 이미지 프로세싱 알고리즘을 개선하기 위해 컴퓨팅 아키텍처가 사용될 수 있는 단계들을 나타내는 흐름도이다.
도 5는 본 발명의 실시예들이 구현될 수 있는 예시적인 컴퓨터 시스템이다.
본 발명의 추가적인 특징들과 장점들, 그리고 본 발명의 다양한 실시예들의 구조 및 동작이 첨부의 도면들을 참조로 하기에서 자세하게 설명된다. 본 발명이 여기에서 설명되는 특정 실시예들에 국한되는 것이 아님에 주목해야한다. 이러한 실시예들은 단지 예시적인 목적을 위하여 본 명세서에 제시된 것이다. 추가적인 실시예들은 본 명세서에 포함된 설명들을 근거로 본 기술 분야의 당업자들에게는 자명할 것이다.
I. 서론(INTRODUCTION)
본 발명의 다음의 상세한 설명은 이 발명과 일치하는 예시적인 실시예들을 도시하는 첨부의 도면들을 참조한다. 다른 실시예들이 가능하며, 본 발명의 사상과 범주 내에서 실시예들에 대한 수정이 이루어질 수 있다. 따라서, 본 상세한 설명은 본 발명을 제한하는 것이 아니다. 오히려, 본 발명의 범주는 첨부된 청구 범위에 의해서 정의된다.
하기에서 설명되는 바와 같이 본 발명이 소프트웨어, 하드웨어, 펌웨어 및/또는 도면에 도시된 엔티티들(entities)의 다양한 실시예들로 구현될 수 있음은 본 기술 분야의 당업자들에게 자명할 것이다. 본 발명을 구현하기 위하여 하드웨어에 대한 특화된 제어(specialized control)를 행하는 임의의 실제 소프트웨어 코드는 본 발명을 제한하지 않는다. 따라서, 여기에 제시된 상세한 설명의 수준에서, 실시예들에 대한 수정 및 변형이 가능하다는 이해하에서 본 발명의 동작적인 특성이 설명될 것이다. 추가적으로, 그리고 본 발명의 기술분야에서 통상의 기술을 가진 자에게 명백해지는 바와 같이, 본 발명의 다양한 실시예들의 시뮬레이션, 합성(synthesis) 및/또는 제조(manufacture)는, 범용 프로그래밍 언어들(예를 들어, C 또는 C++)을 포함하는 (앞서 언급된 바와 같은) 컴퓨터 판독가능 코드, (베릴로그 HDL(Verilog HDL), VHDL, 알테라 HDL(Altera HDL, AHDL) 등을 포함하는) 하드웨어 기술 언어들(hardware description languages, HDL) 또는, 다른 이용 가능한 프로그래밍 및/또는 스케메틱 캡쳐 툴들(schematic capture tools)(예를 들어, 회로 캡쳐 툴들(circuit capture tools))을 사용함으로써 부분적으로 달성될 수 있다.
이러한 컴퓨터 판독가능 코드는 반도체, 자기 디스크, 광학 디스크(예를 들어, CD-ROM, DVD-ROM)를 포함하는 임의의 알려진 컴퓨터 사용가능 매체 내에 수록될 수 있으며, 컴퓨터 사용가능(예를 들어, 판독가능) 전송 매체(예를 들어, 캐리어 웨이브, 또는 디지털, 광학, 또는 아날로그 기반의 매체를 포함하는 임의의 다른 매체) 내에 포함되는 컴퓨터 데이터 신호로서 수록될 수 있다. 따라서, 상기 코드는 인터넷 및 인터넷들을 포함하는 통신 네트워크를 통해 전송될 수 있다. 앞서 설명된 시스템 및 기법들에 의해 달성되는 기능 및/또는 제공되는 구조는 코어(core)(예를 들어, GPU 코어)에 나타낼 수 있고, 상기 코어는 프로그램 코드로 구현되고 집적 회로들의 생산의 일부로서 하드웨어로 변형될 수 있다.
도 1은 본 발명의 실시예에 따른 컴퓨팅 아키텍처(computing architecture)(100)를 나타낸다. 아키텍처(100)는 하나 이상의 SIMD 프로세서들(102a 내지 102m)을 포함한다. 본 발명의 실시예에 따라, 각각의 SIMD 프로세서는 하나 이상의 쓰레드 프로세서들(thread processors)(SIMD 0(102a)에 104a0 내지 104an으로 도시되고, SIMD m(102m)에 104m0 내지 104mn으로 도시됨)을 포함한다. 또한, 본 발명의 실시예에 따라, 각각의 쓰레드 프로세서는 범용 레지스터(General Purpose Register : GPR) 파일(SIMD 0(102a)에 106a0 내지 106an으로 도시되고, SIMD m(102m)에 106m0 내지 106mn으로 도시됨)과 관련(association)된다. 도면부호들은 본 발명의 범주 내에서 복수의 SIMD 프로세서들(각각의 SIMD 프로세서는 복수의 쓰레드 프로세서들 및 GPR 파일들을 구비함)이 고려된다는 것을 보여주지만, 때때로 기본 참조 번호들(예를 들어, 102, 104, 및 106)에 의해 개개의 SIMD 프로세서들, 쓰레드 프로세서들, 및 GPR 파일들이 참조될 수 있다.
단일 쓰레드 프로세서(104)와 그것의 관련 GPR 파일(106)의 조합은 일반적으로 SIMD 프로세싱 레인(processing lane) (또는, 간단히 "레인(lane)" 또는 "SIMD 레인")이라 칭해진다. 본 기술 분야의 당업자는 쓰레드 프로세서(104) 및 GPR 파일(106)과 관련된 추가적인 구성 요소들이 단일 SIMD 레인의 일부를 형성할 수 있으며, 도 1에 도시된 구체적인 실시예는 예로서 도시되는 것이고 제한적인 것이 아니라는 것을 이해할 것이다.
본 발명의 실시예에 따라, 아키텍처(100)는 로컬 데이터 공유들(local data shares)("LDS")(108a 내지 108m)을 더 포함하며, 하나의 LDS(108)는 각각의 SIMD 프로세서(102)와 관련된다. 추가로, 아키텍처(100)는 글로벌 데이터 공유(global data share0("GDS")(110)를 포함하며, 상기 글로벌 데이터 공유는 각각의 SIMD 프로세서(102)의 각각의 쓰레드 프로세서(104)에 의해 액세스될 수 있다. LDS와 GDS는 하기에서 보다 상세히 논의된다.
아키텍처(100) 상에서 프로세스를 실행할 때, 프로세스는 SIMD 프로세서(102) 상에서의 실행을 위해 쓰레드들의 집합(collection of threads)을 스폰(spawn)할 수 있다. 쓰레드들의 집합 내의 각각의 쓰레드는 SIMD 프로세서(102) 내의 특정 SIMD 레인에 할당(assignment)되고, 따라서 각각의 쓰레드가 특정 쓰레드 프로세서(104) 및 GPR 파일(106)에 할당된다. 본 발명의 실시예에 따라, 공통 프로세스(common process)로부터 스폰된 이러한 쓰레드들의 집합은 SIMD 프로세서(102)에 "웨이브프론트(wavefront)"로서 할당되는바, 상기 SIMD 프로세서(102)는 웨이브프론트 내의 개별 쓰레드들의 실행을 일시적으로 마스킹(temporarily masking)할 수 있게 해준다. 본 발명의 실시예에 따라, 쓰레드들의 임의의 다른 집합들과 마찬가지로, 복수의 웨이브프론트들이 SIMD 프로세서(102)에 할당될 수 있다. 복수의 웨이브프론트들로 구성되는 SIMD 프로세서(102) 내에서 실행하는 모든 쓰레드들 또는, 이것들의 임의의 서브세트는, 집합적으로(collectively) 쓰레드들의 그룹이라 칭해진다.
II. 범용 레지스터(GENERAL PURPOSE REGISTER)
본 발명의 실시예에 따라, 각각의 SIMD 프로세서(102)는 하나 이상의 쓰레드 프로세서들(104)을 포함하고, 각각의 쓰레드 프로세서는 GPR 파일(106)과 관련된다. 앞서 언급한 바와 같이, 웨이브프론트가 SIMD 프로세서에 할당된다. 웨이브프론트 내의 각각의 쓰레드는 실행을 위해 특정 SIMD 레인에 할당되고, 그러므로 각각의 쓰레드가 SIMD 레인과 관련된 특정 쓰레드 프로세서(104) 및 GPR 파일(106)에 할당된다. 쓰레드 프로세서(104) 상에서 실행하는 쓰레드는 동일 레인의 GPR 파일(106)의 레지스터들로부터 판독될 수 있고 동일 레인의 GPR 파일(106)의 레지스터들에 기록될 있다. 당업자는 GPR 파일(106) 내의 레지스터들에 액세스하기 위해 쓰레드 프로세서(104)가 GPR 파일(106)과 통신할 수 있게 해주는 많은 레지스터 액세스 구현예들이 존재하며, 본 발명의 실시예들이 임의의 특정 구현예에 국한되지 않는다는 것을 이해할 것이다.
본 발명의 실시예에 따라, 각각의 GPR 파일(106)은 쓰레드 프로세서(104)에서 실행하는 쓰레드와 관련된, 지정된 프라이빗 공간(designated private space) 또는 레지스터 블록(register block)을 포함한다. 본 발명의 추가 실시예에 따르면, GPR 파일(106)은 사전에(ahead of time) 복수의 프라이빗 레지스터 블록들로 분할된다. 쓰레드 프로세서(104)에서 실행하는 새로운 쓰레드들은 제1 실행(first execution)시 프라이빗 레지스터 블록에 할당되고, 프라이빗 레지스터 블록(private register block)에 대한 기록 액세스를 갖는 유일한 쓰레드들이 된다.
본 발명의 추가적인 실시예에 따르면, GPR 파일(106)은, 쓰레드가 어떤 웨이브프론트와 관련되는지에 관계없이, 쓰레드 프로세서(104) 상에서 실행되는 임의의 쓰레드가 기록하고 판독할 수 있는 공유된 글로벌 풀(shared global pool)을 포함한다. 이러한 기능은 인접한 쓰레드들이 예약된 글로벌 영역(reserved global area)에 액세스할 수 있게 해주고, 그럼으로써 순서-독립적 연관 글로벌 데이터(order-independent associative global data)를 판독하고, 수정하고, 기록할 수 있게 해준다. 이러한 기능은 또한 동일 SIMD 레인에 할당되었지만 서로 다른 웨이브프론트들에 속한 쓰레드들 사이의 신속한 공유를 허용한다.
III. 로컬 데이터 공유(LOCAL DATA SHARE)
앞서 언급한 바와 같이, 개별 SIMD 프로세서(102)는 LDS(108)를 포함한다. 이 LDS(108)는 동일한 SIMD 프로세서(102) 내의 모든 쓰레드 프로세서(104)에 직접 액세스할 수 있다. 본 발명의 실시예에 따라, LDS(108)는 복수의 프라이빗 기록 공간들로 분할되고, 각각의 프라이빗 기록 공간은 쓰레드 프로세서(104)에서의 실행 쓰레드에 대응하며 상기 실행 쓰레드를 위해 예비(reserve)되어 있다. 본 발명의 추가 실시예에 따른, 각각의 프라이빗 기록 공간은 쓰레드 프로세서(104)에 대응한다. 당업자는 LDS(108)의 분할 방법이 다양하며, 앞서 언급된 분할 포맷들은 예로서 제시된 것이고 제한적인 것이 아님을 이해할 것이다.
본 발명의 실시예에 따라, LDS(108)의 프라이빗 기록 공간에 할당된 쓰레드 프로세서(104) 상에서 실행하는 쓰레드는, 할당된 프라이빗 기록 공간에 기록할 수 있고 할당된 프라이빗 기록 공간으로부터 판독할 수 있다. 추가적으로, 임의의 쓰레드 프로세서(104)가 LDS(108)의 임의의 프라이빗 기록 공간으로부터 판독할 수 있고, 그럼으로써 쓰레드 프로세서들(104)이 SIMD 프로세서(102) 내에서 데이터를 공유할 수 있게 해준다. 관련 기술 분야의 당업자는 LDS(108)가 "오너-기록(owner-write)" 모델을 이용해서 동작하지만, 다른 액세스 모델들이 이용될 수 있으며, 오너-기록 모델은 예로서 제시된 것이고 제한적인 것이 아님을 이해할 것이다.
본 발명의 추가 실시예에 따라, LDS(108)의 프라이빗 기록 공간에 할당된 개별 쓰레드는 할당된 프라이빗 기록 공간에 기록할 수 있고 할당된 프라이빗 기록 공간으로부터 판독할 수 있다. 다른 쓰레드 프로세서들(104) 상에서 실행하는 쓰레드들을 포함하는 SIMD(102) 상에서 실행하는 임의의 쓰레드는, 할당된 프라이빗 기록 공간으로부터 데이터를 판독할 수 있다.
LDS(108)에 오너-기록 모델을 제공하는 것은, 위의 GPR 공유에서와 같이, 단일 쓰레드 프로세서(104) 상에서 실행하는 쓰레드들 사이에서뿐만 아니라 SIMD(102)의 모든 쓰레드 프로세서들(104) 상에서 실행하는 모든 쓰레드들 사이에서 데이터 공유를 할 수 있게 해준다. 이것은 웨이브프론트 내의 쓰레드들이 동일한 웨이브프론트 내의 다른 쓰레드들과 함께 데이터를 공유할 수 있게 해준다. 추가적으로, 이러한 특징은 동일한 SIMD(102) 상에서 실행하는 임의의 웨이브프론트 내에서 실행되는 쓰레드들이 쓰레드들의 그룹 내의 임의의 다른 웨이브프론트에 속한 쓰레드들로부터 데이터를 액세스할 수 있게 해준다.
본 발명의 실시예에 따라, 도 2는 도 1의 LDS(108a 내지 108m)에 대응하는, LDS 메모리 기록 아키텍처(200)를 도시한다. 당업자는 도 2에 도시된 데이터 폭들(data widths)과 로직 레이아웃(logic layout)이 도시된 바와 같이 정확하게 구현될 필요는 없으며, 다양한 다수의 데이터 폭들과 로직 레이아웃들이 수용될 수 있다는 것을 이해할 것이다. 단일 SIMD 프로세서(102) 내의 모든 GPR 파일들(106)의 집합이 도 2에 GPRS(201)로 도시된다.
본 발명의 실시예에 따라, 데이터를 GPRS(201)들로부터 LDS(203)로 기록하는 것은, 쓰레드_벡터 기록 위치(thread-vector write location)(이는 특정 실행 쓰레드를 위해 예비된 LDS의 섹션임)에 대응하는 LDS 내의 주소에 상기 데이터를 기록함으로써 달성된다. 이것은 LDS 내에서 쓰레드의 프라이빗 기록 공간(thread's private write space)이라 칭해진다. 당업자는 다수의 어드레싱 모드들(addressing modes)이 사용될 수 있으며, 이 어드레싱 모드는 예로서 도시된 것이고 제한적인 것이 아니라는 것을 이해할 것이다.
본 발명의 추가적인 실시예에 따라, LDS 내의 프라이빗 기록 공간은 가변적이다. 예를 들어, 프라이빗 기록 공간은 쓰레드당 한 레지스터(one register per thread)로서 할당되며, 16개까지의 웨이브 프론트들, 또는 대안적으로 16개의 레지스터들 및 단지 하나의 웨이브프론트를 수용하나, 이에 국한되는 것은 아니다. 당업자는 쓰레드당 다수의 레지스터의 다수의 조합이 할당되고, LDS에 의해 수용될 수 있는 결과적인 웨이브프론트들의 총 수가 존재하며, 상기 그룹은 예로서 도시된 것이고 제한적인 것이 아니라는 것을 이해할 것이다. 추가 실시예에서, 또한 웨이브프론트들은 가변적인 크기의 쓰레드들의 그룹들로 그룹화될 수 있다.
본 발명의 추가적인 실시예에 따라, 하나 이상의 멀티플렉서들(multiplexer)(202)이 GPR(201)로부터 LDS(203)로 데이터를 기록하도록 구성된다. 기록이 스케줄링 될 때, 데이터는 GPRS(201)에서 판독되고, LDS(203)에 기록된다. 실시예에서, 4개의 쓰레드들에 대한 데이터가 단일 클럭 사이클 내에 GPRS(201)로부터 LDS(203)로 기록된다.
앞서 언급한 바와 같이, 본 발명의 실시예에 따라 SIMD 프로세서(102)당 하나의 LDS 메모리(108/203)가 존재한다. 본 발명의 추가적인 실시예에 따라, SIMD 프로세서(102) 내에서 실행하는 각각의 웨이브프론트는 LDS(108) 내의 웨이브프론트 메모리 영역에 할당된다. 웨이브프론트를 포함하는 각각의 쓰레드는 이러한 더 큰 웨이브프론트 메모리 영역 내의 특정 메모리 영역에 할당된다. 이것은 쓰레드들이, 대응 웨이브프론트의 다른 쓰레드들에 의해 공유되거나 할당되지 않은 메모리 영역에 데이터를 기록하는 것을 방지해주고, 쓰레드들이 그것의 할당된 메모리 영역 내에서 데이터를 교환할 수 있게 해준다.
예를 들어, LDS 메모리(203)는 메모리를 각각의 웨이브프론트에 대응하는 메모리 영역들로 분할함으로써 인덱싱되나, 이에 국한되는 것은 아니다. 예를 들어, 메모리 영역(206)이 웨이브프론트(0)에 대응한다. 메모리 영역(206)에 기록할 때, 웨이브프론트(0)의 쓰레드들(0 내지 3)은 204로 도시된 뱅크 인덱스 0(bank index 0)에서 LDS(203)에 기록하도록 스케줄링된다. 실시예에서, 이러한 기록은 단일 클럭 사이클 내에서 발생한다. 이러한 프로세스는 웨이브프론트 0 내의 4개의 쓰레드들의 각각의 세트에 대해 반복되며, 4개 쓰레드의 각각의 연속적인 세트는 후속적인 클럭 사이클에서 다음 뱅크에 기록한다. 당업자는 타이밍 및 메모리 사이징 값들(timing and memory sizing values)이 예로서 도시된 것이고 제한적인 것이 아니라는 것을 이해할 것이다.
본 발명의 추가적인 실시예에 따라, 특정 브로드캐스트 판독 모드(special broadcast read mode)가 사용가능하며, 상기 모드는 웨이브프론트 내의 모든 쓰레드들로 리턴되는, 또는 공유되는 레지스터들로 리턴되는 LDS로부터의 데이터에 대한 빠른 판독을 가능하게 해준다. 실시예에서, 브로드캐스트 판독 모드는 데이터의 4개의 디워드들(dwords) 중 하나에 대한 빠른 판독을 수행하고, 상기 데이터를 4 클럭 사이클 내에 각각의 웨이브프론트 내의 모든 쓰레드들에 리턴한다.
본 발명의 추가적인 실시예에 따라, 배리어 명령(barrier instruction)이 실시된다. 이러한 배리어 명령은, 동일한 프로세스로부터 스폰된 모든 쓰레드들(예를 들어, 쓰레드들의 그룹 또는, 웨이브프론트) 내에 존재할 것이며, 모든 쓰레드들이 진행 전에 그 배리어 포인트에 동기화되게 한다. 이는, 예를 들어, LDS를 액세스할 때, 위험 상태(hazard conditions)를 방지하기 위해 사용될 수 있으나, 이에 국한되는 것은 아니다. 예를 들어, 만일 쓰레드가 또다른 웨이브프론트로부터 서로 다른 쓰레드에 의해 기록된 LDS 내의 데이터에 대한 판독 명령을 실행한다면, 쓰레드가 판독하기를 원하는 데이터가 이 포인트에서 유효한지 알 수 없다. 배리어 명령 전에 이 데이터를 제공하는 기록 명령을 위치시키고, 배리어 명령 후에 판독 명령을 위치시킴으로써, 판독 명령이 LDS로부터 정확한 데이터를 얻을 것이라는 것을 보장할 수 있다. 당업자는, 예를 들어, 다른 액세스 위험들(access hazards)에 대한 회피를 포함하는 이러한 배리어 명령의 다른 사용들이 가능하며, 이에 국한되는 것이 아니라는 것을 이해할 것이다.
IV. 글로벌 데이터 공유(GLOBAL DATA SHARE)
도 3은, 본 발명의 실시예에 따라 모든 SIMD 프로세싱 유닛들로부터의 판독 및 기록 오퍼레이션들을 지원하는 GDS(300)이다. 추가적으로, 본 발명의 추가적인 실시예에 따라, SIMD 프로세싱 유닛은 브로드캐스트로 GDS(300)로부터 데이터를 요청하도록 동작할 수 있으며, 이는 GDS로 하여금 시스템 내의 모든 GPR 파일들을 GDS(300)로부터의 브로드캐스트 데이터로 업데이트하게 해준다.
당업자는 도 3에 도시된 데이터 폭 및 로직 레이아웃이 도시된 것과 같이 정확히 구현될 필요는 없으며, 다양한 데이터 폭들 및 로직 레이아웃들이 수용될 수 있다는 것을 이해할 것이다.
V. 예시적인 애플리케이션(EXAMPLE APPLICATION)
도 4는 본 발명의 실시예에 따라, 프라이빗 GPR 공간, 글로벌 GPR 공간, LDS 및, GDS의 앞서 언급된 기능을 이용하는 예시적인 애플리케이션을 나타낸 흐름도(400)이다. 예를 들어, 흐름도(400)는 이미지의 최대 및 최소 휘도값들(brightness values)과 같은, 단일 경로(single pass)로 이미지에 대한 특성(property)을 계산하기 위해서 이용될 수 있으나, 이에 국한되는 것은 아니다. 관련 기술 분야의 당업자는 다른 애플리케이션이 프라이빗 GRP 공간, 글로벌 GPR 공간, LDS 및, GDS의 구성을 이용할 수 있으며, 흐름도(400)는 예로서 제시된 것이고 제한적인 것이 아님을 이해할 것이다.
방법은 단계(402)에서 시작하여, 이미지 픽셀들의 서브세트가 하나 이상의 웨이브프론트들에 할당되는 단계(404)로 진행한다. 각각의 웨이브프론트에서, 상기 웨이브프론트에 할당된 픽셀들의 서브세트는 SIMD 프로세서(102)에 할당된 웨이브프론트의 각각의 쓰레드에 할당된다. 웨이브프론트의 각각의 쓰레드는 할당된 SIMD 프로세서(102)의 레인 내에서 실행되고, 상기 레인은 특정 쓰레드 프로세서(104) 및 그것의 관련된 GPR 파일(106)에 대응한다. 하나 이상의 웨이브프론트들이 단일 SIMD 프로세서(102) 내에서 실행됨에 따라, 흐름도(400)의 단계들을 수행하는 복수의 쓰레드들이 동일한 SIMD 프로세서(102) 내의 동일한 레인에 할당될 수 있다.
단계(406)에서, 각각의 쓰레드의 대응하는 픽셀들의 서브세트는 그것의 관련된 GPR 파일(106) 내에 저장된다. 쓰레드 프로세서(104) 상의 개별 쓰레드들은 단계(408)에서 쓰레드 당 프라이빗 결과(per-thread private result)를 계산한다. 최대 및 최소 휘도값 예의 맥락에서, 쓰레드 프로세서(104)는 실행한 쓰레드가 할당되었던 픽셀들의 서브세트에 대한 최대 및 최소 휘도값들을 계산한다. 웨이브프론트의 각각의 레인은 원자적으로(atomically) 그것의 결과들을 각각의 레인의 글로벌 GPR 공간에 저장된 레인당 결과들(per lane results)과 결합한다. 이미지의 모든 픽셀들이 스케줄링 된 후, LDS(108)의 쓰레드의 프라이빗 영역에 기록되는 글로벌 레지스터에 저장된, "로컬 결과(local result)"를 가지고 감소 단계(reduction phase)가 시작된다.
각각의 SIMD(102)에 대해, 단계(412)에서, 하나의 레인이 SIMD(102)의 각각의 레인에 의해 생산되는 모든 로컬 결과들을 판독하고, SIMD-로컬 결과를 찾기위해 데이터를 감소시키도록 구성된다. 예를 들어, SIMD-로컬 결과를 찾기 위하여 단일 쓰레드 프로세서(104)에 대응하는 레인이 할당되어 로컬 결과들을 감소시킨다. 그 다음에, 이러한 쓰레드 프로세서(104)는 그것의 LDS(108)로부터 GPR 파일(106)로 모든 로컬 결과들을 판독하고, 모든 로컬 결과들 중에서 최대 및 최소 휘도값들을 계산한다. 이 계산의 결과는 SIMD-로컬 결과가 된다. 단계(414)에서, 쓰레드 프로세서(104)는 SIMD-로컬 결과들을 GDS(110)의 프라이빗 영역에 기록한다.
마찬가지로, 단계(416)에서, 단일 쓰레드 프로세서(104)는 GDS(110)로부터 모든 SIMD-로컬 결과들을 판독 및 수집하고, 데이터를 감소(reduce)시켜 최종 결과를 찾는다. 예를 들어, 단일 쓰레드 프로세서(104)는 GDS(110)로부터 상기 단일 쓰레드 프로세서(104)의 GPR파일 내로 모든 SIMD-로컬 결과들을 판독하고, 모든 SIMD-로컬 결과들 중 최대 및 최소 휘도값을 계산한다. 이 계산의 결과는 상기 감소(reduction)의 최종 결과가 된다. 단계(418)에서, 상기 최종 결과가 메모리 위치(memory location)에 저장된다. 본 발명의 추가적인 실시예에 따라, 상기 최종 결과가 GDS에 다시 저장되고, 브로드캐스트 판독 동작이 저장 동작에 후속하여, 중간 결과(intermediate result)로서 단계(418)에서 계산된 최종 결과를 이용하여 흐름도(400)에서 설명된 동작들의 제2 경로(second pass)를 위해 GPR 파일들(106)을 채운다(populate).
VI. 컴퓨터 시스템 구현(COMPUTER SYSTEM IMPLEMENTATION)
본 발명의 다양한 특징들은 소프트웨어, 펌웨어, 하드웨어 또는 그의 결합에 의해 구현될 수 있다. 도 5는 본 발명에서 컴퓨터-판독 가능 코드(computer-readable code)로 구현될 수 있는, 예시적인 컴퓨터 시스템(500) 또는 그 일부를 나타낸다. 본 발명의 다양한 실시예들은 이러한 예시적인 컴퓨터 시스템(500)으로 설명된다. 이 설명을 읽은 후, 다른 컴퓨터 시스템들 및/또는 컴퓨터 아키텍처들을 이용해서 어떻게 본 발명을 구현할 수 있는지는 당업자에게 자명할 것이다.
컴퓨터 시스템(500)은 프로세서(504)와 같은, 하나 이상의 프로세서들을 포함한다. 프로세서(504)는 특수 목적 또는 범용 프로세서일 수 있다. 프로세서(504)는 통신 인프라스트럭쳐(communication infrastructure)(506) (예를 들어, 버스(bus) 또는 네트워크)에 연결된다.
컴퓨터 시스템(500)은 메인 메모리(508), 바람직하게는 랜덤 액세스 메모리(random access memory : RAM)를 포함하며, 또한 제2 메모리(510)를 포함할 수 있다. 제2 메모리(510)는, 예를 들어, 하드 디스크 드라이브(512), 착탈식 저장 드라이브(removable storage drive)(514) 및/또는 메모리 스틱(memory stick)을 포함할 수 있다. 착탈식 저장 드라이브(514)는 플로피 디스크 드라이브(floppy disk drive), 마그네틱 테이프 드라이브(magnetic tape drive), 광 디스크 드라이브(optical disk drive), 플래시 메모리(flash memory) 등을 포함할 수 있다. 착탈식 저장 드라이브(514)는 잘 알려진 방식으로 착탈식 저장 유닛(518)으로부터 판독 및/또는 착탈식 저장 유닛(518)에 기록한다. 착탈식 저장 유닛(518)은 플로피 디스크, 마그네틱 테이프, 광 디스크 등을 포함할 수 있고, 착탈식 스토리지 드라이브(514)가 상기 착탈식 저장 유닛을 판독하거나 상기 착탈식 저장 유닛에 기록한다. 당업자가 알 수 있는 바와 같이, 착탈식 저장 유닛(518)은 본 명세서에서 저장된 컴퓨터 소프트웨어 및/또는 데이터를 갖는 컴퓨터-이용 가능 저장 매체(computer-usable storage medium)를 포함한다.
대안적인 구현예에서, 제2 메모리(510)는 컴퓨터 프로그램들 또는 다른 명령들이 컴퓨터 시스템(500) 내로 적재될 수 있게 해주는 다른 유사한 수단을 포함한다. 이러한 수단은 예를 들어, 착탈식 저장 유닛(522) 및 인터페이스(520)를 포함할 수 있다. 이러한 수단의 예는, 프로그램 카트리지 및 카트리지 인터페이스(예를 들어 비디오 게임 디바이스들에서 찾을 수 있는 것과 같은 것), 착탈식 메모리 칩(예를 들어, EPROM 또는 PROM) 그리고 관련된 소켓, 및 소프트웨어와 데이터가 착탈식 저장 유닛(522)으로부터 컴퓨터 시스템(500)으로 전송될 수 있게 해주는 다른 착탈식 저장 유닛들(522)과 인터페이스들(520)을 포함할 수 있다.
컴퓨터 시스템(500)은 통신 인터페이스(524)를 포함할 수 있다. 통신 인터페이스(524)는 소프트웨어와 데이터가 컴퓨터 시스템(500)과 외부 디바이스들(external devices) 사이에서 전송될 수 있게 해준다. 통신 인터페이스(524)는 모뎀, (이더넷 카드와 같은) 네트워크 인터페이스, 통신 포트, PCMCIA 슬롯 및 카드 등을 포함할 수 있다. 통신 인터페이스(524)를 통해 전송된 소프트웨어와 데이터는 전자의, 전자기의, 광학 신호들의 형태 또는 통신 인터페이스(524)에 의해 수신될 수 있는 다른 신호들의 형태일 수 있다. 이러한 신호들은 통신 경로(526)를 통해 통신 인터페이스(524)에 제공된다. 통신 경로(526)는 신호들을 전달하고, 와이어 또는 케이블, 광섬유, 전화선, 셀룰러 폰 링크, RF 링크 또는 다른 통신 채널들을 이용해서 구현될 수 있다.
본 명세서에서, 용어 "컴퓨터 프로그램 매체(computer program medium")"와 "컴퓨터-이용 가능 매체(computer-usable medium)"는 일반적으로 착탈식 저장 유닛(518), 착탈식 저장 유닛(522) 및, 하드 디스크 드라이브(512)에서 인스톨된 하드 디스크와 같은, 매체를 지칭하기 위해 사용된다. 통신 경로(526) 상에서 전달되는 신호들은 본 명세서에 기술된 로직을 구현할 수 있다. 컴퓨터 프로그램 매체와 컴퓨터-이용 가능 매체는, 메인 메모리(508) 및 제2 메모리(510)와 같은, 메모리들을 지칭하는바, 상기 메모리들은 메모리 반도체들(memory semiconductors)(예를 들어, DRAM 등)일 수 있다. 이러한 컴퓨터 프로그램 제품들은 소프트웨어를 컴퓨터 시스템(500)에 제공하기 위한 수단이다.
컴퓨터 프로그램들 (또한, 컴퓨터 제어 로직 또는 데이터 및/또는 명령들이라 칭함)은 메인 메모리(508) 및/또는 제2 메모리(510)에 저장된다. 컴퓨터 프로그램들은 통신 인터페이스(524)를 통해 수신될 수 있다. 실행될 때, 이러한 컴퓨터 프로그램들은, 컴퓨터 시스템(500)으로 하여금 본 명세서에서 설명된 바와 같은 본 발명을 구현할 수 있게 한다. 특히, 실행될 때, 컴퓨터 프로그램들은 프로세서(504)가 본 발명의 프로세스들을 구현할 수 있게 한다. 따라서, 이러한 컴퓨터 프로그램들은 컴퓨터 시스템(500)의 컨트롤러들을 나타낸다. 본 발명은 소프트웨어를 이용해서 구현되는바, 상기 소프트웨어는 컴퓨터 프로그램 제품 내에 저장될 수 있고, 착탈식 스토리지 드라이브(514), 인터페이스(520), 하드 드라이브(512) 또는 통신 인터페이스(524)를 이용해서 컴퓨터 시스템(500) 내에 적재될 수 있다.
본 발명은 임의의 컴퓨터-이용 가능 매체 상에 저장된 소프트웨어를 포함하는 컴퓨터 프로그램 제품에 관한 것이다. 이러한 소프트웨어가 하나 이상의 데이터 프로세싱 디바이스에서 실행될 때, 이러한 소프트웨어는, 데이터 프로세싱 디바이스(들)을, 본 명세서에서 설명된 바와 같이 또는 앞서 설명된 바와 같이 동작하게 하고, 본 명세서에서 설명된 본 발명의 실시예들을 수행하도록 컴퓨팅 디바이스들 (예를 들어, ASICs 또는 프로세서들)을 합성 및/또는 제조할 수 있게 해준다. 본 발명의 실시예들은 지금 또는 미래에 잘 알려진, 임의의 컴퓨터-이용 가능 매체 또는 컴퓨터-판독 가능 매체를 이용한다. 컴퓨터-이용 가능 매체들의 예들은 제1 스토리지 디바이스들 (예를 들어, 임의의 형식의 랜덤 액세스 메모리), 제2 스토리지 디바이스들 (예를 들어, 하드 드라이브들, 플로피 디스크들, CD ROMs, ZIP 디스크들, 테이프들, 마그네틱 스토리지 디바이스들, 광 스토리지 디바이스들, MEMS, 나노기술 스토리지 디바이스들 등) 및, 통신 매체들 (예를 들어, 유선 및 무선 통신 네트워크들(wired and wireless communications networks), 로컬 영역 네트워크들(local area networks), 와이드 영역 네트워크들(wide area networks), 인트라넷들(intranets) 등)을 포함하나, 이에 한정되는 것은 아니다.
VII. 결론(CONCLUSION)
본 발명의 다양한 실시예들이 앞서 설명되었으나, 그것들은 단지 예시적인 것이며, 제한적인 것이 아님이 이해되어야 한다. 당업자는, 첨부된 청구 범위들에서 정의된 본 발명의 사상 및 범주를 벗어나지 않는 범위에서 형태 및 세부사항에 있어서의 다양한 변경이 이루어질 수 있다는 것을 이해할 것이다. 본 발명은 이러한 예들에 한정되는 것이 아님이 이해되어야 한다. 본 발명은 본 명세서에서 설명된 것과 같은 임의의 구성 요소들에 적용될 수 있다. 따라서, 본 발명의 폭과 범주는 앞서-설명된 예시적인 실시예들 중 임의의 것에 의해 한정되지 않아야하며, 단지 다음의 청구 범위들과 그의 등가에 따라 정의되어야 한다.

Claims (25)

  1. 그래픽 프로세싱 유닛(graphics processing unit)으로서,
    복수의 SIMD(Single Instruction, Multiple Data) 프로세싱 유닛들과, 여기서 각각의 SIMD 프로세싱 유닛은,
    복수의 쓰레드 프로세서(thread processor)들과,
    복수의 범용 레지스터(General Purpose Register, GPR) 파일(file)들과, 여기서 각각의 GPR 파일은 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서와 통신하며, 그리고
    상기 복수의 쓰레드 프로세서들과 양방향 통신(bi-directional communication)을 하는 로컬 데이터 공유(Local Data Share, LDS)를 포함하고; 그리고
    상기 복수의 SIMD 프로세싱 유닛들 각각에서의 상기 복수의 쓰레드 프로세서들 각각과 통신하는 글로벌 데이터 공유(Global Data Share, GDS)를 포함하여 구성되며,
    상기 복수의 쓰레드 프로세서들에는 실행을 위한 복수의 쓰레드들이 할당되고, 상기 LDS는 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서에 할당된 프라이빗 기록 공간(private write space)을 가지며, 상기 LDS는 상기 복수의 쓰레드 프로세서들 중 오로지 상기 하나의 쓰레드 프로세서에 의한 상기 프라이빗 기록 공간에 대한 기록 액세스를 실시(enforce)하고, 상기 복수의 쓰레드 프로세서들은 상기 프라이빗 기록 공간으로부터의 판독을 행할 수 있는 것을 특징으로 하는 그래픽 프로세싱 유닛.
  2. 제1항에 있어서,
    각각의 GPR 파일은,
    상기 GPR 파일과 관련된 상기 쓰레드 프로세서 상에서 실행되는 하나 이상의 쓰레드들 중 제 1 쓰레드에 할당되는 레지스터들의 프라이빗 블록(private block)과, 여기서 상기 제 1 쓰레드만이 상기 프라이빗 블록으로부터의 판독 혹은 상기 프라이빗 블록에 대한 기록을 행할 수 있으며; 그리고
    레지스터들의 글로벌 블록(global block)을 포함하고,
    상기 하나 이상의 쓰레드들 중 임의의 쓰레드는 상기 글로벌 블록으로부터의 판독 혹은 상기 글로벌 블록에 대한 기록을 행할 수 있는 것을 특징으로 하는 그래픽 프로세싱 유닛.
  3. 삭제
  4. 제1항에 있어서,
    상기 프라이빗 기록 공간의 크기는 가변적인 것을 특징으로 하는 그래픽 프로세싱 유닛.
  5. 삭제
  6. 제1항에 있어서,
    상기 GDS는 상기 복수의 SIMD 프로세싱 유닛들의 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서에 할당된 프라이빗 기록 공간을 포함하는 것을 특징으로 하는 그래픽 프로세싱 유닛.
  7. 제6항에 있어서,
    상기 GDS는 상기 복수의 SIMD 프로세싱 유닛들의 상기 복수의 쓰레드 프로세서들 중 오로지 상기 하나의 쓰레드 프로세서에 의한 상기 프라이빗 기록 공간에 대한 기록 액세스를 실시하고, 상기 복수의 SIMD 프로세싱 유닛들은 상기 프라이빗 기록 공간으로부터의 판독을 행할 수 있는 것을 특징으로 하는 그래픽 프로세싱 유닛.
  8. 제조 방법으로서,
    복수의 SIMD 프로세싱 유닛들을 물리적으로 형성하는 단계와, 여기서 각각의 SIMD 프로세싱 유닛은,
    복수의 쓰레드 프로세서들과,
    복수의 범용 레지스터(GPR) 파일들과, 여기서 각각의 GPR 파일은 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서와 통신하고, 그리고
    상기 복수의 쓰레드 프로세서들 각각과 양방향 통신을 하는 로컬 데이터 공유(LDS)를 포함하며; 그리고
    상기 복수의 SIMD 프로세싱 유닛들 각각에서의 상기 복수의 쓰레드 프로세서들 각각과 통신하는 글로벌 데이터 공유(GDS)를 물리적으로 형성하는 단계를 포함하여 구성되며,
    상기 복수의 쓰레드 프로세서들에는 실행을 위한 복수의 쓰레드들이 할당되고, 상기 LDS는 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서에 할당된 프라이빗 기록 공간을 가지며, 상기 LDS는 상기 복수의 쓰레드 프로세서들 중 오로지 상기 하나의 쓰레드 프로세서에 의한 상기 프라이빗 기록 공간에 대한 기록 액세스를 실시하고, 상기 복수의 쓰레드 프로세서들은 상기 프라이빗 기록 공간으로부터의 판독을 행할 수 있는 것을 특징으로 하는 제조 방법.
  9. 제8항에 있어서,
    상기 복수의 SIMD 프로세싱 유닛들 각각을 물리적으로 형성하는 것은 상기 복수의 GPR 파일들 각각을 물리적으로 형성하는 것을 포함하고,
    각각의 GPR 파일은,
    상기 GPR 파일과 관련된 상기 쓰레드 프로세서 상에서 실행되는 하나 이상의 쓰레드들 중 제 1 쓰레드에 할당되는 레지스터들의 프라이빗 블록과, 여기서 상기 제 1 쓰레드만이 상기 프라이빗 블록에 대한 기록을 행할 수 있고, 상기 하나 이상의 쓰레드들 중 임의의 쓰레드는 상기 프라이빗 블록으로부터의 판독을 행할 수 있으며; 그리고
    레지스터들의 글로벌 블록을 포함하며,
    상기 하나 이상의 쓰레드들 중 임의의 쓰레드는 상기 글로벌 블록으로부터의 판독 혹은 상기 글로벌 블록에 대한 기록을 행할 수 있는 것을 특징으로 하는 제조 방법.
  10. 삭제
  11. 제8항에 있어서,
    상기 프라이빗 기록 공간의 크기는 가변적인 것을 특징으로 하는 제조 방법.
  12. 삭제
  13. 제8항에 있어서,
    상기 GDS는 상기 복수의 SIMD 프로세싱 유닛들의 상기 복수의 쓰레드 프로세서들 중 하나의 쓰레드 프로세서에 할당된 프라이빗 기록 공간을 포함하는 것을 특징으로 하는 제조 방법.
  14. 제13항에 있어서,
    상기 GDS는 상기 복수의 SIMD 프로세싱 유닛들의 상기 복수의 쓰레드 프로세서들 중 오로지 상기 하나의 쓰레드 프로세서에 의한 상기 프라이빗 기록 공간에 대한 기록 액세스를 실시하고, 상기 복수의 SIMD 프로세싱 유닛들은 상기 프라이빗 기록 공간으로부터의 판독을 행할 수 있는 것을 특징으로 하는 제조 방법.
  15. 삭제
  16. 컴퓨터 실행가능 명령(computer-executable instruction)들이 저장되어 있는 컴퓨터 판독가능 기억 매체로서, 상기 명령들은 컴퓨팅 디바이스(computing device)에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금,
    이미지(image)의 픽셀(pixel)들의 세트(set)를 SIMD 프로세서들의 세트에 할당하는 것과;
    상기 픽셀들의 세트의 픽셀들의 서브세트(subset)를 상기 SIMD 프로세서들의 세트의 각각의 SIMD 프로세서의 프로세싱 레인(processing lane) 상에서 실행되는 각각의 쓰레드에 할당하는 것과;
    상기 픽셀들의 서브세트를 각각의 프로세싱 레인과 관련된 범용 레지스터(GPR) 파일에 저장하는 것과;
    상기 GPR 파일 내의 프라이빗 공간(private space)에서의 상기 픽셀들의 서브세트에 근거하여 쓰레드당 프라이빗 결과(per-thread private result)를 계산하는 것과;
    상기 쓰레드당 프라이빗 결과를 동일한 레인으로부터의 쓰레드들에 의해 계산되는 추가적인 쓰레드당 프라이빗 결과들과 함께 축적(accumulating)하여 상기 GPR 파일 내의 글로벌 공간(global space)에 저장되는 레인당 로컬 결과(per-lane local result)를 생성하는 것과; 그리고
    상기 GPR 파일 내의 상기 글로벌 공간으로부터의 상기 레인당 로컬 결과를 상기 프로세싱 레인과 관련된 로컬 데이터 공유(LDS)의 프라이빗 영역에 기록하는 것을 포함하는 방법을 수행하게 하며,
    상기 LDS는 상기 프로세싱 레인을 포함하는 상기 SIMD 프로세서와만 관련되는 것을 특징으로 하는 컴퓨터 판독가능 기억 매체.
  17. 제16항에 있어서,
    상기 방법은 또한,
    상기 LDS로부터 제 1 단일 프로세싱 레인의 제 1 단일 GPR 파일 내로 각각의 레인당 로컬 결과를 판독하는 것과;
    SIMD 로컬 결과를 찾기 위해 상기 LDS로부터의 모든 레인당 로컬 결과들의 결과를 감소시키는 것과; 그리고
    상기 제 1 단일 GPR 파일로부터의 상기 SIMD 로컬 결과를 상기 제 1 단일 프로세싱 레인과 관련된 글로벌 데이터 공유(GDS)의 프라이빗 영역에 기록하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기억 매체.
  18. 제17항에 있어서,
    상기 방법은 또한,
    상기 GDS로부터 제 2 단일 프로세싱 레인의 제 2 단일 GPR 파일 내로 각각의 SIMD 로컬 결과를 판독하는 것과;
    최종 결과를 찾기 위해 상기 GDS로부터의 모든 SIMD 로컬 결과들의 결과를 감소시키는 것과; 그리고
    상기 최종 결과를 기록하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기억 매체.
  19. 제18항에 있어서,
    상기 최종 결과를 기록하는 것은, 상기 최종 결과를 메모리 위치(memory location)에 기록하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기억 매체.
  20. 제18항에 있어서,
    상기 최종 결과를 기록하는 것은, 상기 최종 결과를 상기 GDS에 다시 기록(write back)하는 것을 포함하며, 상기 방법은 또한,
    브로드캐스트 판독 명령(broadcast read instruction)을 실행하는 것과;
    상기 브로드캐스트 판독 명령에 응답하여 상기 GPR 파일을 상기 GDS로부터의 상기 최종 결과로 채우는 것(populating)과; 그리고
    상기 최종 결과를 후속적인 계산에서의 중간 결과(intermediate result)로서 이용하여 후속적인 쓰레드당 프라이빗 결과를 계산하는 것을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기억 매체.
  21. 이미지의 픽셀들의 세트를 SIMD 프로세서들의 세트에 할당하는 단계와;
    상기 픽셀들의 세트의 픽셀들의 서브세트를 상기 SIMD 프로세서들의 세트의 각각의 SIMD 프로세서의 프로세싱 레인 상에서 실행되는 각각의 쓰레드에 할당하는 단계와;
    상기 픽셀들의 서브세트를 각각의 프로세싱 레인과 관련된 범용 레지스터(GPR) 파일에 저장하는 단계와;
    상기 GPR 파일 내의 프라이빗 공간에서의 상기 픽셀들의 서브세트에 근거하여 쓰레드당 프라이빗 결과를 계산하는 단계와;
    상기 쓰레드당 프라이빗 결과를 동일한 레인으로부터의 쓰레드들에 의해 계산되는 추가적인 쓰레드당 프라이빗 결과들과 함께 축적하여 상기 GPR 파일 내의 글로벌 공간에 저장되는 레인당 로컬 결과를 생성하는 단계와; 그리고
    상기 GPR 파일 내의 상기 글로벌 공간으로부터의 상기 레인당 로컬 결과를 상기 프로세싱 레인과 관련된 로컬 데이터 공유(LDS)의 프라이빗 영역에 기록하는 단계를 포함하여 구성되며,
    상기 LDS는 상기 프로세싱 레인을 포함하는 상기 SIMD 프로세서와만 관련되는 것을 특징으로 하는 방법.
  22. 제21항에 있어서,
    상기 LDS로부터 제 1 단일 프로세싱 레인의 제 1 단일 GPR 파일 내로 각각의 레인당 로컬 결과를 판독하는 단계와;
    SIMD 로컬 결과를 찾기 위해 상기 LDS로부터의 모든 레인당 로컬 결과들의 결과를 감소시키는 단계와; 그리고
    상기 제 1 단일 GPR 파일로부터의 상기 SIMD 로컬 결과를 상기 제 1 단일 프로세싱 레인과 관련된 글로벌 데이터 공유(GDS)의 프라이빗 영역에 기록하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  23. 제22항에 있어서,
    상기 GDS로부터 제 2 단일 프로세싱 레인의 제 2 단일 GPR 파일 내로 각각의 SIMD 로컬 결과를 판독하는 단계와;
    최종 결과를 찾기 위해 상기 GDS로부터의 모든 SIMD 로컬 결과들의 결과를 감소시키는 단계와; 그리고
    상기 최종 결과를 기록하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  24. 제23항에 있어서,
    상기 최종 결과를 기록하는 단계는, 상기 최종 결과를 메모리 위치에 기록하는 것을 포함하는 것을 특징으로 하는 방법.
  25. 제23항에 있어서,
    상기 최종 결과를 기록하는 단계는, 상기 최종 결과를 상기 GDS에 다시 기록하는 것을 포함하며, 상기 방법은 또한,
    브로드캐스트 판독 명령을 실행하는 단계와;
    상기 브로드캐스트 판독 명령에 응답하여 상기 GPR 파일을 상기 GDS로부터의 상기 최종 결과로 채우는 단계와; 그리고
    상기 최종 결과를 후속적인 계산에서의 중간 결과로서 이용하여 후속적인 쓰레드당 프라이빗 결과를 계산하는 단계를 포함하는 것을 특징으로 하는 방법.
KR1020107028532A 2008-05-30 2009-06-01 로컬 및 글로벌 데이터 공유 KR101474478B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5753408P 2008-05-30 2008-05-30
US61/057,534 2008-05-30

Publications (2)

Publication Number Publication Date
KR20110015439A KR20110015439A (ko) 2011-02-15
KR101474478B1 true KR101474478B1 (ko) 2014-12-19

Family

ID=41377444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107028532A KR101474478B1 (ko) 2008-05-30 2009-06-01 로컬 및 글로벌 데이터 공유

Country Status (6)

Country Link
US (2) US9619428B2 (ko)
EP (2) EP2289001B1 (ko)
JP (1) JP5461533B2 (ko)
KR (1) KR101474478B1 (ko)
CN (1) CN102047241B (ko)
WO (1) WO2009145917A1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7861060B1 (en) * 2005-12-15 2010-12-28 Nvidia Corporation Parallel data processing systems and methods using cooperative thread arrays and thread identifier values to determine processing behavior
US7788468B1 (en) 2005-12-15 2010-08-31 Nvidia Corporation Synchronization of threads in a cooperative thread array
US20100250564A1 (en) * 2009-03-30 2010-09-30 Microsoft Corporation Translating a comprehension into code for execution on a single instruction, multiple data (simd) execution
US20120017062A1 (en) * 2010-07-19 2012-01-19 Advanced Micro Devices, Inc. Data Processing Using On-Chip Memory In Multiple Processing Units
US9552206B2 (en) * 2010-11-18 2017-01-24 Texas Instruments Incorporated Integrated circuit with control node circuitry and processing circuitry
US8752064B2 (en) 2010-12-14 2014-06-10 Advanced Micro Devices, Inc. Optimizing communication of system call requests
US9092267B2 (en) * 2011-06-20 2015-07-28 Qualcomm Incorporated Memory sharing in graphics processing unit
WO2013152452A1 (en) * 2012-04-09 2013-10-17 Intel Corporation Parallel processing image data having top-left dependent pixels
US10062135B2 (en) * 2013-07-31 2018-08-28 National Technology & Engineering Solutions Of Sandia, Llc Graphics processing unit management system for computed tomography
US9633411B2 (en) * 2014-06-26 2017-04-25 Qualcomm Incorporated Load scheme for shared register in GPU
US9749548B2 (en) 2015-01-22 2017-08-29 Google Inc. Virtual linebuffers for image signal processors
US9760969B2 (en) * 2015-03-09 2017-09-12 Mediatek Inc. Graphic processing system and method thereof
US9756268B2 (en) 2015-04-23 2017-09-05 Google Inc. Line buffer unit for image processor
US9785423B2 (en) 2015-04-23 2017-10-10 Google Inc. Compiler for translating between a virtual image processor instruction set architecture (ISA) and target hardware having a two-dimensional shift array structure
US9965824B2 (en) 2015-04-23 2018-05-08 Google Llc Architecture for high performance, power efficient, programmable image processing
US9769356B2 (en) 2015-04-23 2017-09-19 Google Inc. Two dimensional shift array for image processor
US10291813B2 (en) 2015-04-23 2019-05-14 Google Llc Sheet generator for image processor
US10095479B2 (en) 2015-04-23 2018-10-09 Google Llc Virtual image processor instruction set architecture (ISA) and memory model and exemplary target hardware having a two-dimensional shift array structure
US9772852B2 (en) 2015-04-23 2017-09-26 Google Inc. Energy efficient processor core architecture for image processor
GB2539958B (en) * 2015-07-03 2019-09-25 Advanced Risc Mach Ltd Data processing systems
US9779469B2 (en) * 2015-08-17 2017-10-03 Qualcomm Incorporated Register spill management for general purpose registers (GPRs)
US9830150B2 (en) 2015-12-04 2017-11-28 Google Llc Multi-functional execution lane for image processor
US10313641B2 (en) 2015-12-04 2019-06-04 Google Llc Shift register with reduced wiring complexity
GB2546308B (en) 2016-01-15 2019-04-03 Advanced Risc Mach Ltd Data processing systems
US10204396B2 (en) 2016-02-26 2019-02-12 Google Llc Compiler managed memory for image processor
US10387988B2 (en) * 2016-02-26 2019-08-20 Google Llc Compiler techniques for mapping program code to a high performance, power efficient, programmable image processing hardware platform
US10380969B2 (en) 2016-02-28 2019-08-13 Google Llc Macro I/O unit for image processor
US10552934B2 (en) * 2016-07-01 2020-02-04 Intel Corporation Reducing memory latency in graphics operations
US10546211B2 (en) 2016-07-01 2020-01-28 Google Llc Convolutional neural network on programmable two dimensional image processor
US20180007302A1 (en) 2016-07-01 2018-01-04 Google Inc. Block Operations For An Image Processor Having A Two-Dimensional Execution Lane Array and A Two-Dimensional Shift Register
US20180005346A1 (en) 2016-07-01 2018-01-04 Google Inc. Core Processes For Block Operations On An Image Processor Having A Two-Dimensional Execution Lane Array and A Two-Dimensional Shift Register
US20180005059A1 (en) 2016-07-01 2018-01-04 Google Inc. Statistics Operations On Two Dimensional Image Processor
US10033482B2 (en) * 2016-08-03 2018-07-24 Samsung Electronics Co., Ltd System and method for providing interference parameter estimation for multi-input multi-output (MIMO) communication system
US10073783B2 (en) * 2016-11-23 2018-09-11 Advanced Micro Devices, Inc. Dual mode local data store
US10223822B2 (en) * 2016-12-22 2019-03-05 Apple Inc. Mid-render compute for graphics processing
US10580104B2 (en) * 2017-04-17 2020-03-03 Intel Corporation Read/write modes for reducing power consumption in graphics processing units
US10922258B2 (en) * 2017-12-22 2021-02-16 Alibaba Group Holding Limited Centralized-distributed mixed organization of shared memory for neural network processing
GB2578932B (en) 2019-02-14 2021-02-24 Imagination Tech Ltd Allocation of memory
US11029954B2 (en) * 2019-04-22 2021-06-08 Samsung Electronics Co., Ltd. Per-lane dynamic indexing in temporary registers
US11449339B2 (en) * 2019-09-27 2022-09-20 Red Hat, Inc. Memory barrier elision for multi-threaded workloads
US10891708B1 (en) 2019-11-25 2021-01-12 Arm Limited Shader program execution in graphics processing
US11829439B2 (en) * 2019-12-30 2023-11-28 Qualcomm Incorporated Methods and apparatus to perform matrix multiplication in a streaming processor
US11361400B1 (en) 2021-05-06 2022-06-14 Arm Limited Full tile primitives in tile-based graphics processing
US20230069890A1 (en) * 2021-09-03 2023-03-09 Advanced Micro Devices, Inc. Processing device and method of sharing storage between cache memory, local data storage and register files
CN117132450B (zh) * 2023-10-24 2024-02-20 芯动微电子科技(武汉)有限公司 一种可实现数据共享的计算装置和图形处理器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010743A1 (en) 1998-12-03 2005-01-13 Sun Microsystems, Inc. Multiple-thread processor for threaded software applications
US20070079079A1 (en) 2005-09-30 2007-04-05 Xiao-Feng Li Apparatus, systems and methods to reduce access to shared data storage

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0509055A4 (en) * 1990-01-05 1994-07-27 Maspar Computer Corp Parallel processor memory system
US5388206A (en) * 1992-11-13 1995-02-07 The University Of North Carolina Architecture and apparatus for image generation
JPH06332700A (ja) * 1993-05-25 1994-12-02 Matsushita Electric Ind Co Ltd 情報処理装置
US5655132A (en) * 1994-08-08 1997-08-05 Rockwell International Corporation Register file with multi-tasking support
US6331856B1 (en) * 1995-11-22 2001-12-18 Nintendo Co., Ltd. Video game system with coprocessor providing high speed efficient 3D graphics and digital audio signal processing
JPH09198361A (ja) 1996-01-23 1997-07-31 Kofu Nippon Denki Kk マルチプロセッサシステム
JP3923574B2 (ja) * 1996-12-02 2007-06-06 株式会社日立製作所 並列データ処理機能を備えた検査装置及び検査方法
US6449699B2 (en) * 1999-03-29 2002-09-10 International Business Machines Corporation Apparatus and method for partitioned memory protection in cache coherent symmetric multiprocessor systems
GB2374442B (en) * 2001-02-14 2005-03-23 Clearspeed Technology Ltd Method for controlling the order of datagrams
JP2003030047A (ja) * 2001-07-16 2003-01-31 Fujitsu Ltd キャッシュ装置およびキャッシュ方法
US7120651B2 (en) * 2003-08-01 2006-10-10 Oracle International Corporation Maintaining a shared cache that has partitions allocated among multiple nodes and a data-to-partition mapping
JP4699685B2 (ja) * 2003-08-21 2011-06-15 パナソニック株式会社 信号処理装置及びそれを用いた電子機器
JP2005189975A (ja) * 2003-12-24 2005-07-14 Toshiba Corp 画像処理装置、画像処理方法およびプログラム
US20050251649A1 (en) * 2004-04-23 2005-11-10 Sony Computer Entertainment Inc. Methods and apparatus for address map optimization on a multi-scalar extension
US7634621B1 (en) * 2004-07-13 2009-12-15 Nvidia Corporation Register file allocation
GB2417105B (en) * 2004-08-13 2008-04-09 Clearspeed Technology Plc Processor memory system
US7522168B2 (en) * 2005-09-27 2009-04-21 Sony Computer Entertainment Inc. Cell processor task and data management
US8316220B2 (en) * 2005-09-27 2012-11-20 Sony Computer Entertainment Inc. Operating processors over a network
US7750915B1 (en) * 2005-12-19 2010-07-06 Nvidia Corporation Concurrent access of data elements stored across multiple banks in a shared memory resource
US7970956B2 (en) * 2006-03-27 2011-06-28 Ati Technologies, Inc. Graphics-processing system and method of broadcasting write requests to multiple graphics devices
US8081184B1 (en) * 2006-05-05 2011-12-20 Nvidia Corporation Pixel shader program thread assembly
US8108872B1 (en) * 2006-10-23 2012-01-31 Nvidia Corporation Thread-type-based resource allocation in a multithreaded processor
US20080109795A1 (en) * 2006-11-02 2008-05-08 Nvidia Corporation C/c++ language extensions for general-purpose graphics processing unit
US8108659B1 (en) * 2006-11-03 2012-01-31 Nvidia Corporation Controlling access to memory resources shared among parallel synchronizable threads
US7940261B2 (en) * 2007-01-10 2011-05-10 Qualcomm Incorporated Automatic load balancing of a 3D graphics pipeline
US8248422B2 (en) * 2008-01-18 2012-08-21 International Business Machines Corporation Efficient texture processing of pixel groups with SIMD execution unit

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010743A1 (en) 1998-12-03 2005-01-13 Sun Microsystems, Inc. Multiple-thread processor for threaded software applications
US20070079079A1 (en) 2005-09-30 2007-04-05 Xiao-Feng Li Apparatus, systems and methods to reduce access to shared data storage

Also Published As

Publication number Publication date
US20090300621A1 (en) 2009-12-03
EP2289001A1 (en) 2011-03-02
US10140123B2 (en) 2018-11-27
KR20110015439A (ko) 2011-02-15
EP2289001B1 (en) 2018-07-25
EP3413206B1 (en) 2020-10-28
CN102047241A (zh) 2011-05-04
CN102047241B (zh) 2014-03-12
JP2011522325A (ja) 2011-07-28
JP5461533B2 (ja) 2014-04-02
EP3413206A1 (en) 2018-12-12
US20170212757A1 (en) 2017-07-27
EP2289001A4 (en) 2012-12-05
WO2009145917A1 (en) 2009-12-03
US9619428B2 (en) 2017-04-11

Similar Documents

Publication Publication Date Title
KR101474478B1 (ko) 로컬 및 글로벌 데이터 공유
US11775802B2 (en) Neural processor
CN107657581B (zh) 一种卷积神经网络cnn硬件加速器及加速方法
TWI748151B (zh) 神經網絡計算加速器及其執行的方法
CN106991011B (zh) 基于cpu多线程与gpu多粒度并行及协同优化的方法
CN108171317B (zh) 一种基于soc的数据复用卷积神经网络加速器
CN111667051A (zh) 适用边缘设备的神经网络加速器及神经网络加速计算方法
US20070294514A1 (en) Picture Processing Engine and Picture Processing System
CA2742586C (en) System, data structure, and method for simultaneously retrieving multi-dimensional data with zero data contention
EP2380139A1 (en) Display list control stream grouping in tile based 3d computer graphics system
CN111028360B (zh) 一种3d图像处理中数据读写方法及系统、存储介质及终端
CN116010299B (zh) 一种数据处理方法、装置、设备及可读存储介质
KR20170005031A (ko) 타일 기반의 렌더링 gpu 아키텍처를 위한 임의의 타일 형상을 갖는 적응적 파티션 메커니즘
CN109964244B (zh) 用于图形处理的本地图像块
EP3217289A2 (en) System and method for preventing cache contention
CN114830082B (zh) 从多个寄存器中选择的simd操作数排列
CN101895676B (zh) 一种适用于bm3d实时处理的集合方法
CN106484532B (zh) 面向sph流体模拟的gpgpu并行计算方法
CN113313247A (zh) 基于数据流架构的稀疏神经网络的运算方法
US20190042312A1 (en) Hardware resource allocation system
Shang et al. LACS: A high-computational-efficiency accelerator for CNNs
CN118012628B (zh) 一种数据处理方法、装置和存储介质
CN105453066A (zh) 处理器和存储器控制方法
US20230305807A1 (en) Core group memory processsing with mac reuse
CN116360672A (zh) 访问存储器的方法、装置和电子设备

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 5