IT소식

Tesla 인공 지능 D1 칩에 500억 개의 트랜지스터

피커 2021. 8. 24. 12:11
728x90
반응형

 Tesla는 인공 지능 훈련을 정복하기 위해 설계된 D1 Dojo 칩에 500억 개의 트랜지스터를 가지고 있습니다.

 

인공 지능(AI)은 지난 몇 년 동안 널리 채택되었습니다.

많은 사람들이 알고 있듯이 전기 및 자율 주행 차량을 개발하는 회사인 Tesla에서 AI는 회사 비즈니스의 모든 측면에서 엄청난 가치를 가지고 있습니다.

Tesla는 AI 소프트웨어 워크로드를 가속화하기 위해 오늘 AI 교육용 D1 Dojo 맞춤형 ASIC(Application-Specific Integrated Circuit)을 발표했습니다.

 

현재 AI 워크로드용 ASIC을 구축하는 회사가 많이 있습니다.

수많은 신생 기업에서 Amazon, Baidu, Intel 및 NVIDIA와 같은 대기업에 이르기까지 모든 사람이 참여합니다.

그러나 모든 사람이 공식을 올바르게 이해하는 것은 아니며 모든 사람이 각 작업을 완벽하게 수행할 수 있는 것도 아닙니다.

이것이 Tesla가 AI 교육 목적으로 자체 ASIC을 개발하기로 선택한 이유입니다.

 

D1이라고 불리는 이 칩은 나중에 다양한 애플리케이션에 배포되는 Tesla HQ 내부에서 AI 모델을 훈련하는 데 사용되는 Dojo 슈퍼컴퓨터의 일부와 유사합니다.

D1 칩은 7nm 반도체 노드에서 단조된 TSMC의 제조 노력의 산물입니다.

500억 개 이상의 트랜지스터를 포장하는 이 칩은 645mm^2의 거대한 크기를 자랑합니다.

 

이 칩은 인상적인 성능을 제공하며 Tesla는 FP16/CFP8 정밀도에서 최대 362 TeraFLOP 또는 단정밀도 FP32 작업에서 약 22.6 TeraFLOP를 출력할 수 있다고 말합니다.

Tesla가 FP16 데이터 유형에 최적화하여 현재 컴퓨팅 성능의 선두주자인 Nvidia를 제치고 있습니다는 것은 분명합니다. Nvidia의 A100 Ampere GPU는 FP16 워크로드에서 "단" 312 TeraFLOP의 전력을 생산할 수 있으며 희소성으로 인해 최대 2배의 성능을 제공할 수 있습니다.

 

Tesla는 서로 연결되어 하나의 거대한 칩을 형성하는 기능 단위(FU) 메시를 구축했습니다.

각 FU에는 전치, 수집, 브로드캐스트 및 링크 순회를 위해 설계된 맞춤형 ISA가 있는 64비트 CPU가 포함되어 있습니다. CPU 디자인 자체는 4-와이드 스칼라 및 2-와이드 벡터 파이프라인이 있는 슈퍼스칼라 구현입니다.

FU가 SIMD(Single Instruction Multiple Data) 부동 소수점 및 정수 처리 요소를 위한 큰 블록으로 빌드되었음을 알 수 있습니다.

각 FU에는 자체 1.25MB 스크래치패드 SRAM 메모리가 있습니다.

 

FU 자체는 메시의 모든 방향에서 512GB/s 대역폭으로 BF16 또는 CFP8의 1 TeraFLOP, FP32의 64 GigaFLOP 계산을 수행할 수 있습니다.

메시는 단일 클록 주기에서만 FU를 통과하도록 설계되어 대기 시간을 줄이고 성능을 향상시킵니다.

반응형