본문 바로가기
아이와 함께 크는 AI 경제

"학습보단 추론!" 엔비디아는 왜 ASIC 스타트업 Grop에 200억 달러를 썼나?

by 금융맘맘 2026. 2. 18.

AI 반도체 시장에서 학습용 GPU의 절대 강자였던 엔비디아가 추론 전용 칩 스타트업 Groq에 손을 뻗었습니다. 이번 인수는 단순한 기업 확장이 아니라, AI 칩 시장이 학습에서 추론으로 무게중심을 옮기고 있음을 상징하는 전략적 신호입니다. HBM 없이 SRAM만으로 초당 500개 단어를 쏟아내는 Groq의 LPU 기술은, 엔비디아가 왜 지금 이 순간 200억 달러를 투자했는지를 명확히 보여줍니다.

 

엔비디아 GPU의 HBM 메모리 구조와 그로크 LPU의 SRAM 아키텍쳐를 비교한 추론용 AI 반도체 기술 시각화

엔비디아가 Groq을 인수한 이유와 추론칩 시장의 패러다임 전환

엔비디아의 Groq 인수는 CNBC를 통해 처음 알려졌지만, 공식 발표는 M&A가 아닌 기술 라이선스 계약 형태로 이루어진 것으로 보입니다. Groq의 법인은 독립 회사로 존속하며, 엔비디아는 핵심 기술과 엔지니어를 확보하는 방식입니다. 이는 현대자동차가 포티투닷을 인수한 방식과 유사한 구조로, 반독점 리스크를 피하면서도 핵심 역량을 흡수하는 전략입니다. Groq은 2016년 구글 TPU를 설계했던 조나단 로스가 설립한 스타트업으로, 추론 전용 칩인 LPU(Language Processing Unit)를 개발해왔습니다. Groq 클라우드에서 제공하는 서비스는 GPT-121년짜리 모델이나 Gemini Maverick 같은 대형 모델을 초당 400~500개 단어 수준으로 처리합니다. 이는 기존 GPU 기반 추론 속도와 비교해 압도적으로 빠른 성능입니다. 엔비디아가 이 시점에 Groq을 인수한 배경에는 구글의 TPU 공세와 추론칩 시장의 급성장이 있습니다. 학습용 GPU 시장에서의 지배력만으로는 더 이상 충분하지 않으며, 추론 시장에서의 경쟁력 확보가 필수적입니다. 특히 엔비디아는 NVL 72, NVL 144 같은 대규모 GPU 클러스터에서 발생하는 레이턴시와 동기화 문제를 해결해야 하는데, Groq의 결정론적 아키텍처 설계 철학이 이를 해결하는 열쇠가 될 수 있습니다.

구분 GPU (엔비디아) LPU (Groq)
메모리 구조 HBM + L1/L2 캐시 SRAM 전용
주요 용도 학습 + 추론 범용 추론 특화
레이턴시 가변적 결정론적 (거의 없음)
추론 속도 일반적 초당 400~500 단어

이번 인수는 단순히 경쟁사를 제거하는 것이 아니라, 엔비디아가 추론 시장에서 ASIC(주문형 반도체)과 NPU(신경망처리장치)의 도전에 대응하기 위한 필수적인 전략입니다. 데이터센터 운영 비용이 폭증하는 상황에서, 모든 연산을 비싼 GPU로 처리하던 시대는 끝났으며, 특정 작업만 효율적으로 수행하는 전용 칩의 중요성이 커지고 있습니다.

SRAM 기반 LPU 기술의 혁신과 HBM 병목 해결

Groq의 LPU가 초당 500개 단어를 쏟아낼 수 있는 비결은 SRAM 기반의 독특한 메모리 아키텍처에 있습니다. 기존 GPU나 TPU는 HBM(High Bandwidth Memory) 또는 LPDDR을 사용해 병렬 연산을 수행합니다. 이들은 자주 사용하는 데이터를 L1, L2 캐시 같은 SRAM에 저장하고, 나머지는 HBM에서 불러오는 방식입니다. 문제는 HBM과 캐시를 왔다 갔다 하면서 발생하는 메모리 병목 현상입니다. 반면 Groq의 LPU는 HBM을 아예 사용하지 않고, 웨이퍼 위에 직접 SRAM을 대량으로 새겨 넣습니다. 캐시라는 개념이 존재하지 않으며, 모든 메모리가 SRAM으로 작동합니다. 이는 마치 캐시만으로 구성된 시스템과 같습니다. SRAM은 프로세서와 같은 웨이퍼에서 직접 제조되기 때문에, 별도의 패키징 과정 없이 프로세서 옆에 바로 배치됩니다. 이로 인해 메모리 접근 속도가 극대화되고, 레이턴시가 거의 없는 결정론적 실행이 가능합니다. 개발자는 SRAM의 정확한 주소와 타이밍을 알고 있기 때문에, 특정 위치에 있는 가중치(weight)나 활성화 함수를 바로 불러올 수 있습니다. GPU처럼 동적으로 메모리를 할당하고 캐시와 DRAM을 왔다 갔다 하는 과정이 필요 없습니다. 이는 추론 성능을 항상 일정하게 유지할 수 있도록 하며, 실시간 애플리케이션에 특화된 구조입니다. 하지만 SRAM은 DRAM보다 면적을 많이 차지하고 비용이 높습니다. 칩 사이즈가 커지면 웨이퍼 한 장당 생산되는 칩 개수가 줄어들고, 수율도 낮아집니다. 따라서 LPU는 성능은 뛰어나지만 가격이 비싼 구조입니다. 이는 범용 칩보다는 특정 애플리케이션에 특화된 ASIC 방식에 가깝습니다. 엔비디아가 Groq의 기술을 라이선스한 이유는 바로 이 SRAM 중심의 설계 철학을 흡수하기 위해서입니다. 엔비디아의 NVL 72나 NVL 144 같은 대규모 GPU 클러스터는 여러 렉(rack)을 NVLink 스위치와 InfiniBand로 연결합니다. 하지만 이 과정에서 발생하는 열 문제와 레이턴시 문제, 그리고 전체 시스템을 하나의 컴퓨터처럼 동기화하는 코히런스 타임(coherence time) 유지가 핵심 과제입니다. Groq의 결정론적 아키텍처 경험은 이러한 문제를 해결하는 데 중요한 단서를 제공합니다.

추론 시장의 미래와 엔비디아의 전략적 대응

AI 칩 시장은 이제 학습(training)에서 추론(inference)으로 무게중심이 이동하고 있습니다. 학습은 한 번만 수행하면 되지만, 추론은 수억 명의 사용자가 실시간으로 요청하는 작업입니다. 따라서 추론칩 시장의 규모는 학습칩 시장을 훨씬 초과할 것으로 예상됩니다. 엔비디아는 이를 잘 알고 있으며, Rubin, CPX 같은 추론 전용 칩을 개발하고 있습니다. 엔비디아의 CPX는 HBM 대신 GDDR을 사용해 비용을 낮추고, 언어 모델의 프리필(prefill) 단계와 디코드(decode) 단계를 분리해 처리합니다. 프리필은 입력 전체를 한 번에 처리하는 단계이고, 디코드는 토큰을 하나씩 생성하는 단계입니다. 이를 분리하면 각 단계에 최적화된 칩을 사용할 수 있어 효율성이 높아집니다. Groq의 LPU는 이러한 추론 최적화를 한 단계 더 발전시킨 형태입니다. 한 덩어리를 컴파일해 놓고 추론 전용으로 계속 사용하는 구조이기 때문에, 애플리케이션이 특정화될수록 성능이 극대화됩니다. 실행 시간도 예측 가능하므로, 다음 작업을 미리 스케줄링할 수 있습니다. 이는 실시간 대화형 AI나 자율주행차 같은 지연 시간에 민감한 애플리케이션에 적합합니다. 엔비디아는 Groq의 기술 라이선스를 통해 SRAM 오프로딩 기술과 코히런스 타임 최적화 기법을 흡수할 것입니다. 이는 Hopper 아키텍처나 Blackwell 아키텍처 내부의 SRAM 구조를 더욱 정교하게 설계하는 데 활용될 것입니다. 또한 CUDA 기반 라이브러리를 개선해 추론 성능을 극대화하는 데도 기여할 것입니다. AMD도 MI 450에서 렉 스케일 단위로 한 번에 처리할 수 있는 컴퓨팅 능력을 강조하고 있습니다. 이는 엔비디아와 같은 고민을 하고 있다는 뜻입니다. 구글의 TPU 공세도 계속되고 있습니다. 이러한 경쟁 구도 속에서 엔비디아는 Groq 인수를 통해 추론 시장의 주도권을 유지하려는 전략을 펼치고 있습니다. 결론적으로, 엔비디아의 Groq 인수는 AI 반도체 시장이 학습에서 추론으로 전환되는 시점에서 필연적인 선택이었습니다. HBM 병목을 피하고 SRAM 기반의 결정론적 아키텍처로 초고속 추론을 실현하는 Groq의 기술은, 엔비디아가 ASIC과 NPU의 도전을 정면 돌파하는 마지막 퍼즐입니다. 학습의 시대가 가고 추론의 시대가 오고 있으며, 엔비디아는 이번 인수를 통해 '가장 빠른 추론'이라는 새로운 경쟁 영역에서 우위를 확보하려 합니다.

자주 묻는 질문 (FAQ)

Q. Groq의 LPU는 GPU와 어떻게 다른가요?

A. LPU는 HBM 없이 SRAM만으로 구성되어 메모리 병목이 거의 없으며, 추론 전용으로 설계되어 초당 400~500개 단어를 처리할 수 있습니다. GPU는 학습과 추론 모두에 사용되는 범용 칩이지만, LPU는 추론에만 특화된 ASIC에 가깝습니다.

Q. 엔비디아가 Groq을 완전히 인수하지 않은 이유는 무엇인가요?

A. 반독점 리스크를 피하기 위해 기술 라이선스와 핵심 엔지니어 인수 방식을 선택한 것으로 보입니다. Groq 법인은 독립 회사로 존속하며, 엔비디아는 필요한 기술과 인력만 확보하는 전략입니다.

Q. SRAM 기반 칩이 비싼 이유는 무엇인가요?

A. SRAM은 웨이퍼에 직접 새겨 넣기 때문에 칩 면적을 많이 차지하고, 웨이퍼당 생산 가능한 칩 개수가 줄어듭니다. 또한 수율도 낮아져 최종 칩 가격이 높아집니다.

Q. 추론칩 시장이 학습칩 시장보다 클 것으로 예상되는 이유는 무엇인가요?

A. 학습은 모델을 한 번만 훈련하면 되지만, 추론은 수억 명의 사용자가 실시간으로 요청하는 작업이기 때문에 훨씬 큰 규모의 컴퓨팅 자원이 필요합니다. 따라서 추론칩 시장이 더 빠르게 성장할 것으로 전망됩니다.


[출처] 영상 제목/채널명: https://www.youtube.com/watch?v=WFp7DTNm3iM

댓글


소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 블로그 이름