DEV Community: Jinho Seo

NVIDIA CUDA Toolkit 12.8

Jinho Seo — Tue, 06 May 2025 12:03:57 +0000

CUDA(Compute Unified Device Architecture)는 여러분들도 잘 아시다시피, NVIDIA의 GPU를 활용해 병렬 계산을 수행할 수 있도록 해주는 프로그래밍 플랫폼을 말한다. 이에 우리는 최신 NVIDIA CUDA Toolkit 12.8에 대해 좀 더 알아보자.

1. NVIDIA CUDA Toolkit 12.8

고성능 GPU 가속 애플리케이션을 개발하기 위한 개발 환경을 제공함.
CUDA Toolkit을 사용하면 GPU 가속 임베디드 시스템, 데스크탑 워크스테이션, 엔터프라이즈 데이터 센터, 클라우드 기반 플랫폼, HPC 슈퍼컴퓨터에서 실행되는 응용 프로그램을 개발, 최적화 및 배포할 수 있음.
GPU 가속 라이브러리, 디버깅 및 최적화 도구, C/C++ 컴파일러, 응용 프로그램 배포를 위한 런타임 라이브러리가 포함되어 있음.
내장된 멀티 GPU 구성을 활용한 분산화 시킨 계산(distributed computations) 기능을 사용하여, 과학자와 연구원들은 단일 GPU 워크스테이션부터 수천 개의 GPU가 있는 클라우드 설치 환경까지 확장 가능한 응용 프로그램을 개발할 수 있음.

2. 주요 라이브러리

C/C++ Compiler, Visual Profiler
GPU-accelerated BLAS libary : GPU의 병렬 처리 능력을 활용하여 선형대수의 기본 연산(벡터 및 행렬 연산 등)을 고속으로 수행할 수 있도록 최적화된 BLAS (Basic Linear Algebra Subprograms) 함수들을 제공하는 라이브러리. ex) cuBLAS
GPU-accelerated FFT library : GPU의 병렬 처리 능력을 활용하여 고속 푸리에 변환(FFT, Fast Fourier Transform) 연산을 수행할 수 있도록 최적화된 라이브러리. ex) 신호 처리, 이미지 처리, 과학 및 공학 분야에서 주파수 분석, 필터링, 스펙트럼 분석
GPU-accelerated Sparse Matrix library(cuSPARSE) : GPU의 병렬 처리 능력을 활용하여 희소 행렬(sparse matrix) 연산을 효율적으로 수행할 수 있도록 최적화된 SW 라이브러리. ex) 고성능 컴퓨팅, 과학 계산, 머신러닝, 그래프 분석
- 희소 행렬은 대부분의 원소가 0인 행렬을 의미하며, 이러한 행렬에 대한 연산은 메모리 사용과 계산 효율성을 고려할 때 특별한 처리가 필요.
- CUDA 아키텍처 기반 GPU에서 희소 행렬-벡터 곱셈, 희소 행렬-행렬 곱셈 등과 같은 다양한 희소 행렬 연산을 빠르고 효율적으로 수행
  - GPU-accelerated RNG library(cuRand) : GPU의 병렬 처리 능력을 활용하여 난수(Random Number)를 빠르고 효율적으로 생성할 수 있도록 최적화된 소프트웨어. CUDA 아키텍처를 기반으로 하며, 다양한 난수 생성 알고리즘을 지원하여 GPU에서 직접 난수를 생성. ex) 대규모 데이터나 고성능 계산 환경, 고성능 컴퓨팅, 통계 시뮬레이션, 게임 개발, 보안 응용 프로그램

3. 주요 특징

1) 더 쉬운 애플리케이션 포팅
* 멀티 쓰레드 간의 GPU 공유
* 단일 호스트 스레드에서 시스템의 모든 GPU를 동시에 사용
* 시스템 메모리를 복사 없이 핀 고정(No-copy pinning), cudaMallocHost()보다 빠른 대안 제공
* C++의 new/delete 및 가상 함수 지원
* 인라인 PTX 어셈블리 지원
* sort, reduce 등 템플릿화된 성능 기본 기능을 제공하는 Thrust 라이브러리
* 이미지/비디오 처리를 위한 NPP(Nvidia Performance Primitives) 라이브러리
* 동일 크기/포맷 텍스처를 더 큰 크기와 높은 성능으로 다루기 위한 계층화 텍스처

2) 더 빠른 멀티 GPU 프로그래밍
* Unified Virtual Addressing
* Peer-to-Peer 커뮤니케이션용 GPUDirect v2.0 지원

3) 새로운 또는 향상된 개발 도구 지원
* NVIDIA Hopper 및 Ada Lovelace 아키텍처 지원
* ARM 서버 프로세서 지원
* 지연 모듈 및 커널 로딩(Lazy Module and Kernel Loading)
* 개편된 동적 병렬성 API(Dynamic Parallelism APIs)
* 개선된 CUDA 그래프 API, 성능 최적화된 라이브러리 및 새로운 개발자 도구 기능
* NVIDIA Hopper 아키텍처 지원 - 차세대 텐서 코어 및 트랜스포머 엔진, 고속 NVLink 스위치 시스템, 혼합 정밀도 모드, 2세대 다중 인스턴스 GPU(MIG), 고급 메모리 관리, 표준 C++/Fortran/Python 병렬 언어 구성 요소

4. CUDA 12 새 기능

Visual Profiler에서 자동화된 성능 분석
Linux와 MacOS용 CUDA-GDB에서의 C++ 디버깅
Fermi 아키텍처용 GPU 바이너리 디스어셈블러 (cuobjdump)
새로운 디버깅 및 프로파일링 기능을 갖춘 Parallel Nsight 2.0이 Windows 개발자용으로 이제 사용 가능함

5. 예제 소스

Visual Studio 2022 Community Edition + NVIDIA Nsight Visual Studio Edition 2025.1 버전에서 직접 프로그래밍을 해보고 테스트한 예제 소스 공개

1) HelloCuda
2) CheckDeviceMemory

6. CUDA 테크 블로그

PCIe란 무엇인가?

Jinho Seo — Tue, 06 May 2025 11:53:15 +0000

PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준을 뜻하며, 그래픽 카드(GPU), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데, 주요 특징과 활용 사례에 대해 알아보자.

1. PCIe의 주요 특징

1) 고속 데이터 전송
* 기존 PCI보다 훨씬 빠른 속도로 데이터를 전송
* PCIe 4.0(16GB/s), PCIe 5.0(32GB/s), PCIe 6.0(64GB/s) 지원

2) 확장성(Scalability)
* x1, x4, x8, x16 슬롯을 지원하여 다양한 장치를 연결 가능
* GPU는 PCIe x16 슬롯, NVMe SSD는 PCIe x4 슬롯 사용

3) 전력 효율성 증가
* 낮은 전력 소비로 데이터 전송 속도 극대화

4) 하위 호환성(Backward Compatibility)
* PCIe 5.0 슬롯에 PCIe 4.0, 3.0 장치 사용 가능

2. PCIe 버전별 속도 비교

PCIe 버전	Lane당 속도 (GB/s)	x4 속도	x8 속도	x16 속도
PCIe 3.0	1 GB/s	4 GB/s	8 GB/s	16 GB/s
PCIe 4.0	2 GB/s	8 GB/s	16 GB/s	32 GB/s
PCIe 5.0	4 GB/s	16 GB/s	32 GB/s	64 GB/s
PCIe 6.0	8 GB/s	32 GB/s	64 GB/s	128 GB/s

최신 AI 및 데이터센터용 GPU(H100, A100 등)는 PCIe 5.0 이상을 사용하여 대역폭을 극대화

3. PCIe 주요 활용 사례

그래픽 카드(GPU) – AI 및 게이밍에서 고속 연산 및 그래픽 처리
NVMe SSD – 초고속 저장 장치로 PCIe x4 슬롯 사용
네트워크 카드(NIC) – 10Gbps 이상 고속 네트워크 카드 연결
AI 및 데이터센터 – GPU, DPU, FPGA 등 초고속 연산 장치 연결

4. PCIe와 다른 인터페이스 비교

인터페이스	용도	속도 (최대)	주요 장점
PCIe	GPU, NVMe SSD	최대 128 GB/s	초고속 데이터 전송
SATA	HDD, 일부 SSD	최대 600 MB/s	낮은 비용, 범용성
USB	외장 스토리지, 주변기기	최대 40 Gbps (USB4)	연결 편의성
Thunderbolt	외장 GPU, 고속 데이터 전송	최대 40 Gbps	고속 데이터 전송

5. PCIe의 미래: PCIe 6.0 & PCIe 7.0

PCIe 6.0 : 128GB/s 속도 지원, AI, 머신러닝, 클라우드 데이터센터 최적화
PCIe 7.0(2027년 예상) : 256GB/s 속도 제공, 고성능 AI 및 양자컴퓨팅에 필수적

NVMe 스토리지는?

Jinho Seo — Tue, 06 May 2025 11:43:36 +0000

NVMe(Non-Volatile Memory Express) 스토리지는 고속 SSD(Solid State Drive) 인터페이스 및 프로토콜로, 기존 SATA(SATA SSD) 및 SAS(SAS SSD) 대비 훨씬 빠른 데이터 전송 속도와 낮은 지연시간(Latency)을 제공한다.

따라서, AI, HPC, 클라우드, 빅데이터 분석과 같은 고성능 연산 환경에서 필수적인 기술으로 NVIDIA의 GPU Direct Storage(GDS)와 결합하면, GPU가 데이터를 보다 빠르게 로딩해서 AI 훈련 및 데이터 분석 속도를 획기적으로 향상시킬 수 있다.

1. NVMe의 주요 특징

1) 초고속 데이터 전송 속도
* 기존 SATA SSD(600MB/s) 대비 최대 10배 이상 빠른 속도(최대 7GB/s 이상) 제공
* 병렬 데이터 전송을 활용해 수천 개의 큐(Queue) 및 수십만 개의 명령어(Command) 처리 가능

2) 낮은 지연속도(Latency) → 즉각적인 응답 속도
* 기존 SATA는 1개 큐(32개 명령어)만 처리 가능했지만, NVMe는 최대 64K(64,000개) 큐, 각 큐당 64K 명령어 처리 가능
* 데이터 요청 시간이 줄어들어 AI, HPC, DB 등의 실시간 응답성 증가

3) PCIe 인터페이스 사용
* 기존 SSD(SATA, SAS)보다 더 넓은 대역폭 제공
* 최신 NVMe SSD는 PCIe 4.0, 5.0 지원(최대 16GB/s 이상 대역폭)

4) 고성능 AI, HPC, 데이터센터에 최적화
* AI 학습 데이터 로딩, 데이터 분석, 금융 트랜잭션, 클라우드 서비스 등에 최적화됨
* NVIDIA GPUDirect Storage(GDS)와 함께 사용하면 GPU가 직접 NVMe SSD에서 데이터를 로드 가능

2. 기존 SSD(SATA, SAS)와의 차이점

특징	SATA SSD	SAS SSD	NVMe SSD
인터페이스	SATA	SAS	PCIe
최대 속도	최대 600 MB/s	최대 1.2 GB/s	7 GB/s ~ 16 GB/s
지연 시간	약 100 ~ 200 μs	약 50 ~ 100 μs	약 10 ~ 20 μs
큐 깊이	1큐 x 32개 명령어	1큐 x 256개 명령어	최대 64큐 x 64K 명령어 (병렬성 매우 높음)
적용 분야	일반 PC, 저성능 서버	엔터프라이즈 서버	AI, HPC, 고성능 데이터센터

NVMe는 AI 훈련, 데이터 분석, HPC, 클라우드 환경에 필수적인 고속 스토리지 기술
PCIe(Peripheral Component Interconnect Express)는 고속 데이터 전송을 위한 컴퓨터 확장 슬롯(인터페이스) 표준으로, 주로 GPU(그래픽 카드), NVMe SSD, 네트워크 카드(NIC), 사운드 카드 등의 고성능 하드웨어를 연결하는 데 사용됨

3. NVMe의 주요 활용 사례

1) AI 및 머신러닝 데이터 로딩
* 대규모 데이터셋을 빠르게 로딩하여 AI 모델 학습 속도 향상
* NVIDIA GPUDirect Storage를 통해 CPU를 거치지 않고 GPU가 직접 NVMe에서 데이터 로드 가능
2) 고성능 데이터 분석 및 빅데이터 처리
* SQL 데이터베이스, 실시간 로그 분석, NoSQL 시스템(MongoDB, Cassandra) 등에 사용
* 수십 테라바이트(TB)의 데이터도 초고속으로 처리 가능
3) 고성능 컴퓨팅(HPC) 및 슈퍼컴퓨터
* 유전체 분석, 금융 시뮬레이션, 물리학/화학 계산 등에 필수적인 저지연, 초고속 스토리지
4) 클라우드 및 데이터센터
* AWS, Google Cloud, Microsoft Azure 등 클라우드 서비스에서 표준 스토리지로 사용
* NVMe-oF(NVMe over Fabrics)를 활용하여 대규모 클러스터에서 네트워크 기반 NVMe 공유 가능

4. 최신 NVMe 기술 발전

1) PCIe 4.0 & PCIe 5.0 NVMe
* 최신 NVMe SSD는 PCIe 4.0(7GB/s), PCIe 5.0(16GB/s)까지 지원
* 초고속 AI 훈련 및 실시간 데이터 분석 가능
2) NVMe-oF (NVMe over Fabrics)
* 이더넷, Infiniband 등을 통해 NVMe 스토리지를 네트워크로 공유 가능
* 로컬 SSD처럼 사용 가능하며, AI 및 HPC 데이터센터에서 필수적인 기술
3) GPUDirect Storage(GDS)
* GPU가 CPU를 거치지 않고 직접 NVMe SSD에서 데이터를 읽어오는 기술
* AI 훈련 속도를 극대화하고, 데이터 로딩 병목 현상 해결

Infiniband vs. RoCE 비교

Jinho Seo — Tue, 06 May 2025 11:31:08 +0000

HPC&AI 고성능 네트워킹에서 NVIDIA의 인피니티밴드(Infiniband)과 RoCE(RDMA over Converged Ethernet) 기술은 양대 산맥으로 흔히 사용한다.

두 기술 모두 고속 네트워크 인터커넥트 기술로, 특히 HPC, AI, 머신러닝, 데이터센터에서 사용되는 기술인데, 이에 대해 좀 더 알아보자!

1. InfiniBand vs. RoCE 개요

항목	InfiniBand (IB)	RoCE (RDMA over Converged Ethernet)
기반 네트워크	InfiniBand 전용 네트워크	기존 이더넷 (Converged Ethernet)
RDMA 지원	네이티브 RDMA 지원	이더넷 상의 RDMA (RDMA over Ethernet)
네트워크 속도	최대 1,200Gbps (HDR, NDR, XDR)	최대 800Gbps (Ethernet 800G)
지연 시간	1µs 미만 (0.6~1.0µs)	약 1~2µs
품질 보장 (QoS)	크레딧 기반 흐름 제어 (Lossless 전송)	PFC (Priority-based Flow Control) 필요
확장성	대규모 HPC 클러스터에 적합	일반 데이터센터 환경에서 우수한 확장성
주요 사용처	HPC, AI, 슈퍼컴퓨터, 클라우드	데이터센터, AI 학습/추론, 금융, 스토리지

2. 주요 비교 분석
① 네트워크 기반

InfiniBand: Mellanox(NVIDIA)에서 주도하는 전용 네트워크 프로토콜로, 고성능과 낮은 지연 시간을 보장.
RoCE: 기존 이더넷 위에서 RDMA 기능을 구현하며, 스위치 및 기존 인프라 활용 가능.

② 성능 (Throughput & Latency)

InfiniBand: 일반적으로 RoCE보다 더 낮은 지연 시간과 높은 성능을 제공.
최신 NVIDIA Quantum-2 IB 스위치는 최대 400Gbps 속도를 지원하며, 지연 시간은 1μs 미만으로 낮음.
RoCE v2는 1~2μs 지연 시간이지만, 고속 이더넷(400GbE, 800GbE)이 등장하면서 성능 격차가 줄어듦.

③ QoS 및 신뢰성

InfiniBand: 크레딧 기반 흐름 제어(Flow Control)를 사용해 Lossless 전송을 보장.
RoCE: 이더넷 기반이므로 PFC(Priority Flow Control)과 ECN(Explicit Congestion Notification)을 활용하여 Lossless 환경을 구현해야 함.
- 네트워크 설정이 제대로 안 되면 패킷 손실이 발생할 수 있음.

④ 확장성 및 비용

InfiniBand: 별도의 네트워크 장비(스위치, NIC 등)가 필요하며, 구축 비용이 높음.
RoCE: 기존 이더넷 인프라에서 활용 가능하므로 비용이 낮고, 클라우드 및 데이터센터에 최적화됨.

⑤ 소프트웨어 및 호환성

InfiniBand: NVIDIA HPC-X, OpenMPI, Slurm, MLNX_OFED 등을 통해 HPC 환경에 최적화.
RoCE: NVMe-oF(Storage), AI 클러스터, 클라우드(NIC 직접 연결) 등에서 더 많이 사용됨.

3. 환경 분석

사용 사례	추천 솔루션
HPC, 슈퍼컴퓨터, AI 훈련 (LLM, GPT-4 등)	InfiniBand
데이터센터, 클라우드, 일반적인 AI/ML	RoCE
스토리지 (NVMe-oF, GPUDirect Storage)	RoCE v2
고성능 금융 애플리케이션 (Algorithm Trading, HFT 등)	InfiniBand (초저지연 필수)
기존 이더넷 인프라 활용	RoCE
데이터센터 내 멀티 테넌시 및 확장성 고려	RoCE

4. 결론

InfiniBand: 최고의 성능과 최소 지연 시간을 요구하는 AI, HPC, 금융, 슈퍼컴퓨터 등에 적합.
RoCE: 기존 이더넷 기반 데이터센터, 클라우드, AI/ML, 스토리지 환경에서 비용 효율적이고 확장성이 뛰어남.

결론적으로 말해서, HPC 및 초저지연이 중요한 환경이라면 InfiniBand, 기존 이더넷 인프라와의 통합을 원한다면 RoCE가 적합함.

지연(latency)에 대하여

Jinho Seo — Tue, 06 May 2025 11:17:43 +0000

앞서 RDMA에 대한 글을 적으며, 한 가지 '지연(latency)'에 대한 용어에 대해 좀 더 상세히 설명해야겠다는 생각이 들었다.

왜냐하면, 지연(latency)이란 데이터가 한 지점에서 다른 지점으로 이동하는 데 걸리는 시간을 말한다. 다시 말해, 네트워크나 시스템에서 요청(Request)이 전송된 순간부터 응답(Response)을 받을 때까지 걸리는 시간이다.

1. 네트워크에서 지연시간

데이터 패킷이 출발지에서 목적지까지 도달하는 데 걸리는 시간
예) 사용자가 웹사이트를 클릭했을 때, 웹페이지가 로드될 때까지 걸리는 시간
주요 원인: 1) 거리(Distance) → 데이터가 먼 거리까지 이동할수록 지연 증가 2) 라우팅(Routing) → 데이터가 여러 네트워크 장치를 거치면 지연 증가 3) 네트워크 혼잡(Congestion) → 트래픽이 많을수록 패킷이 지연됨 4) 대역폭 제한(Bandwidth Limit) → 낮은 대역폭에서는 데이터 전송 속도가 느려짐

지연 시간 요인	설명
전파 지연 (Propagation Delay)	신호가 물리적인 전송 매체(예: 광케이블, 구리선)를 따라 이동하는 데 걸리는 시간 (거리 영향)
전송 지연 (Transmission Delay)	데이터가 송신 측에서 네트워크를 통해 전송되는 데 걸리는 시간 (패킷 크기 및 대역폭 영향)
처리 지연 (Processing Delay)	라우터나 스위치에서 패킷을 수신하고 검사하며 적절한 경로로 전달하기 위한 처리 시간
큐잉 지연 (Queuing Delay)	네트워크 장비에서 처리 대기 중인 패킷이 대기열에 쌓이면서 발생하는 시간 (혼잡도 영향)

2. 컴퓨터 시스템에서 지연시간

CPU, 메모리, 스토리지, 네트워크 간 데이터 이동 속도 차이로 인해 발생하는 지연
주요 원인:
1) CPU와 RAM 간 데이터 전송 속도 차이
2) 하드 디스크(HDD) vs. 반도체 저장 장치(SSD)의 데이터 접근 속도 차이
3) GPU와 CPU 간 데이터 교환 속도

3. 데이터센터 & AI 환경에서의 지연시간

분산 학습(Distributed Training) 및 RDMA 네트워크에서 매우 중요한 요소 - GPU 간 데이터 교환 속도 좌우
예) 256개의 GPU가 동시에 데이터를 교환할 때 레이턴시가 높으면 전체 AI 학습 속도가 크게 저하됨
주요 원인:
1) 인터 GPU 통신(Inter-GPU Communication)의 최적화 부족
* 단일 서버 내에서 GPU 간 통신: NVIDIA의 NVLink, AMD의 Infinity Fabric, Intel의 Direct Connect 등으로 해결
* 서버 간 GPU 통신 (Cross-Node Communication): InfiniBand 또는 Ethernet 기반 RDMA(Remote Direct Memory Access) 사용
2) RDMA(Remote Direct Memory Access) 오버헤드
3) 케이블 길이가 길면 신호 전달 속도 저하
지연시간 최적화 방법
1) 네트워크 병목(Bottleneck) 제거 → Non-Blocking 네트워크 설계 적용
2) RoCE (RDMA over Converged Ethernet) 사용 → TCP보다 빠른 데이터 전송
3) NVIDIA GPUDirect 사용 → GPU 메모리 간 직접 전송 지원

4. 지연시간을 줄이는 방법

1) 일반 네트워크에서의 최적화
* 대역폭(Bandwidth) 증대 → 100G, 400G 고속 네트워크 사용
* 라우팅 최적화 → 네트워크 홉(Hop) 수를 줄여 데이터 이동 거리 단축
* QoS (Quality of Service) 적용 → 중요 트래픽을 우선 처리
3) HPC&AI 환경에서의 최적화
* RDMA 기반 네트워크 사용 (RoCE, InfiniBand)
* NVLink/NVSwitch 같은 GPU 전용 네트워크 활용
* 스파인-리프(Spine-Leaf) 네트워크 설계로 병목 제거

5. 결론

지연은 AI 및 데이터센터에서 가장 중요한 요소 중 하나 -> 네트워크 및 시스템 성능을 결정하는 핵심 지표
AI 및 HPC 환경에서는 낮은 저지연(low latency)가 필수ㄹ
네트워크 설계(Network Topology), RDMA 기술, 케이블 배선 최적화를 통해 최소화해야 함

RDMA에 대하여

Jinho Seo — Tue, 06 May 2025 11:04:31 +0000

RDMA(Remote Direct Memory Access)는 네트워크를 통해 서버 간에 CPU 개입 없이 메모리를 직접 읽고 쓰는 기술이다. 주로 고성능 컴퓨팅(HPC), 대규모 데이터 처리, AI/ML 분산 학습 환경 등에서 낮은 지연 시간과 높은 대역폭을 제공하기 때문에 많이 사용한다.

1. RDMA의 기본 개념

일반적인 네트워크 통신 방식에서는 데이터를 전송하려면 CPU가 메모리에서 데이터를 읽고, 네트워크 인터페이스 카드(NIC)로 복사한다.

이 복사한 데이터를 네트워크를 통해 데이터를 보내고, 수신 측에서도 CPU가 데이터를 NIC에서 메모리로 복사한다. 이 과정에서 CPU, 커널, 복사 작업 등이 개입되어 지연(latency)과 CPU 오버헤드가 큰 현상이 발생한다.

반면, RDMA는, CPU나 운영체제(OS) 커널의 개입 없이, 원격 시스템의 메모리에 직접 읽기(read) 또는 쓰기(write) 작업을 수행한다. 다시 말해, 데이터가 직접 메모리에서 메모리로 이동한다.

2. RDMA가 동작하는 방식

(1) 메모리 등록 (Memory Registration)

송신자와 수신자 모두 RDMA NIC(HCA: Host Channel Adapter)를 사용함.
RDMA를 사용하기 위해서는 사용할 메모리 영역을 등록(pinning)해야 함. 이 과정에서 해당 메모리는 물리 메모리에 고정되고 커널이 RDMA NIC에 메모리 주소를 알려줌.

(2) Queue Pair 생성

RDMA 통신은 QP(Queue Pair)라는 구조를 통해 이루어짐.
QP는 Send Queue와 Receive Queue로 구성되어 있고, 이를 통해 명령을 주고 받는다.

(3) 통신 방식

RDMA Write/Read는 zero-copy 방식이며, 데이터가 사용자 공간 메모리에서 사용자 공간 메모리로 직접 이동함.

통신 방식	설명
RDMA Write	송신자가 수신자의 메모리에 데이터를 씀
RDMA Read	송신자가 수신자의 메모리에서 데이터를 읽음
Send/Receive	일반적인 메시지 송수신. 수신자는 명시적으로 Receive를 호출해야 함

3. RDMA의 장점

낮은 지연 시간: 커널과 CPU를 우회하므로 지연이 매우 낮음
높은 처리량: zero-copy 방식과 직접 메모리 접근으로 대역폭이 높음
낮은 CPU 사용률: CPU가 복사 작업에서 해방되어 다른 작업에 집중 가능
스케일 아웃에 유리: HPC, AI 분산 학습 등에 적합

4. RDMA를 사용하려면?

RDMA 지원 네트워크 카드 (예: Mellanox ConnectX)
RDMA 지원 네트워크 (예: InfiniBand, RoCE(RDMA over Converged Ethernet))
RDMA를 지원하는 라이브러리 및 소프트웨어
- Verbs API, libibverbs
- MPI(MVAPICH, OpenMPI with UCX)
- NVIDIA NCCL (분산 학습 시 RDMA 지원)
- GDS (GPUDirect Storage와 연계 가능)

5. RDMA와 관련된 주요 기술

기술	설명
RoCE	RDMA를 이더넷에서 사용하게 해주는 기술 (L2 또는 L3)
InfiniBand	고성능 RDMA 전용 네트워크 프로토콜
GPUDirect RDMA	GPU 메모리 간 직접 통신 지원
GDS (GPUDirect Storage)	RDMA를 통해 스토리지에서 GPU로 직접 데이터 전송

6. RDMA가 AI 분산 학습에서 성능을 높이는 이유

1) CPU 개입 없이 GPU 메모리 간 직접 통신 가능 (Zero-Copy)

RDMA는 CPU와 OS 커널을 거치지 않고, 한 노드의 GPU 메모리에서 다른 노드의 GPU 메모리로 직접 데이터 전송이 가능함.
이를 NVIDIA GPUDirect RDMA라고 하며, 학습 시 자주 발생하는 all-reduce, broadcast, scatter 연산의 성능을 획기적으로 향상시킴.

2) 낮은 지연(Low Latency)

일반 TCP/IP 스택보다 수십~수백 배 낮은 지연을 제공함 (μs 수준).
이는 딥러닝 학습 시 step 간 통신 대기 시간을 줄이는 데 매우 효과적.

3) 높은 대역폭(High Throughput)

InfiniBand나 RoCE를 사용하는 RDMA는 100Gbps~400Gbps까지 지원 가능.
파라미터 싱크(sync)나 gradient all-reduce처럼 대량의 데이터를 빠르게 교환해야 하는 상황에서 필수적.

7. 실제 프레임워크 적용 사례

📌 예1) PyTorch Distributed + NCCL

torch.distributed에서 backend로 nccl을 설정하고, underlying transport로 RDMA가 적용된 InfiniBand를 사용하면 AllReduce 성능이 수 배 향상.
NCCL은 RDMA를 통해 direct GPU-GPU communication을 지원.

📌 예2) DeepSpeed ZeRO-2 / ZeRO-3

수십억~수천억 파라미터 모델의 학습에서는 각 노드가 다른 노드의 optimizer state, gradient, parameter shard를 가져와야 함.
이 때 RDMA 없이 일반 TCP를 쓰면 통신 대기 시간이 너무 커짐 → 학습 속도 병목.
RDMA를 사용하면 state sharding 간의 통신 지연을 줄여 전체 학습 속도 향상.

8. 벤치마크 예시 (NVIDIA A100 8-GPU, 2노드 기준)

RDMA 적용 시 최대 2배 이상 성능 향상 가능

통신 방식	ResNet50 Training Speed (images/sec)
TCP/IP over Ethernet	25,000
RoCEv2 (RDMA over Converged Ethernet)	42,000
InfiniBand + GPUDirect RDMA	58,000

9. 사용 조건

구성 요소	필요 내용
HCA (NIC)	Mellanox ConnectX 시리즈, RDMA 지원
네트워크	InfiniBand, RoCEv2, NVLink Switch (for intra-node)
소프트웨어	libibverbs, OFED driver, NCCL with RDMA support
프레임워크	PyTorch DDP, TensorFlow Horovod, DeepSpeed, Megatron-LM 등

10. 결론

RDMA는 고성능 AI 분산 학습의 핵심 인프라 기술이다. 특히, GPU 간 통신이 병목이 되는 LLM, ViT, MoE 계열 모델 학습에서 통신 지연을 획기적으로 줄여 전체 학습 시간을 단축시켜 주는 효과가 있다.

NVIDIA Agentic AI 전략

Jinho Seo — Tue, 06 May 2025 10:29:55 +0000

세계 가전쇼(CES) 2025의 NVIDIA 키노트 중에서 에이전틱 AI에 대해 스쳐 지나 갔는 데, 구체적으로 어떤 내용인지 궁금해서 조사해보았다. 더욱이 요즘은 생성형 AI 분야에서는 RAG(Retrieval-Augmented Generation)를 넘어서 에이전틱 AI(Agentic AI)로 트렌드가 빠르게 넘어가고 있다.

에이전틱 AI(Agentic AI)란 한마디로 말해서, 인간의 개입 없이도 목표 지향적으로 문제를 인식하고, 복잡한 작업을 계획 및 수행하며, 그 과정에서 학습과 적응을 반복할 수 있는 자율적 인공지능 시스템을 말할 수 있다.

단순히 명령을 수행하는 생성형 AI를 넘어, 스스로 목표를 이해하고, 계획을 수립하며, 적절한 도구를 선택하고 실행하는 자율적 인공지능 시스템을 의미한다. 이 AI는 상황에 따라 판단을 내리고, 변화하는 조건에 유연하게 대응하며, 학습을 통해 점점 더 나은 결정을 내릴 수 있도록 설계되어 있다.

1. Agentic AI의 핵심 개념

인식(Perceive): 센서, 데이터베이스, 디지털 인터페이스 등 다양한 출처에서 데이터를 수집하고 처리함.
추론(Reason): 대규모 언어 모델(LLM)을 활용하여 작업을 이해하고 솔루션을 생성하며, 콘텐츠 제작, 비전 처리, 추천 시스템 등 특정 기능을 위한 전문 모델을 조율함.
행동(Act): API를 통해 외부 도구 및 소프트웨어와 통합하여 수립한 계획에 따라 작업을 신속하게 실행함.
학습(Learn): 피드백 루프를 통해 상호작용에서 생성된 데이터를 시스템에 공급하여 모델을 지속적으로 개선함.

2. NVIDIA의 Agentic AI 생태계

NVIDIA는 에이전틱 AI를 구현하기 위해 다양한 도구와 플랫폼을 다음과 같이 제공한다.

NVIDIA NIM (Inference Microservices): 사전 훈련된 AI 모델을 최적화된 컨테이너 형태로 제공하여, 빠른 배포와 확장을 가능하게 해 주는 서비스.
NVIDIA NeMo: 맞춤형 생성형 AI 애플리케이션을 개발할 수 있는 마이크로서비스를 제공함.
NVIDIA 블루프린트(Blueprints): 디지털 휴먼, 멀티모달 검색 증강 생성(RAG) 등 다양한 생성형 AI 사용 사례를 위한 참조 애플리케이션을 제공함.

3. 에이전틱 AI의 활용 사례
에이전틱 AI는 다양한 산업 분야에서 다음과 같이 활용되고 있다.

고객 서비스: AI 에이전트가 셀프 서비스 기능을 강화하고 일상적인 커뮤니케이션을 자동화하여 고객 지원을 개선함.
사이버 보안: 에이전틱 AI는 위협 탐지 및 대응을 자동화하여 보안 운영 센터의 효율성을 높임.
의료 및 과학 연구: 데이터 분석과 복잡한 문제 해결을 위한 도구로 활용되어, 예를 들어 환자 데이터를 분석하여 개인화된 치료법을 제안함.

4. 결론
NVIDIA의 에이전틱 AI는 자율적인 판단과 행동을 통해 복잡한 문제를 해결하는 차세대 인공지능으로, 다양한 산업 분야에서 혁신을 주도하고 있다. 이를 통해 기업은 생산성과 효율성을 높이고, 새로운 비즈니스 기회를 창출할 수 있다.

5. 참고

CES 2025 에서 발표한 NVIDIA 키노트 주요 정리

Jinho Seo — Tue, 06 May 2025 07:12:59 +0000

CES 2025 - NVIDIA Keynote 발표에서 공개된 기술 및 프레임워크 주요 노트

<개발자 테크 블로그>

<오픈 소스>

<비즈니스 자료>

Toyota, Aurora 및 Continental이 차세대 고도 자동화 및 자율주행 차량 군을 출시하는 NVIDIA 파트너에 합류 - NVIDIA DRIVE의 채택이 글로벌 자동차 생태계로 확산됨.
NVIDIA가 Generative Physical AI로 Omniverse를 확장함
NVIDIA가 Physical AI 개발을 가속화하기 위해 Cosmos World Foundation Model 플랫폼 출시
NVIDIA and Partners Launch Agentic AI Blueprints to Automate Work for Every Enterprise - 개발자들은 NVIDIA NIM microservice, NVIDIA NeMo 및 주요 공급업체의 Agentic AI 프레임워크를 포함한 새로운 NVIDIA AI Blueprints를 통해 사고하고, 계획하며, 실행할 수 있는 맞춤형 AI 에이전트를 구축하고 배포할 수 있음.
NVIDIA Cosmos - 세계적인 파운데이션 모델을 통해 Physical AI 개발을 가속화함.

<참고 자료>

LLM 훈련/추론 시 총 메모리 크기는?

Jinho Seo — Tue, 06 May 2025 07:05:39 +0000

국내 기업들을 방문해서 AI 인프라 관련 분들을 만나면, 가장 많이 물어보는 질문들 중 하나가 LLM 추론 시 메모리 크기는 얼마나 되는 것인 가이다. 아무래도내부에 가진 서버를 그대로 사용할 것인가? 아니면 신규로 서버를 구매할 것인가?에 대해 LLM을 동작 시킬 때 총 메모리 용량이 얼마나 되는 지 궁금해서 일 것이다.

예를 들어, meta-llama/Meta-Llama-3-8B-Instruct에서 훈련(Training) 또는 추론(Inference)할 때, Tensor Type으로 BF16 이면 메모리 크기는 얼마이며, 몇 장의 GPU를 사용해야 하는가에 대해 묻는다면, 어떻게 답변을 해야 하는지 알아 볼 것이다

1. Meta-Llama-3-8B-Instruct에서 훈련 시 메모리 크기 및 GPU 장수는?

메모리 사용량 개략적 계산 = (모델 파라미터 * 2) + 파라미터의 2 - 3배
- BF16(bfloat16)은 FP16과 마찬가지로 16비트 정밀도를 사용하므로, 기본적으로 모델 파라미터*자체가 차지하는 메모리는 FP16 대비 큰 차이가 없음.
- AdamW 와 같은 옵티마이저 상태나 그래디언트, 중간 활성화 (activations) 등으로 인해 실제 요구되는 메모리는 2~3배 가량 될 수 있음.
- 계산식: (16 * 2) + (16GB * 2 or 16GB * 3) = 32GB + (32 or 48 )GB = 64 or 80 GB
BF16 타입으로 풀 파인튜닝(Full fine-tuning)시
- 단일 GPU으로는 최소 40GB 이상, 안정적인 배치 크기 확보를 위해서는 A100/H100 80GB급이 1장이 권장
- 80GB H100 1장으로 분산 학습을 활용해도 충분히 학습이 가능함.

2. Meta-Llama-3-8B-Instruct에서 추론 시 메모리 크기 및 GPU 장수는?

메모리 사용량
- 모델 파라미터
- 매개변수(Parameter) 수: 약 80억(8B)
- BF16(2바이트)로 저장 시: 8 Billion × 2 Bytes≈16 GB
- 추가 메모리(오버헤드)
- 추론 시 활성화(Activation)와 캐시(cache) 등이 필요하지만, 학습보다는 훨씬 적은 양의 메모리를 사용함.
- 프롬프트 길이(문맥 길이), 배치 크기에 따라 달라지나, 일반적으로 수GB 정도의 여유가 필요함. 보통 안전하게 20GB 전후의 GPU 메모리가 권장.
- AdamW 와 같은 옵티마이저 상태나 그래디언트, 중간 활성화 (activations) 등으로 인해 실제 요구되는 메모리는 2~3배 가량 될 수 있음.
- 단일 GPU에서 BF16 추론을 원활하게 수행하려면, 대략 20GB 이상의 VRAM을 갖춘 GPU가 필요함.
- 예: 24GB급(예: RTX 3090, RTX 4090, A6000) 이상이면 단일 GPU로 충분히 가능
- 만약 16GB급 GPU에서 시도한다면,
- 컨텍스트 길이나 동시 추론(batch) 크기를 작게 조정하거나,
- 8비트/4비트 양자화(quantization) 같은 기법을 추가로 활용해야 할 수 있음.
권장 GPU 수
- 1장으로도 충분히 추론이 가능하지만,
- 여러 배치 요청이나 긴 시퀀스, 다양한 파이프라인 처리를 동시에 해야 한다면, 여러 장의 GPU를 사용하는 멀티 GPU 환경(예: 데이터 병렬)을 구성할 수 있음.
결론
- 보통은 8B급 모델에서는 성능(처리 속도)을 높이기 위해서 여러 장을 쓰기보다는 단일 고용량 GPU(예: 24GB+) 한 장을 사용하는 경우가 많음.

3. 필요 구성 요소

BF16 지원 GPU
- 모델 파라미터
- Ampere 아키텍처(A100, RTX 3090, RTX 4090 등) 또는 Hopper(H100), Ada Lovelace(RTX 6000 Ada) 계열 이상 권장
- 구형 GPU(V100, T4 등)는 BF16 지원이 제한적이거나 성능이 떨어질 수 있음
추론 프레임워크 및 라이브러리
- PyTorch(최신 버전), Transformers(Hugging Face)
- 모델 로딩 시 torch.bfloat16 또는 auto_dtype="bf16" 형태로 설정하여 BF16 추론 활성화
소프트웨어/환경 설정
- CUDA와 PyTorch 버전이 해당 GPU와 호환되어야 함
- BF16 연산을 지원하도록 프레임워크 및 드라이버 세팅 필요
- 가능하다면 Docker 또는 Conda 환경을 통해 의존성 버전 고정 및 재현성 확보
모델 파일
- meta-llama/Meta-Llama-3-8B-Instruct 모델 가중치(Weights)
- 모델 아키텍처를 불러오고 BF16 모드로 변환할 수 있는 스크립트(Transformers 예시 등)

4. 정리

메모리: BF16 상태에서 모델 자체가 약 16GB, 추가 오버헤드 감안 시 20GB 이상 권장
GPU 수: 단일 24GB급 GPU 1장으로도 추론이 가능함
필요 요소:
- BF16 연산이 가능한 Ampere급 이상 GPU
- PyTorch, Transformers 등 BF16 지원 라이브러리
- CUDA/드라이버 호환 환경
- meta-llama/Meta-Llama-3-8B-Instruct 모델 가중치 및 로딩 스크립트

오픈 소스와 오픈 웨이트의 차이점

Jinho Seo — Tue, 06 May 2025 06:51:45 +0000

흔히 IT 관련 미디어를 보면, 메타 라마가 오픈소스라고 많이 적혀져 있다. 물론 이것은 메타가 그렇게 주장하고 있지만, 정통 인공지능 개발자들 사이에서는 이러한 메타 라마가 오픈소스인가 아닌가에 대한 개념 논쟁이 많이 벌어졌다. 이게 무슨 말이냐고 하면, 100% 풀 오픈 소스냐? 아니면 가중치만 공개한 모델이냐? 에 대한 논쟁이다.

우리가 흔히 오픈소스(OpenSource)라고 하는 말은, 누구나 자유롭게 활용, 수정, 재배포할 수 있는 라이선스”라는 의미로 쓰인다. 실제로는 OSI(Open Source Initiative)가 공인한 라이선스인지, 아니면 사용 제한 조항(예: 비영리 사용만 가능 등)이 있는 “준(準)오픈소스” 형태인지를 구분해야 한다. 그렇다면, 이에 대해 한 번 알아보자!

현재 LLM 중에서 OSI가 승인한 오픈소스 라이선스는 다음과 같다.

1. EleutherAI 계열

종류: GPT-Neo 시리즈, GPT-J-6B**, GPT-NeoX-20B, Pythia 등
라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
특징
- 학습 코드와 모델 가중치를 공개
- 상업적 이용, 2차 재배포, 파생 모델 작성 모두 가능

2. MosaicML MPT-7B (Base)

라이선스: 보통 Apache-2.0 또는 MIT (둘 다 OSI 승인)
특징
- “Base” 체크포인트는 완전한 오픈소스
- 단, “Instruct”나 “Storywriter” 버전은 상업적 이용/2차 저작 제한이 있는 별도 라이선스(MPL)를 적용하므로 주의

3. Dolly 2.0 (Databricks)

라이선스: CC-BY-SA-3.0 (또는 CC-BY-SA-4.0) 계열 + 모델 가중치에 대한 Databricks 에서 자체 공지
다만, Databricks 측에서 “상업적 활용 가능”을 포함해 공개했기 때문에, 사실상 오픈소스에 준하는 수준으로 많이 간주됨.

4. OpenLLaMa

라이선스: Apache-2.0 (OSI 승인)
특징
- Meta의 LLaMA 아키텍처를 참조해 독자적으로 학습한 모델
- 원본 LLaMA는 비상용(non-commercial) 라이선스지만, OpenLLaMA는 전 과정을 공개해 제약 없이 활용 가능

그렇다면, 오픈 레일(RAIL), 즉, 오픈 라이선스(Open License)라고 부르는 가중치만 공개하는 준 오픈소스 모델(오픈웨이트 모델)은 다음과 같다.

1. BLOOM (BigScience)

라이선스: RAIL(Responsible AI License) 변형
특징
- 학계 및 연구 커뮤니티에 자유롭게 제공
- 특정 사용 사례(악의적 목적) 제한 등 추가 조항 존재
- OSI 표준 오픈소스 라이선스는 아님

2. StarCoder/SantaCoder (BigCode)

라이선스: StarCoder License(오픈 RAIL 기반)
특징
- 모델 활용은 가능하나, 일부 사용 제한을 두는 준오픈소스
- 연구 목적, 비영리 등에는 자유롭지만, 상업적 활용 시 주의

3. Falcon (Technology Innovation Institute)

라이선스: TII Falcon License (Custom)
특징
- 비영리 사용은 자유롭지만, 상업적 사용 시 별도 조항
- 오픈소스(OSI 인증)로 인정되지는 않음

4. LLaMA 계열 (Meta)

라이선스: 연구용 비공개 라이선스

결론

OSI 표준 오픈소스 라이선스(예: Apache 2.0, MIT) 로 완전히 공개된 LLM 예시는 아래와 같음
- EleutherAI: GPT-Neo(125M~2.7B 등), GPT-J(6B), GPT-NeoX(20B), Pythia 시리즈
- MPT-7B Base (MosaicML)
- OpenLLaMA (나비야AI, OpenLLaMA 프로젝트 등)
- (약간의 변칙이 있지만) Dolly 2.0(Databricks)도 상업적 활용 포함 넓게 공개되어 “오픈소스에 준한다”고 종종 언급됨
RAIL, TII License 등으로 배포되는 모델들은 일부 사용 제한이 있기 때문에, "오픈소스”라고 부르기엔 다소 애매"한 부분이 있음
- 예: BLOOM, StarCoder, Falcon 등
Meta LLaMA 계열은 공식적으로 완전한 오픈소스 라이선스를 적용하지 않았음.
- LLaMA 계열(Alpaca, Vicuna 등)은 “연구 목적 비공개 라이선스”(비상업용)로 배포로 "오픈소스"로 분류할 수 없음. 오픈 가중치(Weight)만 공개함.
- 공개 레포지토리에 올려두더라도, 저작권 이슈 상 “CC-BY-NC 4.0” 등 제약적 라이선스 표기를 많이 사용

벡터와 텐서의 차이점은?

Jinho Seo — Tue, 06 May 2025 04:26:16 +0000

고객 방문 세미나를 하면, 가끔 기본적인 질문을 하는 분들이 있다. 벡터와 텐서의 차이점에 대해 무엇이냐고?

이것에 대한 답변은 인공지능을 처음 배울 때 나오는 내용이다. 특히, 머신러닝모델에서는 다차원 공간 이상의 텐서로 구성으로 되어 있고 텐서들끼리 연산하기 때문이다. 물론 벡터(Vector)와 텐서(Tensor)는 둘 다 선형대수학 및 물리학 등에서 다루는 중요한 대상이지만, 머신러닝 분야에서 그 쓰임새는 약간 다르다.

1. 벡터

정의
- 보통 1차원 배열 형태로 나타내며, 스칼라(실수, 복소수 등) 원소들이 일렬로 나열된 수열.
- 예: 3차원 실수 벡터 v=(v1,v2,v3)\mathbf{v} = (v_1, v_2, v_3)
특징
- 물리적 관점: “길이(크기)와 방향”을 갖는 양으로도 해석
- 벡터 공간(vector space)에서 덧셈, 스칼라배 연산 등이 정의됨
- 차원이 nn인 벡터 공간에 속하는 원소를 nn-차원 벡터라 함.
활용 예
- 머신러닝에서 입력, 가중치, 임베딩을 표현할 때
- 2차원/3차원 물리적 위치, 힘, 속도 등

2. 텐서

정의
- 다차원 배열(n차원 배열)로 일반화할 수 있으며, 다양한 좌표계에서 선형 변환의 규칙에 따라 변환되는 기하학적 객체.
- 수학적으로 “(다중)선형 사상”을 좌표화한 것이 텐서이기도 함.
차원에 따른 예시
- 0차 텐서: 스칼라(scalar)
- 1차 텐서: 벡터(vector)
- 2차 텐서: 행렬(matrix)
- 3차 이상: 일반 다차원 배열(예: 이미지 batch × 채널 × 높이 × 너비 등)
특징
- 각 축(axis)이 물리학이나 수학적으로 의미 있는 좌표, 지표(index)를 가질 수 있다.
- 다양한 연산(텐서 곱, 텐서 전치 등)이 정의되며, 머신러닝 라이브러리에서 “텐서 연산”은 행렬 곱 이상의 고차원 연산을 포괄한다.
- 물리학(일반상대론, 전자기학)에서 응력 텐서, 장(Field) 표현 등으로 쓰이고, 딥러닝에서 입력·출력·가중치·중간 피처 모두 텐서 구조로 저장 및 연산한다.

3. 차이점

구분	벡터(Vector)	텐서(Tensor)
차원의 일반성	1차원 배열 (예: $[1, 2, 3]$) → “1차 텐서”로도 분류됨	0차(스칼라), 1차(벡터), 2차(행렬), 3차 이상(ND 배열) 모두 포함
수학적 정의	Rn 벡터 공간에서의 원소 → 단순한 방향성과 크기를 갖는 1차 구조	좌표계 변환 시 특정 규칙을 따르는 다중선형 사상 (multilinear map) → 고차원 관계와 구조 표현 가능
사용 맥락	- 기하학적 방향·크기 - ML의 피처 벡터 - 선형회귀의 가중치 등	- 딥러닝의 모든 입출력 데이터 - CNN의 이미지(4D) - RNN의 시퀀스 - 응력/변형률 텐서 등
예시 (차원)	[5.0,3.2,1.2] → shape: (3,)	스칼라: 7 → shape: () 행렬: [[1,2],[3,4]] → shape: (2,2) 이미지: (32, 32, 3)
프레임워크 내 사용	대부분의 벡터는 numpy, torch 등에서 1차 텐서로 간주됨	PyTorch, TensorFlow 등에서는 모든 데이터를 "텐서"로 표현함

요약

벡터는 텐서 개념에서 1차원에 해당하는 특수한 경우다.
텐서는 0차원(스칼라), 1차원(벡터), 2차원(행렬), 더 나아가 임의 차원의 다차원 배열까지 포괄하는 보다 일반적인 개념이다.
물리학·수학적으로 텐서는 좌표계 변환 규칙을 정의하는 다중선형 사상이며, 벡터는 그 특수한 한 형태(1차)에 해당한다.

첫 글을 시작하면서...

Jinho Seo — Tue, 06 May 2025 04:10:42 +0000

친구들, 안녕하세요?

우연찮게 아는 분 블로그 들어갔다가 Dev.to 를 알게 되었고, 한번 테스트해 보았는 데, 저의 마음에 들어서 앞으로 여기에 글들을 올려 보도록 하겠습니다. 또한, 그동안 Github 에서 올려 놨던 저의 글들을 하나 씩 옮겨 정리해보고자 합니다.

요즘 저의 관심사는 초거대 언어 모델(LLM)과 같은 인공지능 소프트웨어 분야 뿐만 아니라, NVIDIA의 고성능 컴퓨팅(HPC) 및 AI 인프라스트럭처입니다. 하루 하루 끊임없이 저도 이 분야에서 공부를 해나가는 데, 그동안 제가 느껴왔던 인사이트, 핸즈 온 랩 자료와 실습 코드, 오픈소스, 논문, 최신 트렌드 등을 함께 공유하고자 합니다.

앞으로 많은 팔로우를 해주었으면 감사하겠습니다.