시작하며
2023년 4월 한국금융연수원에서 진행된 클라우드 데이터 인프라 과정의 첫째 날 내용이다. 클라우드의 핵심 개념인 프로그래머블 리소스 관리부터 GPU 서버 아키텍처, 클라우드 워크로드 유형, Modern Data Platform까지 폭넓게 다루었다.

본 강의 내용
Story 1. Cloud, A programmable Resource Management
A programmable Resource Management- programmable : Virtualization, Automation
- Elastic (Scale-out)
- Available (HA)
- Resilient (회복성)
- Resource : computing, Network, PaaS, DB … → service
- Management : platform
DevOps : 기존에는 개발과 운영에 주안점이 있었다면 요즘은… DevSecOps → AIDevSecOps → MLOps → NoOps … FinOps : 관리비용 최적화(안 쓸 때는 끄는 등 최소과금 형태로 관리)
향후 AWS는 부채가 심하고 서비스가 너무 세분화되어 있다는 평가가 있다. Azure는 아직까지 워크로드가 AWS로부터 많이 넘어오지 않은 상황이다.
Story 2. NVIDIA DGX Server - A100 GPU
GPU와 GPU 간의 메모리 참조 속도를 높이는 방법에 대해 NVIDIA는 RDMA라는 새로운 프로토콜을 정의했다. 네트워크 카드를 이용해 메모리 참조 속도를 높여 상호 참조 속도를 향상시킨다.
- 이를 구현하려면 네트워크 대역폭이 충분해야 한다. InfiniBand와 RoCE 인터페이스를 사용하면 RDMA를 구현할 수 있으며, 이는 Mellanox(NVIDIA 자회사)가 보유한 기술이다.
각 클라우드 업체의 HPC 구성 방식:
- Oracle : RoCE로 HPC를 구성
- Azure : InfiniBand로 HPC를 구성
- AWS : 자체 개발한 방식으로 HPC를 구성
결국 NVIDIA 입장에서는 AWS가 선호 옵션에서 밀려나고 있는 상황이다.
Story 3. Cloud WorkLoad
-
Micro Service → 클라우드로 전이하기 위해서는 Cloud Native화가 필요하다. 클라우드 업체가 추천하는 형태로, 워크로드는 대부분 아래 3개 서비스로 이동하고 있다.
- VirtualMachine (VM) → EC2 : 일반적인 가상화 형태
- Kubernetes (Tanzu, RedShift) : 컨테이너 단위로 관리하므로 리소스를 더 잘게 나누어 사용할 수 있다. Vendor Lock-in이 거의 없고 AWS, Oracle, Azure 등이 공통으로 서비스를 제공한다.
- Serverless (Amazon Lambda) : 사용자가 관리할 서버가 없다는 의미
-
Lift & Shift → 온프레미스에서 그대로 클라우드로 이전하는 방식으로, 클라우드 업체가 권장하지 않는 형태이다.
IaC와 인프라 관리
InfraStructure as a Code → IaC ⇒ Terraform(HashiCorp), Ansible(RedHat) → 문서로서 버전을 관리한다.
Region 내 AZ에서 DataCenter는 한국의 경우 SKT, KT, LG, 삼성 등의 데이터센터에 colocation 형태로 구성된다. DB에도 OLTP, OLAP가 있는 것처럼 목적에 맞는 형태의 서비스를 선택해야 한다.
Object Storage (S3)
- HDFS (Pure Storage) : 파일을 잘라 저장하고, 이에 대한 메타 정보를 보관한다.
- S3 (Object Storage) : 파일 크기, 포맷에 관계없이 잘게 쪼갠 단위(object)를 저장한다.
- 완전 관리형 클라우드 스토리지 서비스
DataMesh
- Kafka, CDC(관계형 데이터베이스에서 데이터 변화가 일어나면 캡처) 등을 통해 여러 On-premise, Multi-Cloud로부터 한 곳으로 데이터를 모은다. : data-pipeline
Security Group vs NACL
Security Group은 인스턴스 레벨에서 stateful하게 동작하고, NACL은 서브넷 레벨에서 stateless하게 동작한다.
Modern Data Platform
Data Warehouse | Data Lake | Data Fabric | Data Lakehouse | Data Mesh | Big Data
Data Warehouse : OLTP(Online Transaction Processing) → (ETL) → ODS(Operational Data Store / Raw Data) → (ETL) → DW(Data Warehouse)
Data Warehouse(실시간성 강화) : OLTP → (OGG: Oracle Golden Gate - CDC를 이용해서 빠르게 ODS로 적재) → ODS → (Micro-ETL: 짧게 돌린다) → DW
Data Warehouse(RealTime DW) : OLTP → (OGG: Oracle Golden Gate) → ExaData(ODS, DW, SQL Based Micro ETL / Raw Data): ODS와 DW가 합쳐진 형태
Star Schema(중앙집중식으로 여러 테이블에서 데이터를 모아서 중앙화)가 모이면 SnowFlake라고 한다.
ETL & E-LT : Transform하는 곳이 Load하는 서버에 함께 있으면 E-LT, 따로 떨어져 있으면 ETL이다.
실습. VPC에 Public, Private Subnet 구성하고 Internet Gateway
1. VPC 생성
- (vpc-kbi-0127) / 10.0.0.0/16
2. Subnet 생성
- (vpc-kbi-0127-public-subnet-01) / 10.0.0.0/24 -> public-subnet 자동할당 IP 설정
- (kbi-0127-private-subnet-01) / 10.0.1.0/24
3. Internet Gateway 생성
- (vpc-kbi-0127-igw) -> attach to vpc
4. Route Table 생성
- (vpc-kbi-0127-public-rt, vpc-kbi-0127-private-rt)
5. Subnet 연결
- (vpc-kbi-0127-public-rt -> associate -> public subnet-01)
- (vpc-kbi-0127-private-rt -> associate -> private subnet-01)
6. IGW ROUTE 설정
- (vpc-kbi-0127-public-rt -> route -> add route(anywhere -> igw))
7. NACL 생성 (kbi-0127-nacl) -> inbound rule 추가
- (100,200,300/HTTP,HTTPS,SSH), outbound rule 추가 (100/TCP allow 1024-65535)정리하며
클라우드의 핵심은 프로그래머블한 리소스 관리이며, 이를 통해 탄력성(Elastic), 가용성(HA), 회복성(Resilient)을 확보한다. 워크로드 유형에 따라 VM, Kubernetes, Serverless 중 적합한 방식을 선택하는 것이 중요하고, Modern Data Platform의 발전 방향은 실시간 데이터 처리와 데이터 레이크하우스 구조로 수렴하고 있다. VPC 실습을 통해 Public/Private Subnet 분리와 IGW 라우팅 구성의 기초를 익혔다.