Karpenter 3

RayCluster on EKS and Serving LLM Model

Amazon EKS(Elastic Kubernetes Service)는 AI/ML 워크로드를 운영하기에 적합한 환경을 제공합니다.이번 글에서는 DoEKS(Data on Amazon EKS) 프로젝트를 참고하여 EKS에서 AI/ML 모델을 운영하는 과정을 실습하였습니다.DoEKS는 EKS에서 확장 가능한 데이터 플랫폼을 구축하기 위한 도구 모음으로, Terraform 블루프린트 및 AWS CDK를 활용한 IaC(Infrastructure as Code) 템플릿, AI/ML 워크로드 실행을 위한 모범 사례, 성능 벤치마크 및 다양한 실습 예제를 제공합니다.본 실습의 목표는 다음과 같습니다. AI/ML 생태계 이해 – Amazon EKS에서 실행되는 AI/ML 도구 및 워크로드의 흐름을 이해합니다.EKS 기반..

Cloud Tech 2025.02.09

Karpenter 고려사항

Overview 카펜터에 대해 검색하면 여러 도입 사례를 확인할 수 있습니다. 도입 사례들을 참고하여 운영 고려사항들을 정리하겠습니다. 노드 자체 제어 기능 비활성화 Karpenter에서는 비용 감소화를 목적으로 노드를 자체 중단 제어합니다. 다만, 파드 레벨에서 라이프사이클이 적용되지 않은 상태라면 순단이 발생할 수 있습니다. 파드 종료 라이프사이클로 prestop 이나 PDB 을 설정하는 방법은 제니퍼소프트 테크 블로그 글을 참고해주세요. 다만, 상황에 따라 PDB와 라이프사이클 설정이 할 수 없는 상황이라면 중단 제어를 자체적으로 중지해야 합니다. 아래 NodePool annotation을 통해 중지 제어를 중지할 수 있습니다. 동일한 이유로 Drift 기능의 비활성화도 고려해야 합니다. Drift..

Cloud Tech 2024.04.07

Kubeflow로 보는 Karpenter

Overview MLOps 플랫폼 Kubeflow의 Karpenter 활용 사례를 참고하여 구성 원리를 알아보겠습니다. Karpenter, 카펜터 활용 사례를 확인하기 전 카펜터를 확인하겠습니다. 카펜터는 EC2 Fleet 기반의 클러스터 오토스케일러입니다. 다른 클러스터 오토스케일러인 CA(Cluster Autoscaler)와 특징을 비교하면 다음과 같습니다. CA(Cluster Autosclaer) Karpenter 노드 구성 서비스 EC2 Auto Scaling Group EC2 Fleet 노드 구성 관리 ASG가 노드 구성 Karpenter가 구성 주요 특징 - 단일 인스턴스 타입으로만 노드 그룹 구성 가능 - 노드 증감이 약 5분정도 소요됨(ASG를 통한 노드 검사 및 증설 요청) - 노드 그룹..

Cloud Tech 2024.04.07