카카오테크 부트캠프/프로젝트

클라우드 도입 근거

bubhyun 2025. 4. 23. 17:39
728x90

☁️ 왜 클라우드 환경을 사용하나요?

서비스 초기에는 직접 물리 서버를 구성하거나 남는 서버 자원을 임시로 빌려 쓰는 방식을 활용해 운영하는 것도 하나의 선택지였습니다.

우리 팀 역시 프로젝트 초기에 수작업 빌드와 배포를 반복하며 클라우드의 필요성에 대해 고민했습니다.

1. 예측 불가능한 상황에 유연하게 대응

  • 트래픽 급증, AI 추론 요청 집중 등 변수에 대응하기 위해 빠른 확장 필요
  • 온프레미스 대비 인프라 확장/수정이 유연

2. 자율적인 인프라 제어가 어려운 외부 환경

  • 외부 VPS/지인 서버는 보안, 리소스, 네트워크 설정에 제약
  • GPU 활용 및 권한 제어가 필요한 AI 처리에 부적합

3. 비용 효율적

  • AWS 부트캠프 크레딧(약 100만 원) + GCP 무료 크레딧(약 43만 원)
  • 물리 서버보다 실험 친화적이고 저렴

🌐 왜 AWS + GCP 멀티클라우드를 도입했나요?

서비스 초기, 비용 효율성과 실험 유연성을 동시에 확보하기 위해 AWS와 GCP를 병행 활용하는 멀티클라우드 전략을 채택했습니다.

이는 각각의 클라우드에서 제공하는 크레딧, 지원 정책, 기술 스택의 특징을 비교 분석한 결과로, 다음과 같은 이유에 기반합니다.

1. 비용 크레딧을 최대한 활용

  • AWS에서는 카카오테크 부트캠프를 통해 약 100만 원 상당의 크레딧이 제공되어, 안정적인 인프라 구성이 가능했습니다.
  • GCP의 경우 신규 가입자에게 $300(약 43만 원) 상당의 무료 크레딧이 지급되어, 고비용 연산 작업(AI 추론 등)에 보완적으로 활용할 수 있었습니다.
  • 참고로 Azure 역시 $200 크레딧을 제공하지만 1개월 제한으로 인해, GCP에 비해 지속적인 실험에는 적합하지 않다고 판단했습니다.

2. 클라우드별 역할 분리

  • AWS는 고정 자원 기반 운영에 적합한 서비스들을 배치했습니다.
    • EC2:
    • Route 53: 도메인 발급과 함께 ACM 인증서 설정이 용이하고, 호스팅 이전이 불필요. GCP에서 도메인을 발급받으면 3개월 이후에는 비용이 발생할 뿐만 아니라 매번 호스팅 이전이 필요
    • S3: 추후 CloudFront와 연계하여 정적 파일 관리 및 조회 비용 최적화 가능. GCP의 Cloud Storage를 활용하면 초기에는 GCP 내부망 업로드 등의 이점을 얻을 수 있지만, 장기적으로 볼 때 AWS로 마이그레이션 시 상당한 전송 비용이 발생
  • GCP에서는 AI 모델 추론 API 운영 향후 데이터 분석 플랫폼 확장을 고려하여 인프라를 구성하고자 합니다.
    • AI 모델 추론용 API 서버: 무료 크레딧을 통해 GPU 인스턴스 할당이 용이하며, 단기간 실험 후 자원을 해제할 수 있어 비용 효율적인 운영이 가능합니다.
    • BigQuery & Vertex AI: 추론 결과, 로그, 사용자 피드백 데이터를 기반으로 BigQuery를 통해 대용량 분석을 수행할 예정입니다. 그리고 모델 재학습 및 버전 관리를 위해 Vertex AI 기반의 ML 파이프라인 도입도 검토 중입니다.

 

728x90