AWS

data pipeline 구축을 위한 AWS 인프라 설정

  • -
728x90

현업자 분께서 언어를 파고드는 것도 중요하지만 초보자가 공부하는 입장에서 datapipeline의 전체적인 흐름을 먼저 공부하라고 하셨다. 따라서 작지만 사이드 프로젝트로 AWS를 이용한 파이프라인 구축을 위해 인프라를 설정하고자 한다. 

 

1. VPC 생성

먼저 VPC를 생성한다. 이름은 원하는 대로 설정을 해주 'vpc등'을 통해 한번에 네트워크가지 연결이 가능하나 처음이기 때문에 VPC만 생성해주도록 한다. 생성 후에는 vpc설정 편집에 들어가DNS 호스트 이름 활설화를 선택해준다.

 

2. subnet 생성 & 라우팅테이블 생성

서브넷을 생성해준다. 먼저 생성한 VPC를 선택해주고, 서브넥이름을 작성하는데 보통 가용영역의 마지막 영어가 들어간다. 또한,

IPv4 CIDR블록은 VPC의 CIDR 블록의 첫 두 숫자만 같고 나머지는 알아서 설정해주도록 한다.

라우팅 테이블은 그냥 VPC와 연결만 신경써서 생성해주면 된다. 그 후 라우팅테이블의 서브넷 연결 편집을 통해 생성한 서브넷과 라우팅에이블을 연결해준다.

 

3. 인터넷 게이트웨이(igw)생성 후 vpc와 연결

제목이 곧 내용이다, 단순히 생성 후 생성 과정에서 연결하고자 하는 vpc에 연결해주면 된다. 그 후 라우팅 테이블에서 라우팅 편집으로 넘어가 인터넷 게이트 웨이를 연결해준다.이렇게 하면 라우팅 정보가 로컬에 있는 트레픽을 인터넷으로 전달할 수 있도록 설정이된다.

 

4. 보안 그룹 설정

보안그룹은 리소스 레벨에서 인바운드와 아웃바운드 트레픽을 통제할 수 있도록 도와준다. 보안그룹 생성 시 vpc정보에 해당하는 vpc의 아이디를 넣어준다. 인바운드 규칙은 인단 모든 트레픽에 두고 아웃바운드 규칙은 생략하고 넘어간다.

 

 

5. IAM 생성 

IAM은 AWS 리소스에 대한 엑세스 관리를 할 수 있는 정책이다. 정책을 설정해주어야 하는데 그룹은 당장은 생성해줄 필요는 없고 사용자를 생성하여 원하는 정책에 맞게 정책을 추가 해주면 된다. 나는 모든 권한을 가진 관리자이기 때문에  AdministratorAcess 하는 정책을 설정해주었다.

 

6. AWS CLI 설치

본격적인 실습에 앞서 CLI를 다음 링크에서 설치해주었다.

https://docs.aws.amazon.com/ko_kr/cli/latest/userguide/getting-started-install.html 

 

 

 

다음 포스팅은 glue를 이용한 데이터 파이프라인을 만들어보자 일단 데이터는 AWS 기본 dataset인 newyork taxi 정보 데이터를 가져와 전처리 하였고 파티셔닝 하기위해 Spark로 데이터를 만져놨다. 관련 github 주소는 다음 게시물!

 

 

728x90

'AWS' 카테고리의 다른 글

SSH로 EC2 인스턴스 접속하기  (0) 2023.07.30
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.