일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- dropout
- 우분투
- 강화학습
- 알고리즘
- VAE
- 백준
- 베이지안
- DATA
- 빅데이터
- Crawling
- 코딩테스트
- 크롤링
- bayesian
- 데이터분석
- YarinGal
- PYTHON
- selenium
- 파이썬
- uncertainty
- 텍스트마이닝
- pandas
- pytorch
- Graph
- 논문리뷰
- R
- AI
- 텍스트분석
- 불확실성
- 리눅스
- GNN
- Today
- Total
끄적거림
[GCP] 데이터 엔지니어링 - 02.버킷(Bucket) 만들기 본문
GCP(Google Cloud Platform)에서는 여러가지 서비스를 제공한다.
그 중 가장 많이 사용하는 것은 클라우드 형태의 DB이다.
기존의 아마존(AWS)이 사실 가장 대표적이고 강력한 클라우드 서비스르 제공하지만 그럼에도 불구하고 GCP를 사용하는 것은 아마도 접근하기 쉽다는 것에 있다.
본 글은 GCP 안에 있는 서비스 중 다음과 같은 순서로 데이터 엔지니어링(여기서 말하는 데이터 엔지니어링은 storage를 만들고 api로 자동으로 storage에 적재한 다음, 이 작업을 스케쥴링하여 자동으로 쌓일 수 있는 과정을 의미한다.)을 작업하려 한다.
01. 프로젝트(project) 만들기 - 2020/02/26 - [Google] - [GCP] 데이터 엔지니어링 - 01.프로젝트(project) 만들기
02. 버킷 만들기
03. 스케쥴링 만들기
04. 스토리지(Storage) 만들어 API와 연동하기
05. BigQuery로 연동하여 데이터 추출하기
GCP를 이용하기 위해선 당연히 구글 계정이 있어야 한다. 구글 계정 생성은 skip~
1. 왼쪽의 메뉴바에서 저장소 - Storage를 클릭한다.
2. 버킷 만들기 버튼을 클릭한다.
3. 순차적으로 옵션을 선택한다.
이름 지정 가이드라인을 준수하여 이름을 설정한다.
데이터를 보관하는 가장 기본적인 rule은 여러 지역에 데이터를 다중으로 저장시켜두는 것이다. 이것은 보안과도 관련이 있고, 만약 특정 한 지역에 데이터를 저장시켰다면 물리적 데이터 저장소가 화재나 각종 재난으로 인해 파괴되면 데이터를 복구하기 힘들기 때문이다.
DB회사 중 가장 유명한 Oracle도 3배분 원칙을 기본으로 두고 있다.
아쉽게도 한국의 region은 없는 상황.. 그나마 가까운 곳이 일본 그 다음으로 홍콩이다.
구글이 전의 step들에서 선택한 것을 바탕으로 자동으로 추천해준다.
모든 설정이 끝나면 "만들기" 버튼을 눌러 버킷을 생성한다.
4. 하위 구조 생성
그림과 같이 전체 test_public_data라는 버킷 안에 계층적(hierarchy) 구조를 만들 것이다.
- 주제별 폴더 : 주제에 맞는 공공데이터를 담을 생각이다.
- Common
- log : 각 API들이 진행되고 떨어지는 그 과정 동안에 발생하는 로그를 저장할 생각이다.
- meta : 각 주제 및 데이터 테이블에 필요한 메타 정보를 담을 생각이다.
만드는 방법은 "폴더 생성"이라는 버튼을 클릭하여 손쉽게 만들 수 있다.
'Google' 카테고리의 다른 글
[GCP] 파이썬에서 빅쿼리 사용하기 Bigquery in python (0) | 2020.06.22 |
---|---|
[GCP] 데이터 엔지니어링 - 03.스케쥴링 만들기 (3) | 2020.03.01 |
[GCP] 데이터 엔지니어링 - 01.프로젝트(project) 만들기 (0) | 2020.02.26 |