일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 빅데이터
- 강화학습
- AI
- pytorch
- Crawling
- 크롤링
- uncertainty
- 우분투
- bayesian
- 코딩테스트
- 텍스트분석
- GNN
- YarinGal
- selenium
- 백준
- 데이터분석
- 파이썬
- 리눅스
- dropout
- DATA
- 논문리뷰
- R
- VAE
- PYTHON
- 베이지안
- Graph
- 불확실성
- 텍스트마이닝
- 알고리즘
- pandas
- Today
- Total
목록R (21)
끄적거림
pySpark를 공부하고자 VM에 우분투까지 설치했지만, 뭔가 혼자서 책으로 공부하기에 왠지 모를 커다란 장벽이 있는 느낌이었다. 그러다가, edwith에서 제공하는 pySpark 강의가 있기에 그것을 튜토리얼 삼아 공부하기로 했다. 지금부터 시작할 내용은 edwith에서 제공하는 pySpark 강의를 그대로 따라하면서 공부해 나가는 과정을 담을 것이다. edwith: pySpark를 활용한 데이터분석 1. pySpark 환경 선택(Databricks) 기본적으로 본 강의에서는 pySpark를 실행할 수 있는 환경을 Databricks라는 클라우드 플랫폼을 선택했다. Databricks는 유로 클라우드 서비스이지만 무료버전에서도 충분히 사용할 수 있다는 설명이 적혀져 있었다.(test성으로...) Dat..
GCP(Google Cloud Platform)에서는 여러가지 서비스를 제공한다. 그 중 가장 많이 사용하는 것은 클라우드 형태의 DB이다. 기존의 아마존(AWS)이 사실 가장 대표적이고 강력한 클라우드 서비스르 제공하지만 그럼에도 불구하고 GCP를 사용하는 것은 아마도 접근하기 쉽다는 것에 있다. 본 글은 GCP 안에 있는 서비스 중 다음과 같은 순서로 데이터 엔지니어링(여기서 말하는 데이터 엔지니어링은 storage를 만들고 api로 자동으로 storage에 적재한 다음, 이 작업을 스케쥴링하여 자동으로 쌓일 수 있는 과정을 의미한다.)을 작업하려 한다. 01. 프로젝트(project) 만들기 02. 버킷 만들기 03. 스케쥴링 만들기 04. 스토리지(Storage) 만들어 API와 연동하기 05. ..
R을 많이 사용하던 사람으로써 python의 컴프리헨션(Comprehension), 이터레이터(Iterator), 제너레이터(Generator)와 같은 개념들이 다소 생소했다. 먼저 각 개념부터 알아보자. 컴프리헨션(Comprehension) : 주로 리스트 타입에서 많이 사용하기 때문에 리스트 컴프리헨션이라고도 한다. 반복되는 작업을 간결한 표시로 동작하는 것을 List Comprehension이라고 한다. 예를 보며 확인해보자. # 1. Comprehension a = [x**2 for x in range(5)] print(a) # 2. Normal for loop a = [] for i in range(5): a.append(i**2) print(a) 1번 코드는 컴프리헨션을 이용한 반복 작업이고,..
공공 데이터 중에서 가장 활용도가 높은 기상청 데이터를 사용해볼까한다. 기본적으로 기상청에서는 file(CSV), API(Json, XML) 두 형태로서 데이터를 제공한다. file형태는 원할 때마다 내려 받아서 분석에 활용하면 되지만, 분석에서 만든 모델링을 계속해서 사용하기에는 번거로움이 있다. 따라서 어떤 모델을 구축했다면, API로 데이터를 실시간으로 돌려가며 실시간 모델링을 진행할 수 있다. 그러면, 데이터를 실시간으로 가져올 수 있는 방법인 API에 대해서 알아보자. API란, Application Programming Interface의 약어로, 기기 간 통신을 통하여 데이터나 정보를 주고 받을 수 있는 것이라고 간단히 생각하면 되겠다. 데이터 전송 시, 흔히 많이 쓰이는 자료구조로는 XML..
코드 관리나 협업에 사용하기 좋은 Git을 본격적으로 사용해보려 한다. 기존의 깃 활용도는 그닥.. 그냥 로컬에 폴더 만들어서 관리하듯이 repo만들고 거기에 파일 업로드 한 정도.. 하지만, 기회가 생겨 Git을 협업 툴, 코드 형상관리 툴로써 사용해보고자 한다. 일단 기본적으로 여기서 말하는 깃은 Git Bash를 의미하며, Git Bash란 컴퓨터 OS와 상관없이 리눅스 베이스 터미널용 Git을 말한다. 덕분에 리눅스 명령어에 대한 공부도 추가적으로 해주는 것이 좋아보인다. 1. 깃 다운로드 설치 링크 : https://git-scm.com/ Git git-scm.com 위의 설치 링크에 접속하고 download - windows 를 클릭하면 자동으로 내 컴퓨터 환경에 맞게 설치 파일이 다운로드된다..
나는 원래 R 사용자였으며, 나름 학부시절 잘하는 쪽에 속한다고 생각했다. 그것이 가능했던 것이 data.table 패키지를 어느정도 잘 사용하고 나서부터라고 생각한다. 그동안 내가 알고 있던 꿀팁들을 적어볼까한다. 1. data.table 패키지 소개 여기저기 찾아보면 많은 자료들이 있으니 간단하게 소개하고 넘어가겠다. 우선 기능적으로 보았을 때, 1) 빠른 계산력을 제공한다. 가장 기본적인 매트릭스 형태로 R에서는 data.frame을 제공한다. 하지만, 사용하다보면 가독성도 떨어지고, 사용하기 불편하고, 다소 느린 단점들이 있다. 이런 부분들을 개선한 것이 data.table이다. 데이터 성격에 따라 차이가 있겠지만 대략 10~100배 정도 빠르다고 생각하면 된다. 2) 적용 범위가 넓다. data..