일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬
- dropout
- pandas
- 빅데이터
- GNN
- R
- 텍스트분석
- 강화학습
- 베이지안
- bayesian
- VAE
- 코딩테스트
- 데이터분석
- PYTHON
- 리눅스
- Graph
- 알고리즘
- AI
- 우분투
- uncertainty
- 불확실성
- 백준
- Crawling
- selenium
- YarinGal
- 텍스트마이닝
- 크롤링
- pytorch
- DATA
- 논문리뷰
- Today
- Total
목록pandas (4)
끄적거림
어떤 폴더 안에 있는 많은 엑셀, csv 파일들을 loop를 돌려 차례대로 읽어서 row bind를 하거나, API를 여러번 호출하여 나온 결과를 순차적으로 row bind하는 경우가 더러 생긴다. 이를 완화시킬수 있는 좋은 글을 발견하여 공유하고 정리하고자 한다. 이럴 때 그 읽어들이는 dataset의 양이 많지 않으면 아래와 같은 방법으로 loop를 돌리면 되지만, 추천하지 않는 방법 1 import pandas as pd total = pd.DataFrame() for datapath in datalist: t = pd.read_csv(datapath) total = total.append(t) 추천하지 않는 방법 2 import pandas as pd total = pd.DataFrame() fo..
데이터를 만지다보면 여러 array형 데이터(list/Series in python, vector in R)를 합쳐서 새로운 dataframe 형태로 만들 경우가 생긴다. 보통의 경우 길이가 같은 array들을 이어 붙여야 우리가 원하는 딱 맞는 이쁜 데이터프레임 객체가 생성된다. 하지만 항상 그럴 경우만 생기지는 않으니, 길이가 서로 다른 1차원 자료형을 붙여 dataframe형태로 만들때를 생각해보자! 너무도 당연한 이야기이지만 서로 다른 길이의 1차원 자료형을 붙이면 제일 긴 길이의 데이터를 가지고 데이터프레임 객체가 생성될 것이고, 빈 공간은 NA로써 혹은 Nan 혹은 Null값으로 채워지길 바란다. 우선 R이 편하니 R부터 해보자. 1. R - cbind 다음과 같은 길이가 다른 객체들이 있다. a
R에서는 대부분의 핸들링을 자유롭게 하던 나는 파이썬으로 그 작업들을 하나씩 진행하고자 한다. 분석을 진행하기 위해서 데이터를 내가 원하는 모양으로 맞춰줄 필요가 있다. 현재 내가 분석을 진행하다 막힌 부분은 이렇다. 원하는 조건에 해당하면 특정 값, 아니면 다른 값으로 주어 새로운 컬럼을 만드는 것이다. R에 익숙한 나는 다음 코드를 바로 떠올릴 수 있다. iris %>% mutate(new_column = ifelse(Sepal.Length > 4, 'Large', 'Small')) 변수를 추가하는 함수인 dplyr의 mutate함수와 조건을 걸 수 있는 ifelse함수를 사용하면 간단히 만들 수 있다. 하지만 파이썬에서 이와 같은 작업을 진행하려면 어떻게 해야할까? 다음 코드와 같다. iris['n..

공공 데이터 중에서 가장 활용도가 높은 기상청 데이터를 사용해볼까한다. 기본적으로 기상청에서는 file(CSV), API(Json, XML) 두 형태로서 데이터를 제공한다. file형태는 원할 때마다 내려 받아서 분석에 활용하면 되지만, 분석에서 만든 모델링을 계속해서 사용하기에는 번거로움이 있다. 따라서 어떤 모델을 구축했다면, API로 데이터를 실시간으로 돌려가며 실시간 모델링을 진행할 수 있다. 그러면, 데이터를 실시간으로 가져올 수 있는 방법인 API에 대해서 알아보자. API란, Application Programming Interface의 약어로, 기기 간 통신을 통하여 데이터나 정보를 주고 받을 수 있는 것이라고 간단히 생각하면 되겠다. 데이터 전송 시, 흔히 많이 쓰이는 자료구조로는 XML..