일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- YarinGal
- R
- DATA
- 논문리뷰
- 백준
- selenium
- 우분투
- 텍스트마이닝
- 크롤링
- 베이지안
- PYTHON
- 텍스트분석
- GNN
- 코딩테스트
- pandas
- Graph
- Crawling
- 파이썬
- VAE
- bayesian
- 알고리즘
- pytorch
- 강화학습
- 빅데이터
- 리눅스
- uncertainty
- 데이터분석
- 불확실성
- dropout
- AI
- Today
- Total
목록Python/Data Handling (7)
끄적거림
[문자열 다루기] 문자(한글, 영문)와 숫자만 남기고 특수문자 제거하기 in python
어떤 폴더 안에 있는 많은 엑셀, csv 파일들을 loop를 돌려 차례대로 읽어서 row bind를 하거나, API를 여러번 호출하여 나온 결과를 순차적으로 row bind하는 경우가 더러 생긴다. 이를 완화시킬수 있는 좋은 글을 발견하여 공유하고 정리하고자 한다. 이럴 때 그 읽어들이는 dataset의 양이 많지 않으면 아래와 같은 방법으로 loop를 돌리면 되지만, 추천하지 않는 방법 1 import pandas as pd total = pd.DataFrame() for datapath in datalist: t = pd.read_csv(datapath) total = total.append(t) 추천하지 않는 방법 2 import pandas as pd total = pd.DataFrame() fo..
문자열 핸들링 중에서 특수문자를 제거하는 것을 원하는 경우가 종종 발생한다. 이 코드가 도움이 되길 바란다. 단일변수일 때 import re string = "abcdefㄱㄴㄷㄹㅁㅂ가나다라마바사12345[]{}().,!?'`~;:" re.sub('[^A-Za-z0-9가-힣]', '', string) # re.sub('[^A-Za-z0-9가-힣]', '', string) # Out[153]: 'abcdef가나다라마바사12345' DataFrame에서 변경할 때 total['TITLE2'] = [re.sub('[^A-Za-z0-9가-힣]', '', s) for s in total['제목']] 참고: data-newbie.tistory.com/206
1번째 방법) df1.append(df2) A = pd.DataFrame({ 'a':[1,2,3,4,5], 'b':[6,7,8,9,10] }) B = pd.DataFrame({ 'a':[11,12,13,14,15], 'b':[16,17,18,19,20] }) A.append(B) 2번째 방법) pd.concat([df1, df2], axis=0) A = pd.DataFrame({ 'a':[1,2,3,4,5], 'b':[6,7,8,9,10] }) B = pd.DataFrame({ 'a':[11,12,13,14,15], 'b':[16,17,18,19,20] }) pd.concat([A,B], axis=0) # axis = 0 --> row bind / 1 --> column bind 참고 RUL : rfri..

딥러닝, 특히 CNN에서 가장 먼저 접하는 데이터셋이 바로 MNIST일거라 생각된다. MNIST는 0~9까지의 숫자에 대한 손글씨 이미지 데이터이다. 해외에서 공인된 데이터인만큼 데이터를 얻기도 매우 수월하다.(API등과 같은 방법으로) 반면에, 한글에 대한 손글씨 이미지는 찾기 힘들다. 관련해서 구글링하던 중에 한글 손글씨 이미지 데이터를 발견하여 공유하고자 한다. PHD08 www.dropbox.com/s/69cwkkqt4m1xl55/phd08.alz?dl=0 phd08.alz Dropbox를 통해 공유함 www.dropbox.com 2008년에 한글 손글씨 이미지 데이터 구축사업이 전북대에서 진행되었다고 한다. 덕분에 방대한양의 한글데이터를 얻을 수 있었다. 다만 한글의 낱글자에 대한 모든 데이터가..
데이터를 만지다보면 여러 array형 데이터(list/Series in python, vector in R)를 합쳐서 새로운 dataframe 형태로 만들 경우가 생긴다. 보통의 경우 길이가 같은 array들을 이어 붙여야 우리가 원하는 딱 맞는 이쁜 데이터프레임 객체가 생성된다. 하지만 항상 그럴 경우만 생기지는 않으니, 길이가 서로 다른 1차원 자료형을 붙여 dataframe형태로 만들때를 생각해보자! 너무도 당연한 이야기이지만 서로 다른 길이의 1차원 자료형을 붙이면 제일 긴 길이의 데이터를 가지고 데이터프레임 객체가 생성될 것이고, 빈 공간은 NA로써 혹은 Nan 혹은 Null값으로 채워지길 바란다. 우선 R이 편하니 R부터 해보자. 1. R - cbind 다음과 같은 길이가 다른 객체들이 있다. a