일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- VAE
- 논문리뷰
- 텍스트분석
- 크롤링
- selenium
- R
- 베이지안
- 불확실성
- dropout
- Graph
- 백준
- 코딩테스트
- 데이터분석
- pandas
- 파이썬
- pytorch
- 빅데이터
- 텍스트마이닝
- bayesian
- PYTHON
- YarinGal
- 우분투
- 리눅스
- 강화학습
- GNN
- uncertainty
- 알고리즘
- Crawling
- DATA
- AI
- Today
- Total
목록Python (49)
끄적거림
문자열 핸들링 중에서 특수문자를 제거하는 것을 원하는 경우가 종종 발생한다. 이 코드가 도움이 되길 바란다. 단일변수일 때 import re string = "abcdefㄱㄴㄷㄹㅁㅂ가나다라마바사12345[]{}().,!?'`~;:" re.sub('[^A-Za-z0-9가-힣]', '', string) # re.sub('[^A-Za-z0-9가-힣]', '', string) # Out[153]: 'abcdef가나다라마바사12345' DataFrame에서 변경할 때 total['TITLE2'] = [re.sub('[^A-Za-z0-9가-힣]', '', s) for s in total['제목']] 참고: data-newbie.tistory.com/206
1번째 방법) df1.append(df2) A = pd.DataFrame({ 'a':[1,2,3,4,5], 'b':[6,7,8,9,10] }) B = pd.DataFrame({ 'a':[11,12,13,14,15], 'b':[16,17,18,19,20] }) A.append(B) 2번째 방법) pd.concat([df1, df2], axis=0) A = pd.DataFrame({ 'a':[1,2,3,4,5], 'b':[6,7,8,9,10] }) B = pd.DataFrame({ 'a':[11,12,13,14,15], 'b':[16,17,18,19,20] }) pd.concat([A,B], axis=0) # axis = 0 --> row bind / 1 --> column bind 참고 RUL : rfri..
R에서는 쉽게 (ctrl) + (F) 로 원하는 문자를 찾아서 바꿀 수 있었는데 pycharm은 그 기능을 몰랐어서 살짝 헤맸었다. 예를 들어 폴더 주소를 복사해서 붙여넣었을 때, 역슬래쉬가 찍히는 것을 볼 수 있다. 이 역슬래쉬를 제거하고 그냥 슬래쉬로 바꿔주기 위해 아래와 같이 해보았다. 방법 1: (ctrl) + (F) 후 수기 입력 방법 2: (ctrl) + (Alt) + (shift) + (J) 1. 주소 복붙 그냥 폴더에서 주소를 복사해서 넣으면 역슬래쉬 발생 2. (ctrl) + (F) --> 원하는 문자 검색 나같은 경우 \ 문자를 검색했다. 3. 문자 선택 1번을 선택할 경우 하나씩 문자들을 선택하는 것이고, 2번은 전체 다 선택하는 것이다. 나는 2번을 클릭해보겠다. 클릭하면 검색창이 ..
딥러닝, 특히 CNN에서 가장 먼저 접하는 데이터셋이 바로 MNIST일거라 생각된다. MNIST는 0~9까지의 숫자에 대한 손글씨 이미지 데이터이다. 해외에서 공인된 데이터인만큼 데이터를 얻기도 매우 수월하다.(API등과 같은 방법으로) 반면에, 한글에 대한 손글씨 이미지는 찾기 힘들다. 관련해서 구글링하던 중에 한글 손글씨 이미지 데이터를 발견하여 공유하고자 한다. PHD08 www.dropbox.com/s/69cwkkqt4m1xl55/phd08.alz?dl=0 phd08.alz Dropbox를 통해 공유함 www.dropbox.com 2008년에 한글 손글씨 이미지 데이터 구축사업이 전북대에서 진행되었다고 한다. 덕분에 방대한양의 한글데이터를 얻을 수 있었다. 다만 한글의 낱글자에 대한 모든 데이터가..
데이터를 만지다보면 여러 array형 데이터(list/Series in python, vector in R)를 합쳐서 새로운 dataframe 형태로 만들 경우가 생긴다. 보통의 경우 길이가 같은 array들을 이어 붙여야 우리가 원하는 딱 맞는 이쁜 데이터프레임 객체가 생성된다. 하지만 항상 그럴 경우만 생기지는 않으니, 길이가 서로 다른 1차원 자료형을 붙여 dataframe형태로 만들때를 생각해보자! 너무도 당연한 이야기이지만 서로 다른 길이의 1차원 자료형을 붙이면 제일 긴 길이의 데이터를 가지고 데이터프레임 객체가 생성될 것이고, 빈 공간은 NA로써 혹은 Nan 혹은 Null값으로 채워지길 바란다. 우선 R이 편하니 R부터 해보자. 1. R - cbind 다음과 같은 길이가 다른 객체들이 있다. a
R에서는 대부분의 핸들링을 자유롭게 하던 나는 파이썬으로 그 작업들을 하나씩 진행하고자 한다. 분석을 진행하기 위해서 데이터를 내가 원하는 모양으로 맞춰줄 필요가 있다. 현재 내가 분석을 진행하다 막힌 부분은 이렇다. 원하는 조건에 해당하면 특정 값, 아니면 다른 값으로 주어 새로운 컬럼을 만드는 것이다. R에 익숙한 나는 다음 코드를 바로 떠올릴 수 있다. iris %>% mutate(new_column = ifelse(Sepal.Length > 4, 'Large', 'Small')) 변수를 추가하는 함수인 dplyr의 mutate함수와 조건을 걸 수 있는 ifelse함수를 사용하면 간단히 만들 수 있다. 하지만 파이썬에서 이와 같은 작업을 진행하려면 어떻게 해야할까? 다음 코드와 같다. iris['n..