일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 크롤링
- 알고리즘
- 우분투
- selenium
- Graph
- 코딩테스트
- DATA
- GNN
- uncertainty
- pandas
- VAE
- YarinGal
- AI
- 텍스트마이닝
- 베이지안
- Crawling
- 리눅스
- PYTHON
- 강화학습
- 파이썬
- 데이터분석
- pytorch
- 불확실성
- R
- 논문리뷰
- bayesian
- 텍스트분석
- dropout
- 빅데이터
- 백준
- Today
- Total
목록Python (49)
끄적거림
코랩은 학생분들이나 직장인분들이 다루기 좋은 아이다. 웹기반의 코드 작업 환경이며, 대학생분들은 goorm과 같은 IDE라고 보면 되겠다. 인터넷만 연결된다면 어디서든 접속하여 나의 작업을 진행할 수 있다. 당연히 저장도 자동 저장이 되기 때문에 코딩을 하기 매우 좋은 환경이며, jupyter notebook과 거의 유사한 플랫폼이라 볼 수 있다. 더불어서 거의 모든 세팅이 되어있다. 가령 pytorch, anaconda, tensorflow 등과 같은 프레임워크들이 다 준비가 되어 있다. 가장 좋은 장점은 GPU, TPU 코딩이 가능하다는 것과 구글 드라이브, 깃헙 등과 같은 어플리케이션과 연동이 된다는 점이다. 구글의 좋은 하드웨어를 무료로 사용할 수 있다니 매우 좋은 IDE라 볼 수 있다. 너무 좋..
[데이터셋] PHD08 한글 손글씨 이미지 데이터 [데이터셋] PHD08 한글 손글씨 이미지 데이터 딥러닝, 특히 CNN에서 가장 먼저 접하는 데이터셋이 바로 MNIST일거라 생각된다. MNIST는 0~9까지의 숫자에 대한 손글씨 이미지 데이터이다. 해외에서 공인된 데이터인만큼 데이터를 얻기도 매우 수 signing.tistory.com 예전 포스팅으로 한글 손글씨 이미지 데이터인 PHD08 데이터 셋에 대한 소개를 한 적이 있다. 이 데이터 셋을 가지고 이제 대학원 과제로 하게된 한글 손글씨 인식 모델링을 진행하고자 한다. 일단 전의 포스팅을 참고하여 데이터셋을 준비해야한다. 시간이 매우 오래 걸리니 원하는 파일만 가져다가 데이터를 준비하길 바란다. 그 다음으로 데이터를 가지고 모델링을 해야하는데 내 ..
[문자열 다루기] 문자(한글, 영문)와 숫자만 남기고 특수문자 제거하기 in python
[API] Naver 뉴스 API로 데이터 받아오기 in python [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) 최근 크롤링 관련하여 이것저것 진행하다보니 모든 플랫폼에 대해서 크롤링을 진행하는 듯하다. 이번에는 네이버 뉴스 기사 원문과 그에 달린 댓글을 가져오려 한다. 이번 포스팅은 사실 네이버 뉴스를 API로 받아온 결과를 바탕으로 수집할 예정이다. 그러니 위의 포스팅을 한 번씩 읽어보고 오면 좋을 듯하다. 위의 포스팅의 결과로 다음과 같은 결과물을 얻었다. 보면 다음과 같은 항목들을 얻을 수 있다. title : 기사의 제목 originallink : 기사의 원문의 링킁(신문사에서 온라인으로 발간한 신문사의 뉴스 링크) link : 해당 기사..
[API]네이버데이터랩 api로 데이터 가져오기 in Python [API]네이버데이터랩 api로 데이터 가져오기2 in Python 오랜만에 네이버 API 관련한 업무를 하다가 새로운 API 하게 되어 글을 쓰게 되었다. 먼저, 네이버의 API로 데이터를 받아오기 전 알아야할 주의사항이 있다. 검색 API를 사용 검색 결과로부터 최대 1000개까지의 결과만 가져옴 뉴스기사의 본문을 전부 가져오지는 못함. 대략 초입 3줄 정도? 일 최대 25,000번의 호출 가능 한 번 API 호출시 최대 100개의 결과값 수집 가능 최대로 수집해봤자 일부 중복되는 결과 발생 위의 주의사항을 먼저 알고 데이터를 수집하면 목적에 맞게 활용할 수 있을 것으로 생각한다. 1. API 신청하기 가장 먼저 할 것은 API를 신청..
어떤 폴더 안에 있는 많은 엑셀, csv 파일들을 loop를 돌려 차례대로 읽어서 row bind를 하거나, API를 여러번 호출하여 나온 결과를 순차적으로 row bind하는 경우가 더러 생긴다. 이를 완화시킬수 있는 좋은 글을 발견하여 공유하고 정리하고자 한다. 이럴 때 그 읽어들이는 dataset의 양이 많지 않으면 아래와 같은 방법으로 loop를 돌리면 되지만, 추천하지 않는 방법 1 import pandas as pd total = pd.DataFrame() for datapath in datalist: t = pd.read_csv(datapath) total = total.append(t) 추천하지 않는 방법 2 import pandas as pd total = pd.DataFrame() fo..