일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 베이지안
- 크롤링
- GNN
- 알고리즘
- 불확실성
- 리눅스
- Crawling
- 파이썬
- dropout
- 코딩테스트
- selenium
- 데이터분석
- 백준
- R
- DATA
- PYTHON
- 텍스트마이닝
- 빅데이터
- uncertainty
- Graph
- YarinGal
- 강화학습
- 우분투
- 논문리뷰
- bayesian
- pytorch
- AI
- pandas
- 텍스트분석
- VAE
- Today
- Total
목록Python (49)
끄적거림

[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 데이터를 가져오는 것까지는 잘 가져왔고 어떻게 가져오는지도 확인했다. 그렇다면 이제 모든 데이터를 가져와서 어떤 포멧으로 데이터를 적재할지 생각해보자. 1. 전체 리뷰 데이터에 접근하기 reviews = driv..

[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 지난 시간에 이어서 이번엔 실제로 데이터를 수집해보는 시간을 갖으려고 한다. 내가 필요한 데이터는 다음과 같은 총 4개이다. 1. 리뷰 텍스트 데이터 2. 게시 날짜 3. 좋아요 수 4. 별점 개발자 도구를 통해..

[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 안드로이드 Google Play Store에서 특정 앱에 달린 리뷰들을 크롤링하여 텍스트 분석을 하고자 한다. 일단 먼저 리뷰 데이터가 필요하므로 데이터 수집을 해야겠다. 찾아보니, 셀리니움(selenium)이라..

최근 공부하다 한가지 꿀팁을 알게되어 공유하고자한다. 주피터 노트북(이하 노트북)을 사용하다보면, 굉장히 오래 걸리는 코드들이 있다. 그러면 현재 진행상황이 어느정도고 얼마나 더 걸리는지 따로 print를 하지 않는 이상 알기 힘들다. 이럴 때, 가시적으로 현재 진행 상황을 나타내주는 좋은 모듈이 있다. 바로, tqdm 이라는 패키지다. !pip install tqdm from tqdm import trange, notebook # show progress-bar 노트북에서 위의 코드를 실행시켜 tqdm 패키지를 인스톨한다. 아래의 코드는 네이버 주식 데이터를 크롤링하는 일부의 코드다. 여기서 포인트는 for loop를 돌때 그냥 range 대신에 notebook.tqdm(range()) 를 사용하는 것..
XML은 가장 잘 알려진 markup 형식의 데이터이다. 데이터를 구분하기 위해 tag라는 개념을 사용하는데 이는 html과 비슷하다고 생각하면 된다. 1. XML 접근 아래 간단한 xml 파일을 하나 가져왔다. 샘플 xml데이터를 보면서 그 특징을 알아보자. 만약 큰 xml 파일(예를 들어 GB단위의 큰 데이터)을 찾아봐야할 경우가 생기면 이 사이트에서 gvim 프로그램을 다운 받아 사용해보자. 시간이 다소 걸리긴 하지만 그래도 다른 에디터에 비해 빠른 편이고 유용한 편이다. 인코딩 문제가 있다면, 프로그램을 실행시키고 :set encoding=utf8 1 2008 141100 4 2011 59900 68 2011 13600 일반적으로 , 와 같은 테그를 시작(start), 끝(end) 테그라고 하며 ..
문제는 다음과 같다. 들어가서 확인해보시길.. 문제 : 백준 1463번 1463번: 1로 만들기 첫째 줄에 1보다 크거나 같고, 106보다 작거나 같은 정수 N이 주어진다. www.acmicpc.net 알고리즘 중에서 DP, Dynamic Program를 사용하는 문제이다. DP는 DC(Divied and Conquer)와 어찌보면 비슷하지만 확연한 차이가 있다. DP의 핵심은 문제를 세부 문제로 쪼개고 그 세부 문제들을 기억하고 있다는 점이다. 세부 문제로 쪼갠다는 것은 세분 문제들을 반복적으로 이용한다는 점에서 재귀 혹은 반복문이 사용된다는 점을 미리 인식하고 있어야한다. 또한, 기억한다는 것은 메모리 할당량이 그만큼 높아진다는 것을 의미하기 때문에 메모리 관리도 신경써야하는 부분이다. 이를 유념하지..