일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- uncertainty
- pytorch
- pandas
- AI
- 불확실성
- 백준
- selenium
- 논문리뷰
- 우분투
- 크롤링
- YarinGal
- 베이지안
- 강화학습
- 텍스트분석
- 텍스트마이닝
- 리눅스
- 빅데이터
- VAE
- 알고리즘
- dropout
- DATA
- PYTHON
- Graph
- GNN
- 파이썬
- R
- 데이터분석
- 코딩테스트
- Crawling
- bayesian
- Today
- Total
목록데이터분석 (23)
끄적거림
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/xv50y/btqF4yQoJSA/nHL67nMLcWdgDsumnKxvZK/img.png)
[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 다 된 줄 알았는데 보니까 그림처럼 펼쳐보기식의 버튼이 있음을 발견했다.... 쩝... 데이터 정합성과 신뢰도를 중요하게 생각하는 필자 입장에서는 이런것들도 매우 거슬린다.. 어쨌든 문제를 발견했으니 해결하도록 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/biJ1xe/btqF4yCdTuw/VjdTrUzzCzXkwqF58dunzk/img.png)
[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 데이터를 가져오는 것까지는 잘 가져왔고 어떻게 가져오는지도 확인했다. 그렇다면 이제 모든 데이터를 가져와서 어떤 포멧으로 데이터를 적재할지 생각해보자. 1. 전체 리뷰 데이터에 접근하기 reviews = driv..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/tXdHz/btqF3SglkPz/82ikjMS5ueNxwFpK7Yyyj1/img.png)
[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 지난 시간에 이어서 이번엔 실제로 데이터를 수집해보는 시간을 갖으려고 한다. 내가 필요한 데이터는 다음과 같은 총 4개이다. 1. 리뷰 텍스트 데이터 2. 게시 날짜 3. 좋아요 수 4. 별점 개발자 도구를 통해..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bDZwPD/btqFXfQT5ML/muKHieZK30bmPeWKYBKP61/img.png)
[리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 1(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 2(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 3(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 4(feat. selenium) [리뷰 크롤링] PlayStore 댓글 크롤링하기 in python 5(feat. selenium) 안드로이드 Google Play Store에서 특정 앱에 달린 리뷰들을 크롤링하여 텍스트 분석을 하고자 한다. 일단 먼저 리뷰 데이터가 필요하므로 데이터 수집을 해야겠다. 찾아보니, 셀리니움(selenium)이라..
실무에서 데이터분석을 하다보면 필요한 데이터를 DB에서 수시로 내려받아야할 순간이 온다. 하지만 언제까지 DB 툴에서 Excel로 내려 받을 수는 없으니 DB와 직접 연결하여 R 자체에서 데이터를 불러와보자. 본 코드와 내용은 Oracle 기준이고 Oracle DB와 연동할 수 있는 방법은 총 3가지(패키지)가 있다. 1) RJDBC 2) RODBC 3) ROracle 1. install and download java 가장 먼저 해야할 일은 Java를 설치하는 것이다. 아마 대부분 설치가 되어있겠지만, 자바를 잘 설치하고 환경변수에 자바의 위치를 잘 설정해야지 DB와의 연동이 가능하다. 2. Set Environment variable 위에서 말했던 것처럼 환경변수를 세팅해줘야하는데 이때는 R에서 직접..
XML은 가장 잘 알려진 markup 형식의 데이터이다. 데이터를 구분하기 위해 tag라는 개념을 사용하는데 이는 html과 비슷하다고 생각하면 된다. 1. XML 접근 아래 간단한 xml 파일을 하나 가져왔다. 샘플 xml데이터를 보면서 그 특징을 알아보자. 만약 큰 xml 파일(예를 들어 GB단위의 큰 데이터)을 찾아봐야할 경우가 생기면 이 사이트에서 gvim 프로그램을 다운 받아 사용해보자. 시간이 다소 걸리긴 하지만 그래도 다른 에디터에 비해 빠른 편이고 유용한 편이다. 인코딩 문제가 있다면, 프로그램을 실행시키고 :set encoding=utf8 1 2008 141100 4 2011 59900 68 2011 13600 일반적으로 , 와 같은 테그를 시작(start), 끝(end) 테그라고 하며 ..