일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 알고리즘
- 백준
- 리눅스
- 논문리뷰
- 우분투
- VAE
- GNN
- uncertainty
- AI
- 코딩테스트
- bayesian
- dropout
- 텍스트분석
- YarinGal
- pandas
- pytorch
- Crawling
- 빅데이터
- 텍스트마이닝
- selenium
- 불확실성
- PYTHON
- 데이터분석
- 강화학습
- R
- 베이지안
- 크롤링
- Graph
- 파이썬
- DATA
- Today
- Total
목록DataScience (2)
끄적거림
XML은 가장 잘 알려진 markup 형식의 데이터이다. 데이터를 구분하기 위해 tag라는 개념을 사용하는데 이는 html과 비슷하다고 생각하면 된다. 1. XML 접근 아래 간단한 xml 파일을 하나 가져왔다. 샘플 xml데이터를 보면서 그 특징을 알아보자. 만약 큰 xml 파일(예를 들어 GB단위의 큰 데이터)을 찾아봐야할 경우가 생기면 이 사이트에서 gvim 프로그램을 다운 받아 사용해보자. 시간이 다소 걸리긴 하지만 그래도 다른 에디터에 비해 빠른 편이고 유용한 편이다. 인코딩 문제가 있다면, 프로그램을 실행시키고 :set encoding=utf8 1 2008 141100 4 2011 59900 68 2011 13600 일반적으로 , 와 같은 테그를 시작(start), 끝(end) 테그라고 하며 ..
pySpark를 공부하고자 VM에 우분투까지 설치했지만, 뭔가 혼자서 책으로 공부하기에 왠지 모를 커다란 장벽이 있는 느낌이었다. 그러다가, edwith에서 제공하는 pySpark 강의가 있기에 그것을 튜토리얼 삼아 공부하기로 했다. 지금부터 시작할 내용은 edwith에서 제공하는 pySpark 강의를 그대로 따라하면서 공부해 나가는 과정을 담을 것이다. edwith: pySpark를 활용한 데이터분석 1. pySpark 환경 선택(Databricks) 기본적으로 본 강의에서는 pySpark를 실행할 수 있는 환경을 Databricks라는 클라우드 플랫폼을 선택했다. Databricks는 유로 클라우드 서비스이지만 무료버전에서도 충분히 사용할 수 있다는 설명이 적혀져 있었다.(test성으로...) Dat..