일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 논문리뷰
- pandas
- dropout
- bayesian
- 크롤링
- selenium
- 알고리즘
- VAE
- 강화학습
- uncertainty
- GNN
- pytorch
- YarinGal
- 리눅스
- 파이썬
- 백준
- 우분투
- 불확실성
- 데이터분석
- 베이지안
- 코딩테스트
- AI
- PYTHON
- R
- 텍스트분석
- DATA
- Crawling
- Graph
- 빅데이터
- 텍스트마이닝
- Today
- Total
목록ML (3)
끄적거림
[데이터셋] PHD08 한글 손글씨 이미지 데이터 [데이터셋] PHD08 한글 손글씨 이미지 데이터 딥러닝, 특히 CNN에서 가장 먼저 접하는 데이터셋이 바로 MNIST일거라 생각된다. MNIST는 0~9까지의 숫자에 대한 손글씨 이미지 데이터이다. 해외에서 공인된 데이터인만큼 데이터를 얻기도 매우 수 signing.tistory.com 예전 포스팅으로 한글 손글씨 이미지 데이터인 PHD08 데이터 셋에 대한 소개를 한 적이 있다. 이 데이터 셋을 가지고 이제 대학원 과제로 하게된 한글 손글씨 인식 모델링을 진행하고자 한다. 일단 전의 포스팅을 참고하여 데이터셋을 준비해야한다. 시간이 매우 오래 걸리니 원하는 파일만 가져다가 데이터를 준비하길 바란다. 그 다음으로 데이터를 가지고 모델링을 해야하는데 내 ..
베이지안 관련으로 많이 알려진 옥스포드 대학의 yarin Gal 교수가 2017년 Kendall과 함께 발표한 논문이다. 1200회가 넘는 인용이 이루어진 것만 봐도 얼마나 유명한 논문인지를 알 수 있다. 다른 논문들도 읽어보고 포스팅할 계획이다.(시간이 얼마나 걸릴지는 미지수,,) 본 논문을 100% 다 이해하기 위해서는 Random Process, Variational Inference 등과 같은 이론을 알고 있어야하지만, 일단은 공부하는 입장에서 이 논문을 리뷰해보고자 한다. 많이 부족하니 참고용으로 봐주시면 감사하겠습니다. 논문: papers.nips.cc/paper/2017/file/2650d6089a6d640c5e85b2b88265dc2b-Paper.pdf 1. Inroduction 이 단락에..
XML은 가장 잘 알려진 markup 형식의 데이터이다. 데이터를 구분하기 위해 tag라는 개념을 사용하는데 이는 html과 비슷하다고 생각하면 된다. 1. XML 접근 아래 간단한 xml 파일을 하나 가져왔다. 샘플 xml데이터를 보면서 그 특징을 알아보자. 만약 큰 xml 파일(예를 들어 GB단위의 큰 데이터)을 찾아봐야할 경우가 생기면 이 사이트에서 gvim 프로그램을 다운 받아 사용해보자. 시간이 다소 걸리긴 하지만 그래도 다른 에디터에 비해 빠른 편이고 유용한 편이다. 인코딩 문제가 있다면, 프로그램을 실행시키고 :set encoding=utf8 1 2008 141100 4 2011 59900 68 2011 13600 일반적으로 , 와 같은 테그를 시작(start), 끝(end) 테그라고 하며 ..