* 본 포스트는 개인연구/학습 기록 용도로 작성되고 있습니다.


[Python] 학습 데이터 가져오기


모델링에 주로 사용되는 학습데이터가 있다.


1. mnist


mnist0~9까지의 숫자 모음 으로 비교적 많은 이미지 학습 예제에서 다뤄지고 있다.

MNIST 학습데이터는 28x28 사이즈에 총 784개의 픽셀로 이루어진 흑백이미지이다. 각 픽셀마다 0~255의 값으로 표현되는데, 0에 가까울수록 검정, 255에 가까울수록 하얀색이다. 데이터 맨 앞에는 label이 붙어 모델링에 정답지로 활용된다.

img_area

데이터 가져오기

input_data.py 이 파일을 다운 받은 후 아래 코드를 통해 데이터를 가져올 수 있다.

from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

다운로드된 데이터는 55,000개의 학습 데이터(mnist.train), 10,000개의 테스트 데이터(mnist.text), 그리고 5,000개의 검증 데이터(mnist.validation) 이렇게 세 부분으로 나뉜다. 라벨과 이미지데이터를 별도로 갖게 되는데 학습 이미지는 mnist.train.images이며, 학습 라벨은 mnist.train.labels이다.



2. Iris


아이리스라는 꽃의 종을 분류하기 위한 데이터셋 이다. 아래 코드를 통해 얻는 X에는 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비 가 변수로 들어가 있으며 Y가 종자를 판별하는 label이다.

img_area

데이터 가져오기

from sklearn import datasets
# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target


Tags:


Back to blog