[머신러닝 기초] 데이터 분리하기

지난 포스팅에서는 데이터를 전처리하는 방법을 배웠다.

이번에는 이상치를 처리한 데이터들을 분리하는 방법을 다뤄볼 것이다.

데이터를 feature 데이터와 label 데이터로 분리 한 뒤에

학습용, 평가용 데이터로 분리해서 분석하는 과정을 거칠거다.

'sklearn' 라이브러리의 여러 함수들을 사용하여 데이터를 분석해 볼 것이다.

Scikit-learn은 파이썬 프로그래밍 언어용 자유 소프트웨어 기계 학습 라이브러리이다.

titanic_3 = titanic_2[titanic_2['Age']-np.floor(titanic_2['Age']) == 0 ]

우리는 titanic dataframe에서 데이터를 전처리 하여 titanic_3에 저장해줬었다.

X = titanic_3.drop(columns=['Survived'])
y = titanic_3['Survived']
print('X 데이터 개수: %d' %(len(X)))
print('y 데이터 개수: %d' %(len(y)))

X 변수에는 label 값인 'Survied'를 제외한 나머지 column들의 샘플들을 모두 저장하고,

y 변수에는 label 값인 'Survied' column의 샘플 값들만 남긴다.

전체 샘플의 수 및 X, y 데이터 개수를 확인해보니 각 687개씩으로 나왔다. (총 샘플 수는 687개!)

687개의 X와 y값들 중에 일부는 머신러닝의 학습을 위해 사용하고(train) 나머지 값들은 만들어진 인공지능의 정확도를 확인하기 위해 사용할 것이다(test).

from sklearn.model_selection import train_test_split
train_test_split(arrays, test_size, train_size, random_state, shuffle, stratify)
[출처] [Python] https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

다음은 sklearn에서 제공하는 train_test_split 함수이다.

arrays : np array, dataframe 등을 입력

test_size : 테스트 데이터 세트의 비율을 정의(float : 비율, int : 개수)

train_size : 학습 데이터 세트의 비율을 정의(float : 비율, int : 개수)

random_state : 데이터 분할 시 셔플이 이루어지는데 이를 위한 시드값

✔️ 정해주면 매번 코드를 시행할 때마다 컴퓨터가 동일하게 학습한다.

✔️ 공동 작업을 할 때 유리하게 작용할 수 있다.

shuffle : 셔플 여부를 결정해주는데, default = True 이기에 셔플을 원한다면 따로 적어주지 않아도 된다.

✔️ shuffle을 원하면 shuffle = False 를 써주면 된다!

stratify : 지정한 Data의 비율을 유지한다. 예를 들어, Label Set인 Y가 25%의 0과 75%의 1로 이루어진 Binary Set일 때, stratify=Y로 설정하면 나누어진 데이터셋들도 0과 1을 각각 25%, 75%로 유지한 채 분할된다.

[출처] [Python] sklearn의 train_test_split() 사용법| 작성자 Paris Lee

How Deep is the Learning : 네이버 블로그

- Deep Learning - Computer Vision - Medical Imaging - Backend - Daily

blog.naver.com

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

나는 X, y 값을 동시에 가져온 뒤에, test 비율을 전체 데이터 중에 30%로 맞춰준 후에 random_state 값은 42로 설정했다.

그러면 학습용 데이터 수는 전체 중에 70%가 되므로 687 * 0.7 = 480.9 (480개)가 되고,

테스트 데이터 수는 전체 중에 30%가 되므로 687 * 0.3 = 206.1(206개)로 정해진다.

다음 포스팅에서는 학습용과 테스트용으로 분리한 데이터들을 이용하여 분석하는 방법에 대해 알아볼 것이다.

'📕 인공지능, 머신러닝' 카테고리의 다른 글

[머신러닝 기초] 지도학습 - 회귀 (2)	2022.09.07
[머신러닝 기초] 데이터 전처리하기 (0)	2022.08.30
[머신러닝 기초] 수치형 자료의 요약 (0)	2022.08.17
[머신러닝 기초] 자료 형태의 이해(범주형 자료_도수분포표) (0)	2022.08.05

'📕 인공지능, 머신러닝' 카테고리의 다른 글

티스토리툴바