티스토리 뷰
02-1 훈련 세트와 테스트 세트
- 지도학습: 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측
- 비지도 학습: 타깃 데이터가 없이 입력 데이터에서 어떤 특징을 찾는 데 활용
- 훈련 세트: 모델 훈련에 사용하는 데이터로 테스트 세트를 제외한 데이터를 사용
- 테스트 세트: 전체 데이터에서 20~30% 테스트 세트로 사용. 전체 데이터가 아주 크다면 1%만 사용하기도
- 샘플링 편향: 훈련 세트와 테스트 세트의 샘플이 한쪽으로 치우쳤을 때
훈련 세트와 테스트 세트 셔플
- 데이터 생성
- 넘파이로 셔플 후 훈련과 테스트 세트 나누기
- 훈련, 테스트 확인
- 모델 학습
02-2 데이터 전처리
위의 데이터를 넘파이로 변환한다
- 인덱스를 직접 섞어서 나누는 방법은 사이킷런 함수로도 할 수 있다.
stratify 매개변수로 클래스 비율에 맞게 데이터를 나눌 수 있다.
스케일이 다른 특성 처리
- 위의 삼각형 [25, 150]의 데이터는 오른쪽 도미에 가깝지만 [0] 빙어로 분류했다. 삼각형은 4개의 빙어 데이터와 1개의 도미 데이터를 참조하여 빙어로 예측했다.
- 해당 그래프의 x축은 5의 단위로 늘어나고 y축은 200의 단위로 늘어난다. 따라서 두 길이와 무게의 값이 놓인 범위가 크게 다르다.
- x축과 y축의 범위를 동일하게 맞추었더니 수직으로 늘어선 형태가 됨
데이터 전처리
- 길이와 무게의 값이 놓인 범위가 크게 다르다. 이를 스케일(scale)이 다르다고 한다.
- 데이터를 표현하는 기준이 다르면 올바르게 예측할 수 없다. 특히 거리 기반 알고리즘의 경우가 그렇다.
- 특성값을 일정한 기준으로 맞춰주는 것이 데이터 전처리이다.
- 가장 널리 사용하는 전처리 방법은 표준점수(z 점수)이다.
표준점수는 원점에서 몇 표준편차만큼 떨어져 있는지를 나타낸다.
표준편차 = (x−mean)/std - 넘파이의 브로드캐스팅으로 모든 행에 적용한다.
- 예측할 샘플도 동일한 기준으로 변경후 산점도를 확인
- 스케일링한 데이터가 초록색 도미 데이터를 참조
'혼공단' 카테고리의 다른 글
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 5주차 Ch06 (0) | 2024.01.28 |
---|---|
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 4주차 Ch05 (0) | 2024.01.26 |
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 3주차 Ch04 (0) | 2024.01.21 |
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 2주차 Ch03 (0) | 2024.01.12 |
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 1주차 Ch01 (0) | 2024.01.04 |