[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 5주차 Ch06

본문 바로가기 메뉴 바로가기

티스토리 뷰

혼공단

[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 5주차 Ch06

HJunS 2024. 1. 28. 20:06

06 비지도 학습

06-1 군집 알고리즘

비지도학습: 머신러닝 한 종류로 훈련 데이터의 타깃이 없음
히스토그램: 구간별로 값이 발생한 빈도를 그래프로 표시
군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습

데이터 준비

데이터의 과일 사진

픽셀값 분석하기

apple 데이터의 각 픽셀의 평균

히스토그램으로 나타낸 평균

평균과 가까운 사진 고르기

사과의 평균과 비슷한 그림

흑백 사진의 픽셀값을 사용해 사진을 모았다.(군집)

군집으로 만든 그룹을 클러스터라고 한다.

06-2 k-평균

k-평균: 처음 랜덤하게 클러스터 중심을 정하고 클러스터를 만든다. 클러스터 중심으로 이동 후 다시 클러스터를 만드는 방식으로 최적의 클러스터를 구성한다.
클러스터 중심: k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값(센트로이드)
엘보우 방법: 최적의 클러스터 개수를 정하는 방법

K-평균 알고리즘 소개

무작위로 k개의 클러스터 중심을 정한다.
각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.
클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.
중심에 변화가 없을 때까지 2번으로 돌아가 반복한다.

클러스터의 중심

cluster_centers에 클러스터 중심 속성 저장
100 x 100 크기의 2차원 배열로 변경

최적의 클러스터를 찾기 위해서 중심을 4번 옮김

최적의 K 찾기

이너셔: 클러스터 중심과 클러스터 샘플 사이의 거리의 제곱 합
엘보우: 클러스터 개수를 증가시키면서 이너셔 그래프를 그리면 감소하는 속도가 꺾이는 지점

06-3 주성분 분석

차원축소: 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습
주성분 분석: 분산이 가장 큰 방향을 찾는 방법으로 차원 축소 알고리즘의 하나. 방향을 주성분이라고 부름. 일반적으로 원본데이터의 특성 개수보다 적다.
설명된 분산: 주성분 분석에서 주성분이 얼마나 원본 데이터의 분산을 잘 나타내는지 기록

1만개의 픽셀을 가진 300개의 이미지
300개의 이미지는 50개의 특성을 가진 데이터로 변환

원본 데이터 재구성

10000개의 특성을 50개로 줄였기 때문에 손실 발생
분산이 큰 방향으로 데이터를 투영해서 상당 부분 재구성 가능

설명된 분산

주성분이 원본 데이터의 분산을 잘 나타내는지 기록

'혼공단' 카테고리의 다른 글

[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 6주차 Ch07 (0)	2024.02.11
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 4주차 Ch05 (0)	2024.01.26
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 3주차 Ch04 (0)	2024.01.21
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 2주차 Ch03 (0)	2024.01.12
[혼공족] 혼자 공부하는 머신러닝 + 딥러닝 1주차 Ch02 (1)	2024.01.07

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바