Abstract Mixtral 8x7B는 Sparse Mixture of Experts(SMoE) 언어 모델이다. Mistral 7B와 같은 아키텍처이며 각 레이어는 8개의 Feedforward blocks(experts)로 구성된다. 모든 토큰은 각 레이어에서 router network가 선택한 두 개의 expert와 결합된다. 선택된 expert는 각 timestep에서 다를 수 있다. 결론적으로 각 토큰은 47B 파라미터에 접근할 수 있지만, 추론(inference)에서 13B의 active parameters만 사용한다. context size는 32k 토큰으로 훈련되었다. Llama2 70B, GPT-3.5로 벤치마크 성능을 평가했고, 특히 수학, 코드 생성 부분에서 Llama2 70B보다 뛰어..
06 비지도 학습 06-1 군집 알고리즘 비지도학습: 머신러닝 한 종류로 훈련 데이터의 타깃이 없음 히스토그램: 구간별로 값이 발생한 빈도를 그래프로 표시 군집: 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 데이터 준비 픽셀값 분석하기 평균과 가까운 사진 고르기 흑백 사진의 픽셀값을 사용해 사진을 모았다.(군집) 군집으로 만든 그룹을 클러스터라고 한다. 06-2 k-평균 k-평균: 처음 랜덤하게 클러스터 중심을 정하고 클러스터를 만든다. 클러스터 중심으로 이동 후 다시 클러스터를 만드는 방식으로 최적의 클러스터를 구성한다. 클러스터 중심: k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값(센트로이드) 엘보우 방법: 최적의 클러스터 개수를 정하는 방법 K-평균 알고리즘 소개 무작..
05 트리 알고리즘 05-1 결정트리 결정트리: 예/아니오 질문을 이어나가며 정답을 찾는 학습 알고리즘 불순도: 결정트리가 최적의 질문을 찾는 기준(지니 불순도, 엔트로피 불순도) 정보 이득: 부모 노드와 자식노드의 불순도 차이. 정보 이득 최대화되도록 학습 가지치기: 과대적합 방지위해서 성장 제한 특성 중요도: 특성이 불순도를 감소하는데 기여한 정도 데이터 준비 결정트리 과대적합됨 plot_tree로 트리 구조 확인 가지치기 깊이를 3으로 제한하여 과대적합을 막는다. 당도는 음수가 될 수 없다. 결정트리는 특성값의 스케일이 영향을 미치지 않는다. 표준화 전처리 과정이 필요없다. 05-2 교차 검증과 그리드 서치 검증 세트: 하이퍼파라미터 튜닝 떄 테스트 세트를 사용하지 않기 위해 훈련 세트에서 떼어 낸..
기본 미션 2. 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 무엇인가요? 1. 시그모이드 시그모이드 함수는 선형 방정식의 출력을 0과 1사이의 값으로 압축하여 이진 분류를 위해 사용한다. 04-1 로지스틱 회귀 데이터 준비 k-최근접 이웃 분류기의 확률 예측 7개의 생선 종류를 맞추는 문제 다중분류: 2개 이상의 클래스가 포함된 문제 3개의 최근접 이웃을 사용하기 때문에 확률이 0, 1/3, 2/3, 1으로 모두 같다. 로지스틱 회귀 로지스틱 회귀: 회귀이지만 분류 모델로 선형 회귀처럼 선형 방정식을 학습 시그모이드: 0~1 사이의 값으로 바꾸는 함수 로지스틱 회귀로 이진 분류 수행하기 로지스틱 회귀로 다중분류 수행하기 z값에 소프트맥스로 확률을 구한 것과 같은 결과 04-2 확률..