목록분류 전체보기 (10)
HJunS
Abstract 질의응답, 기계 번역, 요약 등의 자연어 생성 task는 task에 특정한 dataset으로 학습하는 지도학습으로 접근한다. 이 논문에서는 언어 모델이 WebText라는 웹페이지 데이터셋을 지도학습 없이 자연어 생성 task를 학습했습니다. document와 questions을 조건일 때, 언어 모델로 생성된 answer은 CoQA 데이터셋에서 F1점수가 55점을 달성했다. 학습 예시 127,000여 개를 사용하지 않고 4개 중 3개에서 SOTA를 달성했다. 언어 모델의 용량(capacity of the language model)은 zero-shat task의 전이학습에 필수적이다. 용량을 늘리면 task 전반에 걸쳐 선형 로그 형식으로 성능이 향상된다. 논문의 GPT-2는 1.5B 파..
Abstract 자연어 이해(Natural language understanding)는 textual entailment, question answering, semantic similarity assessment, document classification처럼 다양한 작업으로 구성된다. unlabeled text data는 많지만, 특정 task를 학습하기 위한 labeled data는 부족하다. 따라서 특정 task에서 차별적으로 훈련된 모델이 적절히 수행하기 어렵다. 이 논문은 다양한 unlabeled text로 generative pre-training 학습 후, 각 특정 task에 discriminative fine-tuning을 추가하면 언어모델 자연어 이해의 다양한 task에서 이점을 얻을 ..
07 딥러닝을 시작합니다. 07-1 인공 신경망 MNIST 패션데이터 분류 데이터 준비 로지스틱 회귀로 패션 아이템 분류 인공 신경망으로 모델 만들기 데이터 준비 인경 신경망으로 패션 아이템 분류 기본 미션 07-1 확인 문제 1. 어떤 인공 신경망의 입력 특성이 100개이고 밀집층에 있는 뉴런 개수가 10개일 때 필요한 모델 파라미터의 개수는? 정답: 1010개 절편(b) 10+ 100*10=1010 2. 케라스의 Dense 클래스를 사용해 신경망의 출력층을 만들려고 합니다. 이 신경망이 이진 분류 모델이라면 activation 매개변수에 어떤 활성화 함수를 지정해야 하나요? 정답: 2번 sigmoid 3. 케라스 모델에서 손실함수와 측정 지표 등을 지정하는 메서드는 무엇인가요? 정답: 4번 compi..
Abstract Mixtral 8x7B는 Sparse Mixture of Experts(SMoE) 언어 모델이다. Mistral 7B와 같은 아키텍처이며 각 레이어는 8개의 Feedforward blocks(experts)로 구성된다. 모든 토큰은 각 레이어에서 router network가 선택한 두 개의 expert와 결합된다. 선택된 expert는 각 timestep에서 다를 수 있다. 결론적으로 각 토큰은 47B 파라미터에 접근할 수 있지만, 추론(inference)에서 13B의 active parameters만 사용한다. context size는 32k 토큰으로 훈련되었다. Llama2 70B, GPT-3.5로 벤치마크 성능을 평가했고, 특히 수학, 코드 생성 부분에서 Llama2 70B보다 뛰어..