
Abstract 자연어 이해(Natural language understanding)는 textual entailment, question answering, semantic similarity assessment, document classification처럼 다양한 작업으로 구성된다. unlabeled text data는 많지만, 특정 task를 학습하기 위한 labeled data는 부족하다. 따라서 특정 task에서 차별적으로 훈련된 모델이 적절히 수행하기 어렵다. 이 논문은 다양한 unlabeled text로 generative pre-training 학습 후, 각 특정 task에 discriminative fine-tuning을 추가하면 언어모델 자연어 이해의 다양한 task에서 이점을 얻을 ..

Abstract Mixtral 8x7B는 Sparse Mixture of Experts(SMoE) 언어 모델이다. Mistral 7B와 같은 아키텍처이며 각 레이어는 8개의 Feedforward blocks(experts)로 구성된다. 모든 토큰은 각 레이어에서 router network가 선택한 두 개의 expert와 결합된다. 선택된 expert는 각 timestep에서 다를 수 있다. 결론적으로 각 토큰은 47B 파라미터에 접근할 수 있지만, 추론(inference)에서 13B의 active parameters만 사용한다. context size는 32k 토큰으로 훈련되었다. Llama2 70B, GPT-3.5로 벤치마크 성능을 평가했고, 특히 수학, 코드 생성 부분에서 Llama2 70B보다 뛰어..