Abstract논문이 나오기 전까지 대부분의 sequence transduction models RNN이나 CNN 기반이었다. 이전 최고 성능의 모델은 encoder와 decorder를 연결하여 attention mechanism을 통하는 방식이었다. 논문은 CNN 또는 RNN을 이용하지 않고 어텐션만을 이용한 Transformer를 소개한다. 실험을 통해 기계 번역 task에서 성능이 뛰어나고 병렬화가 가능해 학습 시간이 더 짧아졌음을 확인했다. 1 IntroductionRNN, LSTM, GRN은시퀀스 모델링 또는 transduction problems에서 SOTA로 자리 잡았다. Recurrent model들은 input position $t$와 이전 hidden state $h_{t-1}$..
Abstract 질의응답, 기계 번역, 요약 등의 자연어 생성 task는 task에 특정한 dataset으로 학습하는 지도학습으로 접근한다. 이 논문에서는 언어 모델이 WebText라는 웹페이지 데이터셋을 지도학습 없이 자연어 생성 task를 학습했습니다. document와 questions을 조건일 때, 언어 모델로 생성된 answer은 CoQA 데이터셋에서 F1점수가 55점을 달성했다. 학습 예시 127,000여 개를 사용하지 않고 4개 중 3개에서 SOTA를 달성했다. 언어 모델의 용량(capacity of the language model)은 zero-shat task의 전이학습에 필수적이다. 용량을 늘리면 task 전반에 걸쳐 선형 로그 형식으로 성능이 향상된다. 논문의 GPT-2는 1.5B 파..
Abstract 자연어 이해(Natural language understanding)는 textual entailment, question answering, semantic similarity assessment, document classification처럼 다양한 작업으로 구성된다. unlabeled text data는 많지만, 특정 task를 학습하기 위한 labeled data는 부족하다. 따라서 특정 task에서 차별적으로 훈련된 모델이 적절히 수행하기 어렵다. 이 논문은 다양한 unlabeled text로 generative pre-training 학습 후, 각 특정 task에 discriminative fine-tuning을 추가하면 언어모델 자연어 이해의 다양한 task에서 이점을 얻을 ..
07 딥러닝을 시작합니다. 07-1 인공 신경망 MNIST 패션데이터 분류 데이터 준비 로지스틱 회귀로 패션 아이템 분류 인공 신경망으로 모델 만들기 데이터 준비 인경 신경망으로 패션 아이템 분류 기본 미션 07-1 확인 문제 1. 어떤 인공 신경망의 입력 특성이 100개이고 밀집층에 있는 뉴런 개수가 10개일 때 필요한 모델 파라미터의 개수는? 정답: 1010개 절편(b) 10+ 100*10=1010 2. 케라스의 Dense 클래스를 사용해 신경망의 출력층을 만들려고 합니다. 이 신경망이 이진 분류 모델이라면 activation 매개변수에 어떤 활성화 함수를 지정해야 하나요? 정답: 2번 sigmoid 3. 케라스 모델에서 손실함수와 측정 지표 등을 지정하는 메서드는 무엇인가요? 정답: 4번 compi..