티스토리 뷰
Abstract
- 자연어 이해(Natural language understanding)는 textual entailment, question answering, semantic similarity assessment, document classification처럼 다양한 작업으로 구성된다.
- unlabeled text data는 많지만, 특정 task를 학습하기 위한 labeled data는 부족하다. 따라서 특정 task에서 차별적으로 훈련된 모델이 적절히 수행하기 어렵다.
- 이 논문은 다양한 unlabeled text로 generative pre-training 학습 후, 각 특정 task에 discriminative fine-tuning을 추가하면 언어모델 자연어 이해의 다양한 task에서 이점을 얻을 수 있음을 확인했다.
- 이전 접근 방식과 달리 fine-tuning에서 task에 적합한 input의 형태로 변형하여(input transformation) 모델의 아키텍처 수정을 최소화하고 효과적인 전이(transfer)를 달성한다.
- 논문에서 제시한 general task-agnostic model은 각 task를 해결하기 위해 특별히 제작된 아키텍처를 사용한 모델인 discriminatively trained models보다 뛰어났다. 12개의 task 중 9개는 SOTA를 달성하였다.
1 Introduction
원본 텍스트를 효율적으로 학습할 수 있는 능력은 차연어 처리에서 지도학습(supervised learning)의 의존도를 낮추는 데 중요하다. 대부분의 딥러닝에서 많은 양의 라벨이 지정된 데이터가 필요하고, 이는 주석이 달린 리소스가 부족한 많은 도메인에서 적용가능성을 제한합니다. 이런 상황에서 라벨이 없는 데이터의 언어 정보를 활용할 수 있는 모델은 시간과 비용이 더 많이 소요될 수 있는 라벨 데이터를 수집하는 방법의 대안이 된다. 또한 지도학습 (supervision)이 가능해도, 비지도 학습에서 좋은 표현 방식을 학습하면 큰 성능 향상을 이끌 수 있다.
언라벨 텍스트에서 단어 수준 정보(word-level information) 이상으로 활용하는 준지도 학습(semi-supervised learning)의 효율적인 개발은 두 가지 이유로 어렵다.
- transfer(전이)에 유용한 text representations을 학습하는 데 어떤 유형의 최적화 목적이 가장 효율적인지 명확하지 않다. 언어 모델링, 기계 번역, 담화 일관성 등의 task에서 각각의 방법은 서로 다른 방법보다 성능이 뛰어나다.
- 학습된 표현을 target task에 전이하는 효율적인 방법이 논의되지 않았다. 기존 기술에는 task-specific하게 모델 아키텍처의 변경, 복잡한 학습 체계 사용, 보조 학습 목 추가 등의 방법이 있었다.
이 논문은 unsupervised pre-training과 supervised fine-tuning의 조합을 언어 이해 task에 사용하는 semi-supervised 접근 방식을 탐색한다. 목표는 다양한 task에 적용할 수 있는 보편적인 표현을 전이 학습하는 것이다.
대량의 언라벨 텍스트와 타겟 태스크에서 쓰일 조금의 라벨 데이터셋 있을 때를 가정한다. 여기서 언라벨 텍스트는 타겟 텍스트의 도메인과 같을 필요는 없다. 따라서 2단계로 학습한다.
- 언라벨 데이터에 대한 언어 모델링 목표를 사용하여 신경망 모델의 초기 파라미터를 학습한다.
- 이 파라미터를 타겟 태스크에서 지도 학습에 적용한다.
모델은 Transformer 아키텍처를 사용한다. 언어 이해 task의 자연어 추론, 질의응답, 문장 유사도, 문장 분류에서 평가했다. 12개의 task 중 9개에서 state of art를 달성했다. 또한 사전학습 모델의 zero-shot behaviors를 분석하고 다운스트림 테스크에서 유용한 언어 지식을 습득한다는 것을 입증했다.
2 Related Work
Semi-supervised learning for NLP
논문의 작업은 자연어에 대한 준지도 학습에 속한다. 준지도 학습의 초기 접근법은 레이블이 지정되지 않은 데이터를 사용해 단어 수준 또는 구문 수준의 통계를 연산한 다음 지도 학습 모델에 특성을 적용했다. 연구자들은 언라벨 텍스트를 학습한 단어 임베딩을 사용해 다양한 작업의 성능을 향상시키는 이점을 증명했다. 하지만 이러한 접근 방식은 주로 단어 수준의 정보를 전달하기 때문에 논문에서는 더 높은 수준의 의미를 얻는 것을 목표로 한다.
Unsupervised pre-training
비지도 사전학습은 지도학습의 목표를 수정하는 대신 좋은 initialization point를 찾아주는 준지도학습의 특별한 케이스이다. 초기 연구는 이미지 분류 및 회귀 작업에서 사용하는 방법을 탐구했다. 후속 연구에서는 사전 훈련이 정규화 체계(regularization scheme) 역할을 하여 심층 신경망에서 더 나은 일반화를 가능하게 한다는 것을 보여주었다.
논문과 가장 가까운 작업은 language modeling objective를 사용하여 신경망을 사전 훈련한 다음 타겟 테스크에 지도학습으로 미세조정 하는 것이다. 기존 LSTM 모델을 사용하면 예측 능력이 문장이 짧은 길이로 범위가 제한된다. 반면 트랜스포머 네트워크는 더 긴 길이의 언어 구조를 포착할 수 있다.
다른 접근 방식으로 언어를 사전학습된 언어 또는 기계 번역 모델의 auxiliary features를 hidden representations으로 사용하는 동시에 타겟 테스크에 지도 모델을 학습합니다. 여기서 상당한 양의 새로운 파라미터가 포함되지만 전이 동안에는 모델 아키텍처의 변화는 최소한으로 해야 한다.
Auxiliary training objectives
Auxiliary unsupervised training objectives를 추가하는 것은 준지도 학습의 대안이다. POS 태깅, chunking, entity recognition 그리고 language modeling과 같은 다양한 보조 NLP 작업(auxiliary NLP tasks)으로 의미론적 역할 라벨링을 개선했다. 최근 auxiliary language modeling objective를 타겟 테스크의 목표에 추가하고 시퀀스 라벨링 테스크에서 성능 향상을 입증했다. 논문에서도 auxiliary objective를 사용하지만 비지도 사전학습은 이미 몇 가지 언어적 측면을 학습한 것을 논문에서 보여준다.
3 Framework
3.1 Unsupervised pre-training
비지도된 토큰 말뭉치 $\textit{U} = {u_1, . . . , u_n}$가 주어졌을 때, standard language modeling objective를 사용하여 likelihood를 극대화한다.
- $L_1( \textit{U}) = \sum\limits_{i}\log{P(u_i|u_{i-k},...,u_{i-1});\Theta)}$
- $k$ : context window의 size
- 조건부 확률 $P$는 $\Theta$ 를 파라미터로 쓰는 신경망을 사용하여 모델링된다.
실험에서는 multi-layer Transformer decoder 언어 모델을 사용한다. 이 모델은 multi-headed self-attention 연산을 input context tokens에 적용하고 position-wise 피드포워드 레이어를 적용하여 타겟 토큰에 대한 output 분포를 생성한다.
- $h_0 = UW_e + W_p$
- $U = u_{-k},...,u_{-1}) $ : 토큰의 context vector
- $W_e$ 토큰 임베딩 행렬
- $W_p$ 포지션 임베딩 행렬
- $h_l = transformer\_block(h_l-1)\forall_i \in [1,n]$
- $n$ : layer의 수
- $P(u) = softmax(h_nW_e^T)$
3.2 Supervised fine-tuning
앞선 $L_1( \textit{U}) = \sum\limits_{i}\log{P(u_i|u_{i-k},...,u_{i-1});\Theta)}$
비지도 사전학습에서 위의 목적(objective) 식으로 학습 후, 지도 타겟 테스크에 파라미터를 조정한다.
- $C$: 라벨 데이터 셋의 구성
- input : $x^1,...,x^m$ 토큰의 시퀀스
- label : $y$
input은 최종 transformer block’s activation $h_l^m$ 을 얻기 위해서 사전 훈련 모델을 통과한다.
이후 $y$를 예측하기 위해서 추가된 선형 출력 레이어와 파라미터 $W_y$에 전달된다.
- $P(y|x^1,...,x^m) = softmax(h_l^mW_y)$
위의 식으로 극대화하는 목적식은 다음과 같다.
- $L_2(C) = \sum\limits_{(x, y)}\log(P(y|x^1, ..., x^m)$
추가적으로 언어 모델링 auxiliary objective를 추가했을 때 학습에 도움이 되는 두 가지 효과를 확인했다.
- 지도 모델의 일반화 개선
- 수렴을 가속화
- $ L_3(C) = L_2(C) + \lambda∗ L_1(C) $
- weight 람다를 사용해 목적식을 최적화한다.
정리하면 파인튜닝에서 추가적인 파라미터는 $W_y$와 임베딩을 구분하기 위한 토큰이다.
3.3 Task-specific input transformations
사전학습에서 연속된 텍스트 시퀀스에 대해 학습했다. 텍스트 분류, 질의응답 등 특정 테스크에서 미세 조정하기 위해서 구조화된 input으로 수정이 필요하다. 이 논문에서는 사전 학습 모델이 처리할 수 있도록 정렬된 시퀀스로 input의 구조를 전환한다. 이렇게 입력을 변환하면 테스크에 맞춰서 아키텍처를 크게 바꾸지 않아도 된다.
테스크에 맞게 파인 튜닝할 때, 사전학습 모델에 적용하도록 입력의 구조를 전환한다. 이후 linear+softmax layer를 적용한다. 모든 트랜스포머는 랜덤으로 초기화된 start token <s>과 end token<e>를 가진다.
4 Experiments
4.1 Setup
Unsupervised pre-training
BooksCorpus dataset을 사용했다. 7000권 이상의 모험, 판타지, 로맨스 등 다양한 장르의 책이 포함됐다. 여기에는 긴 연속 텍스트가 포함돼 long-range의 정보를 생성 모델이 학습할 수 있다. 유사한 접근 방식인 ELMo의 1B 벤치마크 데이터셋도 데이터의 규모는 비슷하지만 문장 단위로 섞여 long-range 구조가 파괴된. 이 논문의 모델은 낮은 수준의 perplexity가 18.4를 달성했다.
Model specifications
- 12-layer decoder-only transformer
- masked self-attention heads (768차원 12 attention heads)
- position-wise feed-forward networks(3072 차원)
- Adam optimization
- max learning rate : 2.5e-4
- learning rate는 0부터 2000스텝까지 상승 후 cosine schedule 0으로 학습
- 연속 시퀀스 512개 토큰을 랜덤 샘플된 64개의 미니 배치로 100 에폭을 학습
- layernorm은 모델 전체적으로 사용하기 때문에 가중치를 N(0, 0.02)으로 초기화
- bytepair encoding (BPE)을 사용해 40000 vocab을 merge 후 잔차, 임베딩, attention dropouts을 0.1 비율로 정규화
- L2 regularization w = 0.01
- activation function : GELU
- 학습된 position embeddings 사용
- BooksCorpus의 raw text 를 정제하기 위해서 ftfy 사전을 사용, 문장 부호와 공백을 표준화, spaCy 토크나이저 사용
Fine-tuning details
비지도 사전 학습의 하이퍼 파라미터를 재사용
- classifier의 dropout : 0.1
- learning rate : 6.25e-5
- batchsize : 32
- epoch : 3
- schedule: linear
- warmup : 0.2%
- $\lambda$ : 0.5
4.2 Supervised fine-tuning
자연어 추론, 질의응답, 의미 유사도, 문장 분류 등 다양한 테스크를 수행한다. GLUE 벤치마크에 적용 가능하다.
5 Analysis
Impact of number of layers transferred
논문에서 전이 학습에서 레이어 수의 영향을 관찰했다. MultiNLI와 RACE에서 전이할 때 layer의 수의 기능을 확인했다. 임베딩 전이하면 성능이 향상되고, MultiNLI의 full transfer에서 각 transformer layer는 전이에서 9% 추가 이점을 제공한다는 점을 표준 결과로 확인했다. 이것은 사전학습 모델의 각 layer에 타겟 테스크를 해결하는 데 유요한 기능이 포함됨을 나타낸다.
Zero-shot Behaviors
논문은 사전학습된 트랜스포머가 더 이해를 잘하는지 확인하고 싶었다. 가설은 기본 생성 모델(underlying generative model)이 언어 모델링의 다양한 테스크를 수행하는 방법을 학습하고, LSTM들과 비교했을 때 트랜스포머의 attentional memory가 전이를 돕는다이다. 논문은 파인 튜닝을 하지 않고 작동하는 기본 생성 모델(underlying generative model)을 사용하여 휴리스틱 솔루션을 설계했다.
표에서는 사전학습이 업데이트 될 때마다 각각 다른 테스크의 zero-shot 성능 평가를 보여준다. 이러한 휴리스틱 성능이 학습의 진행에 따라 안정적이고 꾸준히 증가하는 것은 사전훈련이 다양한 테스크의 관련 기능을 지원한다는 것을 시사한다. 또한 LSTM이 제로샷 성능에서 variance가 높은 것이 관찰되었는데, 이는 트랜스포머 아키텍처가 전이에서 inductive bias 에 도움이 됨을 시사한다.
파인튜닝과 layer의 수정 없이 input만으로 테스크를 평가한 방법은 다음과 같다.
- linguistic acceptability : 생성모델의 average token log-probability로 thresholding으로 예측
- sentiment analysis : 예제에 very 토큰을 추가 언어 모델의 출력 분포를 positive, negative 둘로 제한했을 때 더 높은 확률을 할당하는 토큰으로 예측
- question answering : 질문에 생성모델이 조건부 확률로 문장을 생성했을 때 average token log-probability가 가장 높은 답변으로 예측
6 Conclusion
generative pre-training과 discriminative fine-tuning을 통해 다양한 테스크에 사용할 수 있는 프레임워크를 도입했다. 긴 길이의 연속 텍스트를 사전학습해 세계 지식과 long-range dependencies(장거리 의존성)을 해결할 능력을 습득했다. 이후 질의응답, 의미 유사도 추론, 텍스트 분류 등 다양한 테스크(discriminative tasks)에 전이학습해 12개의 데이터 셋 중 9개에서 sota를 달성했다.
'논문 리뷰' 카테고리의 다른 글
Griffin: Mixing Gated Linear Recurrences withLocal Attention for Efficient Language Models (0) | 2024.07.19 |
---|---|
[BiGS]Pretraining Without Attention(SSM) (0) | 2024.06.10 |
[Transformer] Attention Is All You Need (0) | 2024.04.25 |
[GPT-2]language models are unsupervised multitask learners (0) | 2024.04.12 |
[Mixtral 8x7B] Mixtral of Experts 리뷰 (0) | 2024.01.29 |