목록2024/04 (1)
HJunS
[GPT-2]language models are unsupervised multitask learners
Abstract 질의응답, 기계 번역, 요약 등의 자연어 생성 task는 task에 특정한 dataset으로 학습하는 지도학습으로 접근한다. 이 논문에서는 언어 모델이 WebText라는 웹페이지 데이터셋을 지도학습 없이 자연어 생성 task를 학습했습니다. document와 questions을 조건일 때, 언어 모델로 생성된 answer은 CoQA 데이터셋에서 F1점수가 55점을 달성했다. 학습 예시 127,000여 개를 사용하지 않고 4개 중 3개에서 SOTA를 달성했다. 언어 모델의 용량(capacity of the language model)은 zero-shat task의 전이학습에 필수적이다. 용량을 늘리면 task 전반에 걸쳐 선형 로그 형식으로 성능이 향상된다. 논문의 GPT-2는 1.5B 파..
논문 리뷰
2024. 4. 12. 14:45