
AbstractRNN은 빠른 inference와 long sequences에서 효율적으로 확장할 수 있다. 하지만 훈련과 확장이 어렵다. 논문은 gated linear recurrences의 Hawk와 gated linear recurrences와 local attention을 적용한 Griffin을 소개한다. Hawk는 다운스트림 task에서 Mamba의 성능을 능가하고, Griffin은 LLama-2의 6배 이상 적은 토큰으로 훈련되었음에도 성능이 일치한다. 모델은 Train 중에 Transformers의 하드웨어 효율성과 일치하고, 동시에 Inference에서 낮은 latency와 throughput이 높다. Griffin을 14B까지 확장하고 효율적인 분산 훈련을 위해 shard하는 방법을 소개한..

Abstract2022년 제출된 이 논문은 Bidirectional Gated SSM을 (BiGS) 제안한다. 당시 CNN, RNN 등으로 Attention을 대체하는 pretrain을 시도하지만 성능이 좋지 않았다. 논문은 BiGS가 처음으로 attention 없이 SSM layer로 BERT수준의 전이학습에 성공했다고 주장한다. Background State Space Modelsstate space model (SSM)은 continuous-time의 스칼라 input $u(t)$와 스칼라 output $y(t)$의 관계를 미분 방정식으로 설명한다. $ x'(t) = Ax(t)+Bu(t)$$y(t) = Cx(t)+Du(t) $ $x(t)\in\mathbb{R}^N$ 은 continuous-time ..

Abstract논문이 나오기 전까지 대부분의 sequence transduction models RNN이나 CNN 기반이었다. 이전 최고 성능의 모델은 encoder와 decorder를 연결하여 attention mechanism을 통하는 방식이었다. 논문은 CNN 또는 RNN을 이용하지 않고 어텐션만을 이용한 Transformer를 소개한다. 실험을 통해 기계 번역 task에서 성능이 뛰어나고 병렬화가 가능해 학습 시간이 더 짧아졌음을 확인했다. 1 IntroductionRNN, LSTM, GRN은시퀀스 모델링 또는 transduction problems에서 SOTA로 자리 잡았다. Recurrent model들은 input position $t$와 이전 hidden state $h_{t-1}$..

Abstract 질의응답, 기계 번역, 요약 등의 자연어 생성 task는 task에 특정한 dataset으로 학습하는 지도학습으로 접근한다. 이 논문에서는 언어 모델이 WebText라는 웹페이지 데이터셋을 지도학습 없이 자연어 생성 task를 학습했습니다. document와 questions을 조건일 때, 언어 모델로 생성된 answer은 CoQA 데이터셋에서 F1점수가 55점을 달성했다. 학습 예시 127,000여 개를 사용하지 않고 4개 중 3개에서 SOTA를 달성했다. 언어 모델의 용량(capacity of the language model)은 zero-shat task의 전이학습에 필수적이다. 용량을 늘리면 task 전반에 걸쳐 선형 로그 형식으로 성능이 향상된다. 논문의 GPT-2는 1.5B 파..