RunPod Serverless개인 프로젝트나, 개인적으로 LLM을 써보고 싶을 때 GPU가 없을 경우가 많다.서버를 빌리자니 GPU 서버 호스팅 비용도 비싸서 부담이 된다. 그럴 때 RunPod Serverless를 생각해보자.Serverless는 서버에 요청이 들어왔을 때만 GPU가 실행된다.또 GPU가 작동한 초당 사용량으로 비용을 지불한다.GPU 서버를 통째로 빌렸을 때보다 유연하게 사용할 수 있다. RunPod serverless vLLM Endpoint를 이용해서 HuggingFace 모델을 클라우드에서 실행할 수 있다.단 vLLM은 gguf 파일을 지원하지 않기 때문에 다른 방법을 찾아야한다.Docker로 image를 배포 후 컨테이너를 RunPod Serverless에 빌드할 수 있다.링크..
AbstractRNN은 빠른 inference와 long sequences에서 효율적으로 확장할 수 있다. 하지만 훈련과 확장이 어렵다. 논문은 gated linear recurrences의 Hawk와 gated linear recurrences와 local attention을 적용한 Griffin을 소개한다. Hawk는 다운스트림 task에서 Mamba의 성능을 능가하고, Griffin은 LLama-2의 6배 이상 적은 토큰으로 훈련되었음에도 성능이 일치한다. 모델은 Train 중에 Transformers의 하드웨어 효율성과 일치하고, 동시에 Inference에서 낮은 latency와 throughput이 높다. Griffin을 14B까지 확장하고 효율적인 분산 훈련을 위해 shard하는 방법을 소개한..
캐글을 처음 시작할 때 환경과 용어가 익숙하지 않아서 헤맨 적이 있다.캐글 메달리스트가 알려주는 캐글 노하우 책과 개인적으로 헤맨 경험을 요약했다. Competitions대회에 관한 간략한 설명 Competition Submission 서브미션 방식에 따라서 Simple Competition과 Code Competition으로 나뉜다. 1. Simple Competition직접 csv 파일 등을 업로드하여 서브미션을 만들 수 있다. Kaggle 외부에서, 로컬 컴퓨터로 학습 후 정답지를 제출해서 csv 파일만 제출할 수 있다. 2. Code Competition 정답 파일을 만들 수 있는 '캐글 노트북'을 제출해야 한다. 따라서 외부에서 실행하지 않고, 캐글 노트북에서 실행할 수 있어야 한다. 일반적..
Abstract2022년 제출된 이 논문은 Bidirectional Gated SSM을 (BiGS) 제안한다. 당시 CNN, RNN 등으로 Attention을 대체하는 pretrain을 시도하지만 성능이 좋지 않았다. 논문은 BiGS가 처음으로 attention 없이 SSM layer로 BERT수준의 전이학습에 성공했다고 주장한다. Background State Space Modelsstate space model (SSM)은 continuous-time의 스칼라 input $u(t)$와 스칼라 output $y(t)$의 관계를 미분 방정식으로 설명한다. $ x'(t) = Ax(t)+Bu(t)$$y(t) = Cx(t)+Du(t) $ $x(t)\in\mathbb{R}^N$ 은 continuous-time ..