RunPod Serverless로 LLM 배포하기
RunPod Serverless개인 프로젝트나, 개인적으로 LLM을 써보고 싶을 때 GPU가 없을 경우가 많다.서버를 빌리자니 GPU 서버 호스팅 비용도 비싸서 부담이 된다. 그럴 때 RunPod Serverless를 생각해보자.Serverless는 서버에 요청이 들어왔을 때만 GPU가 실행된다.또 GPU가 작동한 초당 사용량으로 비용을 지불한다.GPU 서버를 통째로 빌렸을 때보다 유연하게 사용할 수 있다. RunPod serverless vLLM Endpoint를 이용해서 HuggingFace 모델을 클라우드에서 실행할 수 있다.단 vLLM은 gguf 파일을 지원하지 않기 때문에 다른 방법을 찾아야한다.Docker로 image를 배포 후 컨테이너를 RunPod Serverless에 빌드할 수 있다.링크..
RunPod
2024. 9. 22. 19:12