
ABSTRACT문제 정의이 논문은 GUI agents 개발이 오픈소스와 차이가 너무 크기 때문에, GPT-4o, GeminiPro-Vision과 같은 상용 비전-언어 모델VLM에 크게 의존하는 한계를 이야기한다.특히 GUI grounding 과 Out-Of-Distribution OOD scenarios에서 오픈소스 모델의 성능이 크게 차이 난다문제 해결 OS-Atlas foundational GUI action model인 OS-Atlas를 개발했다.데이터와 모델링 측면을 개선해 GUI grounding 과 OOD agentic tasks에도 탁월한 성능을 보인다.GUI Data 데이터 합성(Synthesizing GUI grounding data)Windows, Linux, macOS, Androi..

RunPod Serverless개인 프로젝트나, 개인적으로 LLM을 써보고 싶을 때 GPU가 없을 경우가 많다.서버를 빌리자니 GPU 서버 호스팅 비용도 비싸서 부담이 된다. 그럴 때 RunPod Serverless를 생각해보자.Serverless는 서버에 요청이 들어왔을 때만 GPU가 실행된다.또 GPU가 작동한 초당 사용량으로 비용을 지불한다.GPU 서버를 통째로 빌렸을 때보다 유연하게 사용할 수 있다. RunPod serverless vLLM Endpoint를 이용해서 HuggingFace 모델을 클라우드에서 실행할 수 있다.단 vLLM은 gguf 파일을 지원하지 않기 때문에 다른 방법을 찾아야한다.Docker로 image를 배포 후 컨테이너를 RunPod Serverless에 빌드할 수 있다.링크..

AbstractRNN은 빠른 inference와 long sequences에서 효율적으로 확장할 수 있다. 하지만 훈련과 확장이 어렵다. 논문은 gated linear recurrences의 Hawk와 gated linear recurrences와 local attention을 적용한 Griffin을 소개한다. Hawk는 다운스트림 task에서 Mamba의 성능을 능가하고, Griffin은 LLama-2의 6배 이상 적은 토큰으로 훈련되었음에도 성능이 일치한다. 모델은 Train 중에 Transformers의 하드웨어 효율성과 일치하고, 동시에 Inference에서 낮은 latency와 throughput이 높다. Griffin을 14B까지 확장하고 효율적인 분산 훈련을 위해 shard하는 방법을 소개한..

캐글을 처음 시작할 때 환경과 용어가 익숙하지 않아서 헤맨 적이 있다.캐글 메달리스트가 알려주는 캐글 노하우 책과 개인적으로 헤맨 경험을 요약했다. Competitions대회에 관한 간략한 설명 Competition Submission 서브미션 방식에 따라서 Simple Competition과 Code Competition으로 나뉜다. 1. Simple Competition직접 csv 파일 등을 업로드하여 서브미션을 만들 수 있다. Kaggle 외부에서, 로컬 컴퓨터로 학습 후 정답지를 제출해서 csv 파일만 제출할 수 있다. 2. Code Competition 정답 파일을 만들 수 있는 '캐글 노트북'을 제출해야 한다. 따라서 외부에서 실행하지 않고, 캐글 노트북에서 실행할 수 있어야 한다. 일반적..