
ABSTRACT문제 정의이 논문은 GUI agents 개발이 오픈소스와 차이가 너무 크기 때문에, GPT-4o, GeminiPro-Vision과 같은 상용 비전-언어 모델VLM에 크게 의존하는 한계를 이야기한다.특히 GUI grounding 과 Out-Of-Distribution OOD scenarios에서 오픈소스 모델의 성능이 크게 차이 난다문제 해결 OS-Atlas foundational GUI action model인 OS-Atlas를 개발했다.데이터와 모델링 측면을 개선해 GUI grounding 과 OOD agentic tasks에도 탁월한 성능을 보인다.GUI Data 데이터 합성(Synthesizing GUI grounding data)Windows, Linux, macOS, Androi..
논문 리뷰
2025. 7. 2. 01:55