Gemma 4 VLM, 이제 현장 도면을 '읽기' 시작합니다

기술소식2026. 06. 12.

구글 딥마인드의 오픈웨이트(open-weight) 모델 계열인 Gemma가 4세대로 올라서며, 텍스트와 이미지를 함께 입력받고 일부 모델은 오디오까지 다루는 멀티모달 모델로 확장됐는데요. 최대 256K 토큰의 긴 문맥과 140개 이상 언어 지원까지 더해지면서, "오픈 모델도 장문·멀티모달·다국어를 한 번에, 그리고 온디바이스부터 서버까지 배포한다"는 흐름이 분명해졌습니다.

이 변화가 흥미로운 건, 이미지를 '보고 설명하는' VLM(Vision-Language Model, 시각-언어 모델)의 문턱이 그만큼 낮아졌다는 점인데요. 그동안 기계가 읽기 어려웠던 대표적인 비정형 자료가 바로 건설 현장의 도면입니다. 디지털프레소도 이 기술을 도면 버전 관리에 적용하는 방향을 준비하고 있는데요. 이번 아티클에서는 Gemma 4 같은 오픈 VLM이 무엇을 바꾸는지, 그리고 그 기술이 왜 하필 '도면 버전 관리'라는 오래된 골칫거리와 만나는지 정리해보겠습니다.

Gemma 4와 오픈 멀티모달 모델

오픈 모델이 멀티모달로 넘어왔습니다

구글 딥마인드가 공개한 Gemma 4는 오픈웨이트, 즉 가중치가 공개되어 자체 인프라에 직접 올려 쓸 수 있는 모델 계열인데요. 핵심은 입력의 폭이 넓어졌다는 점입니다. 텍스트와 이미지를 함께 받아들이고, 일부 모델은 오디오까지 처리합니다.

여기에 최대 256K 토큰에 이르는 긴 문맥과 140개 이상 언어 지원이 더해졌습니다. 풀어 말하면, 길고 복잡한 문서 한 묶음을 통째로 넣고, 그 안의 이미지까지 함께 해석하도록 시킬 수 있다는 뜻인데요.

VLM, 이미지를 '읽는' 모델

이번 흐름의 중심에는 VLM이 있습니다. 사진이나 도식 같은 이미지를 입력으로 받아, 그 안에 무엇이 있고 무엇이 달라졌는지를 자연어로 설명해내는 모델입니다. 클라우드 API에 의존하지 않고 온디바이스나 사내 서버에 올려 쓸 수 있는 오픈 모델로 이런 능력이 내려왔다는 점이, 보안과 비용에 민감한 산업 현장에서 특히 의미가 큽니다.

도면 버전 관리가 어려운 이유

도면은 끊임없이 바뀝니다

건설 현장에서 도면은 한 번 확정되고 끝나는 문서가 아닌데요. 설계 변경, 현장 여건, 발주처 요청에 따라 개정(Rev)이 거듭됩니다. 문제는 이 개정본들이 인쇄물·PDF·메신저 공유 이미지 등 여러 경로로 동시에 떠다닌다는 점입니다.

그러다 보면 누군가는 한 단계 지난 버전을 들고 일하고, 누군가는 최신본을 보고 있습니다. "지금 보고 있는 이 도면이 정말 최신인가", 그리고 "이건 대체 언제 바뀐 건가"라는 질문이 현장에서 반복되는 이유입니다.

기존 버전 관리의 한계

지금까지 도면 버전 관리는 대체로 파일명 규칙과 사람의 수기 정리에 기대 왔는데요. 파일명에 'Rev_C', '최종_진짜최종' 같은 꼬리표를 붙이는 방식입니다. 하지만 이 방식은 "무엇이 어떻게 바뀌었는가"도, "그 변경이 언제 일어났는가"도 알려주지 못합니다. 두 개정본 사이의 차이와 그 시점을 알려면, 결국 사람이 두 장을 나란히 놓고 눈으로 대조한 뒤 기억과 메신저 기록을 더듬어야 했습니다.

'무엇이, 언제' 바뀌었는가

이미지는 기계가 읽기 어려웠습니다

근본 원인은 도면이 '이미지'라는 데 있는데요. 텍스트 문서는 검색·비교·이력 추적이 쉽지만, 도면은 선과 기호로 이뤄진 이미지여서 그 안의 의미를 기계가 구조적으로 다루기 어려웠습니다.

그래서 잘못된 버전으로 시공이 진행되면 재작업과 자재 손실로 이어지고, 책임 소재를 가릴 때는 "어느 시점의 어떤 도면을 근거로 작업했는가"가 분쟁의 핵심이 됩니다. 도면 한 장의 버전 혼선이 곧 비용이자 리스크가 되는 구조입니다.

'무엇이'만큼 '언제'가 중요합니다

현장에서 도면 이력은 단순한 차이 목록이 아닌데요. '어느 영역이 바뀌었는가'와 '그 변경이 언제, 어느 버전에서 반영됐는가'가 함께 남아야 비로소 추적과 증빙이 됩니다. 변경 시점이 타임라인으로 정리되어 있으면, 특정 작업이 어느 개정본을 기준으로 진행됐는지를 거슬러 확인할 수 있습니다. 그동안은 이 '언제'가 사람의 기억과 흩어진 대화 속에만 남아 쉽게 휘발됐습니다.

그 벽이 지금 낮아지고 있습니다

VLM의 확장이 의미 있는 지점이 바로 여기인데요. 이미지를 읽고 설명할 수 있는 모델이라면, 두 개정본을 입력받아 "어느 영역이, 어떻게 달라졌는지"를 사람 대신 짚어낼 수 있습니다. 그동안 사람의 눈에만 의존하던 작업이, 처음으로 기계가 거들 수 있는 영역으로 들어온 셈입니다.

VLM 기반 도면 버전 관리

이미 현장별 소통 과정에서 도면을 첨부하고, 사진 촬영 시 장소·시간 메타데이터를 자동으로 매핑해 시공 품질을 증빙하는 기능을 제공하고 있습니다. 디지털프레소는 이 기반 위에 Gemma 4 같은 오픈 VLM을 결합한 도면 버전 관리 기능을 다음 단계로 계획하고 있습니다.

예를 들어 새로 올라온 도면이 이전 개정본과 무엇이 다른지를 모델이 읽어 차이를 짚어주고, 그 변경이 언제 반영됐는지를 시간 메타데이터와 함께 버전 이력으로 자동 기록하는 방향인데요. '무엇이 바뀌었는가'와 '언제 바뀌었는가'가 하나의 타임라인으로 쌓이면, 어떤 버전이 최신인지, 그리고 특정 작업이 어느 시점의 도면을 근거로 했는지까지 거슬러 확인할 수 있습니다. 오픈 모델이기에 도면이라는 민감한 자료를 외부로 내보내지 않고 자체 환경에서 다룰 수 있다는 점도, 이 방향을 택한 이유 중 하나입니다.

디지털프레소는 이 기능을 단계적으로 구체화해 현장에 선보일 계획입니다. 도면 혼선과 증빙 부담을 줄일 방법을 찾고 계시다면, 앞으로의 진행 과정을 함께 지켜봐 주시기를 권해드립니다.

닫으며

오픈 멀티모달 모델의 확장은 단순히 "AI가 똑똑해졌다"는 소식에 그치지 않는데요. 그동안 사람의 눈과 손에만 맡겨졌던 비정형 자료, 특히 현장의 도면 같은 이미지가 비로소 기계가 함께 읽고, 무엇이 언제 바뀌었는지까지 정리할 수 있는 대상이 되었다는 신호에 가깝습니다.

기술이 무르익는 속도와 현장이 그 기술을 받아들이는 속도는 늘 다릅니다. 다만 도면 한 장의 버전과 그 변경 시점을 둘러싼 오래된 비효율이, 이제는 풀 수 있는 문제의 영역으로 들어오고 있다는 점만은 분명해 보입니다. 디지털프레소도 그 변화를 도면 버전 관리라는 구체적인 기능으로 옮기는 과정을, 한 걸음씩 준비해 나가려 합니다.