데이터 주석의 확장과 물리적 AI 시스템
인공지능(AI)과 자율 시스템이 산업 현장에서 활용되면서, 고품질 데이터 세트의 필요성은 점점 더 중요해지고 있습니다. 특히 제조, 물류, 건설, 농업 등 다양한 분야에서 노동력 부족 문제가 대두되면서 자율적인 시스템 개발이 더욱 주목받고 있습니다. 이 글에서는 어떻게 시각-언어 모델(Vision-Language Models, VLMs)을 활용해 비디오 데이터 주석을 자동화하여 물리적 AI 시스템의 데이터를 준비하는지를 다룹니다.
자율 시스템을 위한 비디오 데이터 준비
건설 분야에서 자율성을 강화하기 위해서는 장비, 작업 및 환경을 포착한 방대한 양의 비디오 데이터를 적절히 주석 처리해야 합니다. 하지만 수작업으로 이를 진행하는 데는 한계가 있죠. Bedrock Robotics는 AWS의 물리적 AI 연구소와의 협력을 통해 시각-언어 모델을 사용하여 이러한 문제를 해결하였습니다. 이 모델들은 이미지와 비디오를 분석하고, 자연어 질의에 응답하며, 설명을 생성하여 AI 모델 학습할 수 있는 대규모 주석 데이터 세트를 효과적으로 제공합니다.
Bedrock Robotics의 솔루션은 건설 장비의 자율 운영을 위한 데이터를 준비하는 데 혁신적입니다. 이 회사의 Bedrock Operator는 하드웨어와 AI 모델을 결합하여 굴착기 같은 장비가 최소한의 인간 개입으로 작동할 수 있도록 합니다. VLMs는 이러한 과정에서 중요한 역할을 하며, 다양한 장비 구성 및 운영 조건을 대표하는 훈련 데이터 세트를 조립할 수 있게 돕습니다.
모델 최적화 및 AI 배포 가속화
Powerting Systems에 최적화되지 않은 VLMs는 건설 비디오 데이터에 혼란을 겪을 수 있습니다. 하지만 Bedrock Robotics는 효과적인 모델 선택과 프롬프트 최적화를 통해 이 문제를 해결하였습니다. 시각적으로 유사한 도구를 구별하는 지침과 비디오 프레임 분석 단계를 포함한 프롬프트를 수작업으로 설계하여, 프롬프트 엔지니어링을 통한 정확성을 크게 개선하였습니다. 이러한 노력으로 테스트 세트에서 34%였던 분류 정확성이 70%로 향상되었습니다.
자동화를 통한 노동력 문제의 해결
Bedrock Robotics의 사례는 높은 자동화 수준 도달할 수 있음을 보여줍니다. VLMs는 방대한 양의 건설 비디오 데이터를 분석, 주석화하여 학습 데이터를 준비하는 데 직접적이고 실용적인 기초를 제공합니다. 이를 통해 AI 모델의 훈련 및 배포 주기를 가속화하고, 산업 전반에 걸쳐 혁신을 촉진합니다.
이러한 프레임워크는 제조 및 산업 자동화 리더들이 유사한 문제에 직면했을 때 경쟁력을 확보하는 데 활용될 수 있습니다.
[1] 원문 URL: [블로그 본문 링크]
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
