Amazon Bedrock AgentCore Browser의 OS 레벨 액션 소개
최근 Amazon Bedrock AgentCore는 브라우저의 웹 레이어를 넘어 운영 체제(UI) 수준에서의 상호작용을 가능하게 하는 OS 레벨 액션을 발표했습니다. 이는 CDP(Chrome DevTools Protocol)나 Playwright가 처리할 수 없는 플랫폼 전반에 걸친 가시적인 모든 콘텐츠와 상호작용할 수 있도록 설계된 새로운 기능입니다. 이 블로그에서는 이러한 새 기능이 무엇인지, 어떻게 활용할 수 있는지, 실제 사례 및 시작 가이드를 함께 소개합니다.
본문: OS 레벨 액션의 활용과 이점
AgentCore Browser는 웹 레이어와 DOM 내에서의 다양한 자동화를 위해 설계되었습니다. 그러나 운영 체제가 렌더링하는 네이티브 대화 상자나 시스템 프롬프트는 DOM 외부에 위치하여 자동화가 불가능했습니다. 이러한 문제를 해결하기 위해 OS 레벨 액션이 도입되었습니다. 이를 통해 독립적인 API 호출을 통해 운영 체제의 화면 요소를 직접 제어할 수 있으며, OS 전체 데스크톱에 걸쳐 마우스와 키보드 제어를 통한 상호작용이 가능합니다.
OS 레벨 액션은 다음과 같이 세 가지 카테고리로 나뉩니다: 마우스 제어, 키보드 입력, 시각 캡처. 에이전트는 간단한 액션-스크린샷-반응 루프를 통해 동적 UI와 상호작용하며 자동화를 수행합니다. 이 과정에서 순수 웹 레이어에서 해결할 수 없었던 다양한 문제를 해결할 수 있게 됩니다.

실제 사례: 프린트 대화 상자 해제
예를 들어, 사용자의 작업 흐름 중 프린트 대화 상자가 호출되었을 때 OS 레벨 액션을 통해 이를 해제하는 과정을 설명합니다. Vision 모델을 통해 스크린샷을 분석하고, 버튼 좌표를 찾은 뒤, 마우스 클리킹 액션으로 대화 상자를 해제할 수 있습니다. 이로써 웹 레이어의 경계를 넘어 운영 체제의 모든 UI 요소와 완벽히 상호작용할 수 있습니다.
결론
Amazon Bedrock AgentCore Browser의 OS 레벨 액션은 운영 체제의 모든 UI 요소를 제어할 수 있는 기능을 제공함으로써, 웹 기반 자동화의 새로운 방향을 제시합니다. 이러한 기능은 에이전트가 보다 심층적인 분석과 인터랙션을 수행할 수 있게 합니다. AgentCore의 기능을 기반으로 손쉽게 확장 가능한 이 기능을 통해 AI 에이전트의 자동화 작업을 더 넓은 영역으로 확장할 수 있습니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
