메뉴 닫기

아마존 베드록 에이전트코어에서 사용자 정의 코드 기반 평가 방법

<게시물 시작>

아마존 베드록 에이전트코어에서 사용자 정의 코드 기반 평가 방법

소개

아마존 베드록 에이전트코어는 복잡한 AI 시스템 구축에 큰 도움이 됩니다. 이 시스템은 특히 사용자 정의 코드 기반 평가자를 통해 에이전트의 품질을 다각도로 평가할 수 있어 그 활용도가 뛰어납니다. 이 글에서는 코드 기반 평가자의 유용성과 배포 가이드라인을 통해 에이전트 품질을 측정하고 개선하는 방법을 소개합니다.

본문

아마존 베드록 에이전트코어의 평가 기능은 텍스트 처리의 한계를 넘어 금융 서비스 및 특화된 분야에서 중요하게 사용됩니다. 이러한 평가자는 시스템의 품질, 자동화, 그리고 개발 워크플로우와 CI/CD 파이프라인에 중요한 역할을 합니다.

코드 기반 평가자의 유용성

사용자 정의 코드 기반 평가자는 AWS Lambda 함수를 통해 평가 엔진으로 사용할 수 있습니다. 이러한 평가자는 레거시 시스템과의 통합, 외부 데이터 조회, 명확한 비즈니스 규칙을 통해 사용자에게 더 직접적인 제어를 제공합니다. 또한 LLM-as-a-Judge와 결합하여 언어적 명확성과 계약 준수 여부를 함께 평가합니다.

주요 사례

금융 시장 인텔리전스 에이전트를 예로 들면, 사용자는 4개의 람다 기반 평가자를 구현하여 에이전트의 품질을 가늠할 수 있습니다. 이 방법으로 개발 및 CI/CD 환경에서 유연하게 사용 가능하며, 본격적으로 제품 환경에서 활성화하는 경우에도 동일한 구조를 통해 에이전트를 평가함으로써 오차를 줄일 수 있습니다.

AWS Lambda 호출 패턴 비교

평가자의 수명 주기

코드 기반 평가자는 TRACE, TOOL_CALL, 및 SESSION 수준을 지원하며, 각 수준에 따라 개별적으로 람다 함수를 등록할 수 있습니다. 이렇게 하면 각 에이전트 프레임워크의 다른 트레이스에서 일관되게 평가할 수 있습니다.

온라인 및 온디맨드 평가 흐름

온라인 및 온디맨드 모드

온라인 평가는 실시간으로 에이전트 세션을 샘플링하여 평가하고 결과를 클라우드와치에 기록합니다. 온디맨드 평가는 개발과 CI/CD 단계에서 필요에 따라 동기화된 평가를 제공합니다. 이때, 평가 대상 케이스는 최대 10개까지 참조할 수 있습니다.

결론

사용자 정의 코드 기반 평가자는 에이전트 품질 관리에 중요하며, 계약 기반의 신뢰성을 구축하는 데 기여합니다. 아마존 베드록 에이전트코어는 사용자가 비즈니스 규칙에 맞춰 평가 로직을 수정하고,이를 통해 제품에서 일관된 품질 신호를 제공합니다.

[1] https://aws.amazon.com/blogs/machine-learning/build-custom-code-based-evaluators-in-amazon-bedrock-agentcore/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너

<게시물 끝>