메뉴 닫기

Dataset Management and Utilization of Amazon Bedrock AgentCore

데이터셋 관리와 Amazon Bedrock AgentCore의 활용 방법 안내

현대의 인공지능 에이전트는 급변하는 온라인 신호와 안정적인 오프라인 기준선을 결합하여 평가될 때 가장 강력한 성능을 발휘합니다. 에이전트가 시간에 따라 진정으로 개선되고 있는지를 이해하려면 고정된 벤치마크와 변동하는 실제 트래픽을 조화롭게 사용해야 합니다. 본 블로그에서는 Amazon Bedrock AgentCore를 통해 에이전트를 평가하는 방법과 그 중요성을 설명합니다.

데이터셋 관리 및 주요 사례

Amazon Bedrock AgentCore에서 데이터셋으로 평가 베이스라인의 테스트 케이스를 관리하는 것은 에이전트 평가에 대한 버전 관리된 테스트 픽스처의 규율을 가져옵니다. 에이전트가 테스트 케이스를 통해 발전하는 방법을 이해하기 위해 예제를 하나 소개합니다. 금융 시장 정보 에이전트를 사용하여 문제점을 파악하고 해결한 다음, 고정된 입력값을 통해 개선 여부를 확인합니다.

개발자 반복 및 CI/CD 평가 루프 다이어그램

에이전트는 비결정적이므로 동일한 입력에서도 다양한 출력을 생성할 수 있습니다. 결과적으로 단일 평가 결과의 유의미성을 판단하기 어렵습니다. 변화가 실제로 유용했는지 판단하기 위해서는 일정한 입력값을 기준으로 한 일관된 측정이 필요합니다.

예제: 시장 동향 에이전트의 작동

시장에서 발생한 실제 문제는 예를 들어, 유지되거나 확산될 수 있습니다. 사용자가 에이전트를 통해 상호작용한 생산 추적을 확보함으로써 사전 정의된 시나리오를 작성할 수 있습니다. 예를 들어, "에이전트가 브로커의 이름과 회사를 식별한다." 같은 방식으로 구체적인 시나리오와 기대하는 행동을 명시하여 보다 정확한 평가를 가능하게 합니다.

데이터셋을 통한 더욱 유용한 평가 체계

  1. 데이터셋의 초안 및 버전 관리: 매번의 수정이 완료되면, 데이터셋의 버전을 출판하여 체크포인트를 고정시킵니다.
  2. 스키마에 따른 검증: 각 시나리오는 선언된 스키마에 따라 검증되어, 비형식적인 예제를 차단합니다.
  3. 다양한 실행기와 통합: 개발 중에는 빠른 피드백을 위해 필요할 때 실행기를 사용하고, 대규모 평가 및 비교 연산시에는 배치 실행기를 사용합니다.

시장 동향 에이전트 아키텍처 다이어그램

결론

Verion 관리 및 스키마 검증된 테스트 케이스는 말 그대로 세워진 기둥과 같습니다. 에이전트의 실패 사례를 소스 데이터로 삼아 향후 개선을 검토할 수 있습니다. Amazon Bedrock AgentCore에서 운영하고 있는 데이터셋 관리 방법은 버전별로 확고한 테스트 케이스를 제공하여, 에이전트의 개선 및 발전에 체계적인 기반을 제공합니다.

더 많은 정보를 얻고자 한다면, Amazon Bedrock AgentCore 문서Market Trends Agent 샘플을 참조하세요.

[1] https://aws.amazon.com/blogs/machine-learning/build-a-test-suite-that-grows-with-your-agent-with-dataset-management-in-amazon-bedrock-agentcore/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기


AI, Cloud 도입 상담 배너