Beekeeper의 Amazon Bedrock 기반 LLM 자동 평가 및 최적화 사례

개발자와 머신러닝 시스템 전문가를 위한 Beekeeper의 Amazon Bedrock 활용 사례

최근 대규모 언어 모델(LLM)의 빠른 발전으로 인해 조직이 최상의 사용 사례에 맞는 모델을 선택하고, 프롬프트를 최적화하며, 사용자 맞춤형 응답을 구축하는 것이 점점 더 어려워지고 있습니다. 특히 중소 규모의 팀은 다양한 모델과 프롬프트 조합을 평가하고 운영 환경에 안정적으로 배포하는 데 어려움을 겪곤 합니다.

이 문제에 대응하기 위해, 프론트라인 근로자 전용 디지털 워크플레이스 플랫폼을 제공하는 Beekeeper는 Amazon Bedrock 기반의 자동화된 LLM 최적화 시스템을 개발해 주목받고 있습니다. 이 시스템은 모델 및 프롬프트를 지속적으로 테스트하고, 성능을 평가한 뒤, 실시간 리더보드를 통해 최적의 조합으로 요청을 라우팅합니다.

Beekeeper의 방법론: 자동화된 프롬프트·모델 평가 & 사용자 피드백 기반의 최적화

Beekeeper의 솔루션은 크게 두 가지 단계로 구성됩니다. 첫 번째는 프롬프트 및 모델 후보군을 평가해 기준 리더보드를 생성하는 단계이고, 두 번째는 사용자 피드백을 활용해 프롬프트를 개인화하는 단계입니다. 이 시스템은 AWS의 다양한 구성 요소를 활용하여 전자동화된 프로세스를 구현합니다.

Beekeeper LLM 자동 평가 시스템 아키텍처 다이어그램

예를 들어 Amazon EventBridge는 작업 예약을 담당하며, Amazon EKS는 플로우 오케스트레이션, AWS Lambda는 평가 절차 실행, Amazon RDS는 데이터 저장, Mechanical Turk는 수동 평가에 활용됩니다. 이 아키텍처는 프롬프트 자동 생성, 사용자 피드백 반영, 품질 드리프트 감지까지 포함된 완전한 자동화 파이프라인을 제공합니다.

실제 사례: 교대 근무자를 위한 챗 요약 기능

Beekeeper는 LLM을 통해 일상적인 커뮤니케이션을 최적화하고 있습니다. 예를 들어, 교대근무 중 대화방에 수십 개의 메시지가 쌓이면, 사용자는 요약을 요청해 핵심 내용과 액션 아이템 위주로 정리된 정보를 받을 수 있습니다. 이렇게 생성된 요약 결과에 대해 사용자는 피드백(추천/비추천, 댓글 등)을 주고, 이 데이터는 향후 요약 알고리즘 개선에 반영됩니다.

Beekeeper 실 사용 예시: 대화 요약 기능 UI

이 간단해 보이는 기능 뒤에는 내용 압축, 의미 기반 추론, 사용자 선호 반영 등 고도화된 처리 흐름이 존재합니다.

평가 기준과 자동화 로직

Beekeeper는 다양한 모델/프롬프트 조합을 자동 평가하여 최적의 조합을 선택합니다. 이 평가는 다음과 같은 항목에 기반합니다:

압축률(Compression Ratio)
사용자 관련 액션 아이템 포함 유무
환각(Hallucination) 검출
벡터 기반 유사도 비교

예를 들어, 압축률 평가는 요약 길이와 원문 길이의 비율을 기반으로 자동 점수를 부여하고, 액션 아이템은 정규표현식을 통해 추출 후 LLM으로 평가합니다. 벡터 유사도는 Amazon Bedrock이나 Huggingface에서 제공하는 임베딩 모델을 사용해 코사인 유사도로 계산됩니다.

환각 검출 방식 다이어그램 - LLM 교차 평가 및 수동 피드백 병행

사용자 피드백을 반영한 프롬프트 변화(프롬프트 변이)

Beekeeper는 사용자 피드백을 분석해 프롬프트 변이(prompt mutation)를 만들어냅니다. 이 과정에서 '생각 방식(thinking style)' 입력 값을 함께 전달해, "단계별로 사고하기", "창의적으로 접근하기" 등 LLM의 반응 형태도 제어합니다.

생성형 예시:

“피드백을 반영하기 위해 어떤 힌트를 추가할 수 있을까?”
“이 지침을 더 간단하게 표현할 수 있을까?”
“다른 방식으로 동일한 의도를 전달해 보세요.”

변형된 프롬프트는 다시 평가되어 리더보드에 반영되며, 상위 모델/프롬프트 조합은 실제 운영에 사용됩니다.

프롬프트 변이 프로세스 흐름도 및 평가 방식

결과적으로 다음과 같이 리더보드를 구성하고, 상위 조합을 배포에 반영합니다.

1등 조합: 50%
2등 조합: 30%
3등 조합: 20%

장점 및 효과

Beekeeper의 시스템은 다음과 같은 AI 자동화 및 최적화의 이점을 제공합니다:

프롬프트 개선 자동화: 휴먼 인게이지먼트 최소화
사용자 또는 테넌트별 맞춤 대응: 이질적인 선호도 반영
모델 업데이트 관리 자동화: 새로운 모델에 대한 지속 테스트 및 평가
전체 파이프라인 자동화: Lambda, EKS, RDS 기반 구성

이 방식은 비용 절감과 성능 향상의 균형을 유지하면서, 사용자의 피드백을 효과적으로 반영해 더 나은 사용자 경험을 제공합니다. 실제로 13–24% 향상된 사용자 만족도를 기록했습니다.

결론

Beekeeper의 Amazon Bedrock 기반 시스템은 프롬프트와 LLM 조합의 자동 평가 및 최적화를 통해 사용자 맞춤형 디지털 경험을 제공합니다. 중소규모의 개발팀이라도 이와 같은 방식의 자동화된 평가·개선 파이프라인을 구축하면, 반복적인 모델 비교 작업 없이도 빠르게 고품질 서비스를 제공할 수 있습니다.

이와 같이 Amazon Bedrock과 AWS Lambda, EKS, Mechanical Turk를 활용하면, 프롬프트 비교와 LLM 자동화 배포 시스템을 간단히 구현할 수 있습니다. 초기에는 단 2개 모델/4개 프롬프트로 시작해도 충분한 가치 창출이 가능하며, 실시간 사용자 피드백과 통합하면 시스템은 지속적으로 진화합니다.

LLM 최적화, 프롬프트 엔지니어링, 자동화 활용이 필요한 조직이라면, Beekeeper의 접근법을 통해 효과적으로 시작할 수 있습니다.

https://aws.amazon.com/blogs/machine-learning/how-beekeeper-optimized-user-personalization-with-amazon-bedrock/

AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!

(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기

Beekeeper의 Amazon Bedrock 기반 LLM 자동 평가 및 최적화 사례

카테고리