아마존 베드락에서 새로운 클라우드와치 지표 활용으로 추론 작업의 운영 가시성 향상
기계 학습 분야에서 놀라운 성과를 보이고 있는 아마존 베드락에서, 인퍼런스 워크로드의 운영 가시성을 대폭 개선할 수 있는 두 가지 새로운 아마존 클라우드와치 지표인 TimeToFirstToken과 EstimatedTPMQuotaUsage가 발표되었습니다. 이 두 지표는 인퍼런스의 성능과 자원 소모에 대한 운영 가시성을 높여주는 콘텐츠로, 특히 지연 시간이 중요한 응용 프로그램을 운영하는 팀에게 필수적입니다.
운영 가시성 향상을 위한 주요 지표
사전 훈련된 언어 모델이 요구되는 현대 인퍼런스 환경에서는 운영 가시성이 핵심적인 요소로 자리잡고 있습니다. 이번에 새로 발표된 TimeToFirstToken과 EstimatedTPMQuotaUsage 지표는 서버 측에서 스트리밍 지연 시간과 할당량 소비를 명확하게 파악할 수 있게 해줍니다. 이러한 지표들은 별도의 API 변경이나 선택사항 없이 모든 성공적인 요청에 자동으로 생성됩니다.

지표의 활용 및 설정 방법
-
TimeToFirstToken은 스트리밍 요청 처리시 최초 응답 토큰이 생성되는 시간을 초 단위로 측정하고, ConverseStream과 InvokeModelWithResponseStream API에서 활용됩니다.
- 경보 설정 – 성능 저하를 감지하여 사용자들에게 영향을 미치기 전에 대응할 수 있으며,
- SLA 기준 설정 – 다양한 모델의 TimeToFirstToken 데이터를 분석하여 응용 프로그램의 성능 기준을 설정할 수 있습니다.
-
EstimatedTPMQuotaUsage는 요청이 실제 사용한 토큰 소비량을 추정하여, 모델의 요청이 사용한 시간을 계산합니다.
- 사전 할당량 경보 설정 – EstimatedTPMQuotaUsage를 사용하여 사용량이 허용치에 가까워졌을 때 자동으로 경보를 울릴 수 있습니다.
결론
이 두 가지 새로운 지표들은, 운영 측면에서 예기치 않은 상황을 사전에 방지하고, 지속적이고 안정적인 시스템 운영을 가능하게 하여 사용자의 경험을 향상시키는 데 큰 공헌을 합니다. 아마존 클라우드와치에서 이러한 지표를 활용하여 효과적인 알람을 설정하고, 운영 상태를 감독하여 최적의 성능 환경을 구성하십시오.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기
