교육을 위한 책임 있는 AI 콘텐츠 필터링: PowerSchool의 Amazon SageMaker 활용 사례
PowerSchool는 전 세계 60개국 이상, 6천만 명의 학생들에게 서비스를 제공하는 대표적인 교육 기술(EdTech) 기업입니다. 최근 PowerSchool는 자사의 AI 어시스턴트 PowerBuddy™를 출시하며 AI 기반 학습 보조 기술을 확대하고 있습니다. 하지만, 수많은 K-12(초·중등 교육) 학생들의 안전을 지키면서도 AI 기술을 효과적으로 적용하는 것은 큰 도전이었습니다. 특히, 교육 환경에 적합한 콘텐츠 필터링 시스템이 필요했죠.
이 글에서는 PowerSchool이 Amazon SageMaker를 활용해 구축하고 배포한 AI 콘텐츠 필터링 시스템에 대해 소개합니다. 세부 모델 튜닝, 아키텍처 구성, 자동화된 배포 프로세스, 그리고 실제 교육 기관에서의 적용 사례까지 비교 분석하며 설명합니다.
PowerBuddy와 콘텐츠 필터링의 필요성
PowerBuddy는 학습, 대학 및 진로 탐색, 지역사회 소통 등 다양한 기능을 포함한 인공지능 기반 학습 어시스턴트입니다. 이 시스템은 학생의 상호작용 데이터를 기반으로 맞춤형 피드백을 제공하고, 학업 성취를 돕습니다.
하지만 AI 기술이 학습 환경에 도입되며, 부적절한 콘텐츠, 사이버 괴롭힘, 자해 암시 등 위험 요소가 반드시 함께 고려되어야 했습니다. 일반적으로 제공되는 콘텐츠 필터링 솔루션은 교육 맥락을 충분히 이해하지 못해, 제2차 세계대전, 홀로코스트 등 역사 수업 컨텍스트도 ‘폭력성’으로 잘못 분류하는 어려움이 있었습니다.
PowerSchool은 이러한 한계를 극복하기 위해, 교육 도메인에 특화된 AI 모델을 직접 개발·배포하고자 Amazon SageMaker의 활용을 결정했습니다.
주요 콘텐츠 필터링 구성
Amazon SageMaker 기반의 콘텐츠 필터링 아키텍처는 크게 다음 4단계로 구성됩니다.
- 데이터 준비 파이프라인
- 안전/비안전 콘텐츠 샘플 수집 및 데이터 전처리
- Amazon S3에 암호화 저장
- 학습 데이터는 학생 개인정보 없이 가명 처리
- 모델 학습 인프라
- Llama 3.1 8B 모델에 대해 SageMaker에서 LoRA 기법을 적용한 파인튜닝 진행
- 실시간 추론 아키텍처
- SageMaker 관리형 엔드포인트에 모델 배포
- API Gateway와 연동해 PowerBuddy 내 실시간 콘텐츠 필터링 적용
- Amazon CloudWatch로 추론 품질 모니터링 및 로깅 자동화
- 지속적인 개선
- 오탐/누락 탐지 피드백 수집
- 주기적인 재학습 및 A/B 테스트 방식으로 모델 고도화
SageMaker JumpStart를 통한 자동화 모델 개발
PowerSchool 팀은 SageMaker JumpStart를 활용해 Llama 3.1 8B 모델을 효율적으로 파인튜닝 했습니다. JumpStart는 사전 설정된 훈련 환경과 하이퍼파라미터 튜닝 도구를 제공해 개발자가 학습 데이터 품질에 집중하도록 도와줍니다.
모델 튜닝에는 FSDP(Fully Sharded Data Parallel)와 LoRA(Low Rank Adaptation) 기술을 적용해 학습 성능을 최적화하고, NVIDIA A10G GPU 기반의 ml.g5.12xlarge SageMaker 인스턴스를 활용해 배포 효율성과 비용 간 균형점을 확보했습니다.
실제 코드로 본 학습 및 배포 간소화
SageMaker JumpStart에서는 다음과 같은 방식으로 모델 학습화가 가능합니다.
estimator = JumpStartEstimator(
model_id=model_id,
environment={"accept_eula": "true"},
disable_output_compression=True,
hyperparameters={
"instruction_tuned": "True",
"epoch": "5",
"max_input_length": "1024",
"chat_dataset": "False"
},
sagemaker_session=session,
base_job_name="CF-M-0219251"
)
estimator.fit({"training": train_data_location})
모델 학습 완료 후, Amazon S3의 아티팩트를 활용해 엔드포인트 배포가 이루어지며, 실시간 환경에서 안전성 테스트를 수행합니다. misclassification 검사 및 재챗세팅을 통해 고도화 작업도 자동화되었습니다.
검증 결과 및 성능 비교
PowerSchool은 콘텐츠 필터링 시스템의 신뢰성을 확보하고자 다음과 같은 검증을 거쳤습니다.
- 약 93%의 정확도 달성
- 오탐률 3.75% 이하
- 평균 응답시간 1.5초 유지
- 가상 교실 환경 하에서도 100% 완료율 유지
뿐만 아니라, 커스터마이즈된 모델이 일반적인 ‘범용 필터링 솔루션’ 대비 다음과 같은 성능 향상을 보였습니다.
- 정확도: 0.93 vs 0.89
- F1 점수: 안전 콘텐츠 기준 0.95 vs 0.91, 비안전 0.90 vs 0.87
- 오류 사례 감소: 전체 160건 테스트 중, 단 6건만 오탐 (기존 대비 13건 감소)
향후 계획과 확장성
PowerSchool은 Amazon SageMaker Multi-Adapter Inference 기능을 통해, 다양한 교육 상황에 맞는 도메인 특화 소형 언어 모델(SLM)도 함께 배포할 예정입니다. 과제별로 통합된 모델이 많아지는 복잡도를 줄이고, 비용도 함께 절감할 수 있습니다.
예를 들어 ‘SQL 질의를 위한 도메인 식별’ 문제나, ‘교육용 의사결정 지원봇’처럼 특정 목표에 최적화된 모델을 빠르게 배포하는 데 강력한 도움이 될 것으로 보입니다.
결론
PowerSchool의 예시는 어떻게 AI를 교육에 안전하고 효율적으로 접목할 수 있는지를 잘 보여줍니다. Amazon SageMaker의 활용으로 콘텐츠 필터링 자동화, 고도화, 실시간 반응 체계를 구축함으로써, AI 혁신을 이루면서도 사용자 보호 기준을 충족하는 모범 사례가 되었습니다.
이처럼 특정 도메인에서 AI 모델의 미세 조정 및 자동화가 필요한 기업이라면, SageMaker의 활용성과 높은 유연성 덕분에 AI 배포 가이드를 손쉽게 구현할 수 있습니다.
교육 기술을 넘어, 사회 전반의 안전한 AI 적용을 고민하는 시기에 이 프로젝트는 중요한 시사점을 제공합니다.
AI, Cloud 관련한 문의는 아래 연락처로 연락주세요!
(주)에이클라우드
이메일 : acloud@a-cloud.co.kr
회사 번호 : 02-538-3988
회사 홈페이지 : https://www.a-cloud.co.kr/
문의하기