Search Quality Assurance with AI as a Judge

Author: Tao Ruangyam | Source: https://engineering.zalando.com/posts/2026/03/search-quality-assurance-with-llm-judge.html | Published: 2026-03-17


한 줄 요약

Zalando는 LLM-as-Judge 기반 검색 품질 보증 프레임워크를 구축하여, 신규 국가 런칭 전 1,500개 검색 세그먼트를 $250 비용으로 다국어 자동 평가하고 사전에 검색 이슈를 식별했다.

핵심 주장/내용

  • 신규 시장 런칭 시 실제 사용자 데이터가 없어 기존의 사후 대응적(reactive) 품질 보증이 불가능했으며, 사전 대응적(proactive) 접근이 필요했다
  • NER 태그 기반 검색 쿼리 클러스터링으로 의미적으로 유사한 쿼리를 그룹화하고, LLM 번역으로 기존 시장 데이터를 신규 시장에 재활용했다
  • GPT-4o를 visual-text judge로 활용하여 상품 데이터와 이미지를 함께 평가하며, 언어/검색 컨텍스트에 무관하게 범용 추론이 가능하다
  • Apache Airflow 파이프라인으로 자동화하고, TaskGroup 병렬 처리와 Elasticache 캐싱으로 효율성을 극대화했다
  • NER 태그 비교를 통해 번역 시 인식 실패, 잘못된 상품 속성, 미발견 카테고리 등 구체적 root cause를 식별할 수 있었다

주요 수치 / 사실

  • 시장당 1,500개 검색 세그먼트 평가, 세그먼트당 25개 결과
  • 전체 1회 평가 비용 약 $250 (GPT-4o API 비용)
  • 평가 소요 시간 3~5시간 (수동 평가 대비 수일 절감)
  • 3개 신규 시장 대상 테스트: Luxembourg, Portugal, Greece

관련 위키


Source: 원문 보기