Search Quality Assurance with AI as a Judge

Author: Tao Ruangyam | Source: https://engineering.zalando.com/posts/2026/03/search-quality-assurance-with-llm-judge.html | Published: 2026-03-17

한 줄 요약

Zalando는 LLM-as-Judge 기반 검색 품질 보증 프레임워크를 구축하여, 신규 국가 런칭 전 1,500개 검색 세그먼트를 $250 비용으로 다국어 자동 평가하고 사전에 검색 이슈를 식별했다.

신규 시장 런칭 시 실제 사용자 데이터가 없어 기존의 사후 대응적(reactive) 품질 보증이 불가능했으며, 사전 대응적(proactive) 접근이 필요했다
NER 태그 기반 검색 쿼리 클러스터링으로 의미적으로 유사한 쿼리를 그룹화하고, LLM 번역으로 기존 시장 데이터를 신규 시장에 재활용했다
GPT-4o를 visual-text judge로 활용하여 상품 데이터와 이미지를 함께 평가하며, 언어/검색 컨텍스트에 무관하게 범용 추론이 가능하다
Apache Airflow 파이프라인으로 자동화하고, TaskGroup 병렬 처리와 Elasticache 캐싱으로 효율성을 극대화했다
NER 태그 비교를 통해 번역 시 인식 실패, 잘못된 상품 속성, 미발견 카테고리 등 구체적 root cause를 식별할 수 있었다