Smarter URL Normalization at Scale: How MIQPS Powers Content Deduplication at Pinterest

Author: Pinterest Engineering | Source: Pinterest Engineering Blog (Medium) | Published: 2026-04-21


한 줄 요약

Pinterest가 URL 파라미터의 콘텐츠 영향도를 자동 학습하는 MIQPS 알고리즘으로 대규모 URL 정규화와 콘텐츠 중복 제거를 수행한다.

핵심 주장/내용

  • 문제: 동일 상품 페이지가 추적 파라미터로 수십 개 URL 변형 생성 → 중복 렌더링·처리 비용
  • MIQPS(Minimal Important Query Param Set): 파라미터 제거 시 페이지 콘텐츠 변화 여부를 시각적 핑거프린트로 판정
    • 도메인별 독립 분석, 같은 파라미터도 URL 패턴에 따라 다르게 분류
    • 조기 종료 최적화, 샘플 부족 시 보수적으로 non-neutral 분류
  • 다층 정규화: 정적 허용목록 + 정규식 + MIQPS를 계층 결합, 하나의 레이어만 매칭해도 보존
  • 이상 탐지: 이전 MIQPS와 비교하여 기존 중요 파라미터가 제거되면 전체 업데이트 거부
  • 오프라인 계산: 비용·지연·안정성을 위해 실시간 대신 오프라인 배치 분석 선택

관련 위키


Source: 원문 보기