Generative Recommender Systems

사용자 행동 시퀀스를 언어 모델 방식으로 처리하는 자기회귀 기반 추천 시스템


핵심 개념

생성형 추천 시스템(Generative Recommender)은 사용자의 과거 행동(검색, 조회, 클릭, 구매)을 토큰 시퀀스로 취급하고, next-token prediction과 동일한 자기회귀 모델로 “다음 행동”을 예측한다. LLM의 언어 모델링 기법을 추천에 직접 적용한 접근이다.

기존 추천과의 차별점

전통적 추천생성형 추천
수동 피처 엔지니어링Raw 이벤트 시퀀스를 직접 학습
정적 집계 피처(평균 평점 등)시간적 역학과 장기 패턴 포착
개별 시그널 독립 처리미묘한 의도 변화, 계절성 내재화
단일 목표 최적화앙상블 내 증분 가치 극대화

Shopify의 생성형 추천 시스템

Shopify Commerce Engine의 추천이 대표적 프로덕션 사례다.

핵심 기술 요소

시퀀스 모델링

  • 구매자 여정(검색·조회·장바구니·즐겨찾기·구매)을 인과 마스크 자기회귀 모델로 처리
  • 수동 피처 엔지니어링 없이 raw 이벤트 데이터에서 패턴 발견

시간 인식 어텐션

  • RoPE(Rotary Position Embedding) 기반 로터리 인코딩 + 상대 어텐션 바이어스
  • 타임스탬프를 어텐션 메커니즘에 직접 인코딩 → 수동 규칙 없이 계절성 자동 반영

고급 네거티브 샘플링

  • Shared negatives: 배치 간 네거티브 풀을 공유하여 효율적으로 확장
  • Positive-aware hard negatives: 미노출 아이템을 거짓 네거티브로 처리하지 않도록 보정

앙상블 통합

  • 단독 recall 최적화 대신, 기존 retrieval 모델 앙상블 내에서 coverage gap을 채우는 boosting-inspired 학습

프로덕션 성과

  • Shop 주문 +0.94% (상대적)
  • 고품질 CTR +5% (상대적)
  • 전환율 +0.71% (상대적)
  • 포지션 2 제품 리콜 +4.8% (상대적)
  • 학습 파이프라인 7.3배 속도 향상 (최적화된 CUDA 커널)

미래 방향: Semantic IDs

제품 ID 임베딩 대신 작은 어휘에서 추출한 토큰 시퀀스로 제품을 표현하는 Semantic ID 연구:

  • 대규모 제품 ID 임베딩 테이블 의존도 감소
  • 텍스트 쿼리 및 어시스턴트 상호작용과의 통합 용이

트레이드오프

측면생성형 추천전통적 협업 필터링
데이터 요구풍부한 시퀀스 데이터 필요클릭/구매 데이터만으로 가능
Cold-start시퀀스가 짧으면 성능 제한유사 사용자로 보완 가능
해석 가능성트랜스포머 블랙박스유사도 기반으로 해석 용이
컴퓨트 비용학습/추론 비용 높음상대적으로 저렴

연관 개념


Source: Shopify - The Generative Recommender Behind Shopify’s Commerce Engine