Flow Generation Through Natural Language: An Agentic Modeling Approach

Author: Ted Chaiwachirasak | Source: Shopify Engineering | Published: 2026-04-22


한 줄 요약

Shopify가 Qwen3-32B를 파인튜닝하여 자연어로 Flow 자동화를 생성하는 도구 호출 에이전트를 구축하고, 주간 재학습 플라이휠로 지속 개선하는 과정.

핵심 주장/내용

  • Python DSL 전환: Flow의 JSON DSL → Python으로 전환하여 구문 정확도 22p, 의미 정확도 13p 향상 — 모델의 사전학습 분포에 가까운 표현이 핵심
  • 라운드트립 트랜스파일러: Python ↔ JSON 양방향 변환, 프로덕션 워크플로우 전체에 대해 지속 검증
  • 프로덕션 환경 미러링: 도구 이름, 키 순서, 시스템 프롬프트의 미세한 차이도 정확도에 영향 — “모델은 모든 토큰을 신호로 취급”
  • 벤치마크 vs 프로덕션 갭: 오프라인 지표 동등 → 1% 트래픽 배포 시 활성화율 35% 낮음, 합성 데이터가 실제 쿼리 분포를 커버하지 못함
  • LLM Judge + 태깅 시스템: 대화를 다차원으로 태깅하여 약점 슬라이스 식별, 2주 만에 갭 해소
  • 주간 플라이휠: 프로덕션 대화 수집 → 판정 → 고품질 라우팅 → 재학습 → 배포

주요 수치 / 사실

  • 2.2x 빠른 추론, 68% 비용 절감
  • Python DSL: 구문 +22p, 의미 +13p
  • 2노드 H200 GPU, 12시간 full training

관련 위키


Source: 원문 보기