Flow Generation Through Natural Language: An Agentic Modeling Approach
Author: Ted Chaiwachirasak | Source: Shopify Engineering | Published: 2026-04-22
한 줄 요약
Shopify가 Qwen3-32B를 파인튜닝하여 자연어로 Flow 자동화를 생성하는 도구 호출 에이전트를 구축하고, 주간 재학습 플라이휠로 지속 개선하는 과정.
핵심 주장/내용
- Python DSL 전환: Flow의 JSON DSL → Python으로 전환하여 구문 정확도 22p, 의미 정확도 13p 향상 — 모델의 사전학습 분포에 가까운 표현이 핵심
- 라운드트립 트랜스파일러: Python ↔ JSON 양방향 변환, 프로덕션 워크플로우 전체에 대해 지속 검증
- 프로덕션 환경 미러링: 도구 이름, 키 순서, 시스템 프롬프트의 미세한 차이도 정확도에 영향 — “모델은 모든 토큰을 신호로 취급”
- 벤치마크 vs 프로덕션 갭: 오프라인 지표 동등 → 1% 트래픽 배포 시 활성화율 35% 낮음, 합성 데이터가 실제 쿼리 분포를 커버하지 못함
- LLM Judge + 태깅 시스템: 대화를 다차원으로 태깅하여 약점 슬라이스 식별, 2주 만에 갭 해소
- 주간 플라이휠: 프로덕션 대화 수집 → 판정 → 고품질 라우팅 → 재학습 → 배포
주요 수치 / 사실
- 2.2x 빠른 추론, 68% 비용 절감
- Python DSL: 구문 +22p, 의미 +13p
- 2노드 H200 GPU, 12시간 full training
관련 위키
Source: 원문 보기