Inside Informatica’s Spark-Based Data Integration Platform

Author: Shivangi Srivastava | Source: https://engineering.salesforce.com/inside-informaticas-spark-based-data-integration-platform-running-250k-enterprise-pipelines-daily/ | Published: 2026-04-01


한 줄 요약

Informatica의 Cloud Data Integration(CDI)은 단일 노드 엔진에서 Kubernetes 기반 분산 Spark++(확장 Spark) 플랫폼으로 전환하여, 5,500개 기업 고객의 일 25만 파이프라인을 처리하면서 FinOps 자동화로 인프라 비용을 1.65배 절감했다.

핵심 주장/내용

  • 기존 단일 노드 통합 엔진을 분산 아키텍처로 전환하면서, 수천 개 기존 프로덕션 파이프라인의 하위 호환성을 유지하기 위해 논리적 추상화 계층(그래픽 매핑)은 보존하고 런타임만 Spark 실행 플랜으로 변환하는 전략을 택했다
  • 오픈소스 Spark에 리니지 추적, 딥 커넥터 지원, 거버넌스 기능을 추가한 Spark++로 확장하여 엔터프라이즈 요구사항을 충족했다
  • 안정성을 위해 행 수준 실행 추적(데이터 무결성), VPC 경계 내 임시 노드(테넌트 격리), 다중 AZ 고가용성(인프라 레질리언스) 세 가지 원칙을 적용한다
  • FinOps 아키텍처의 세 가지 핵심 시스템: Cluster Lifecycle Manager(수요 예측 기반 자동 스케일링), Cluster Tuner(인스턴스 타입/스토리지/네트워크 최적화), Job Tuner(히스토리 기반 Spark 런타임 파라미터 조정)
  • Control plane과 data plane을 분리하여, 컴퓨트 클러스터 스파이크 시에도 오케스트레이션 서비스의 안정성을 유지한다

주요 수치 / 사실

  • 고객 수: 약 5,500개 기업
  • 일일 작업 수: 약 250,000개 통합 작업
  • 인프라 비용 절감: 약 1.65배 (FinOps 자동화)
  • Control plane 가용성 목표: 99.9%

관련 위키


Source: 원문 보기