스파크는 데이터 과학에서 자주 볼 수 있는 반복 연산에 적합한 개념과 기능을 제공하는 인-메모리 데이터 처리 엔진으로 빠른 속도가 특징이다. 다양한 언어와 데이터 포맷을 지원하고 데이터 전처리를 효과적으로 수행할 수 있어서 빅데이터 파일 시스템으로 많이 쓰이는 하둡과 같이 쓰이기도 한다. 기본적인 분산 처리 기능 뿐 아니라 스파크 SQL, MLlib, 스트리밍 등 여러 구성 요소가 있다. 기본 데이터 구조로는 객체의 분산 시퀀스인 RDD(Resilient Distributed Dataset)를 사용하며 RDD는 다양한 관계 대수 연산자(SELECT, JOIN 등)와 스칼라, 파이썬 변환 로직의 피연산자로 적용될 수 있다. RDD는 또한 RAM에 저장되며 자동으로 결함을 극복하는 메커니즘을 지원한다. 만약..