Apache Spark 설치

1) 필수 요건

- 스파크 자체는 스칼라로 만들어졌으며, 자바 가상 머신(JVM) 위에서 동작함. 그렇기 때문에 자바가 설치가 되어 있어야 됨 (자바에 대한 설치는 별도로 언급 x)


2) Download (http://spark.apache.org/downloads.html)

- 현재 기준(‘17.04.03) 2.1.0 이 최신 버전

- 1,2,3을 선택하고 4번을 누르면 타르볼 파일 설치됨

- 설치는 ubuntu 환경에서 진행하였음



- $tar -xf <spark_file_tgz>


3) pyspark 실행  (Ipython 실행시 : IPYTHON=1 ./bin/pyspark,   Notebook 사용시: IPYTHON_OPTS=“notebook” ./bin/pyspark

- 로그는 현재 Warning 만 나오게끔 되어 있는데, INFO 등 변경이 가능함


- python2.0부터 IPYTHON=1이 바뀜 


- PYSPARK_DRIVER_PYTHON=ipython ./bin/pyspark   or 또는 환경변수를 설정해주는 방법이 있음 

$ export PYSPARK_DRIVER_PYTHON=ipython

$./bin/pyspark)

설치가 된 화면이다.



'기타 > 분산 컴퓨팅' 카테고리의 다른 글

Spark Pair RDD 개념  (0) 2017.04.07
Spark RDD 개념 및 예제  (0) 2017.04.07
Apache Spark란 무엇인가?  (0) 2017.04.07
아파치 하둡 맵리듀스  (0) 2017.04.01
아파치 하둡 HDFS 사용법(Cloudera 사용)  (0) 2017.03.31

+ Recent posts