Apache Spark 설치
1) 필수 요건
- 스파크 자체는 스칼라로 만들어졌으며, 자바 가상 머신(JVM) 위에서 동작함. 그렇기 때문에 자바가 설치가 되어 있어야 됨 (자바에 대한 설치는 별도로 언급 x)
2) Download (http://spark.apache.org/downloads.html)
- 현재 기준(‘17.04.03) 2.1.0 이 최신 버전
- 1,2,3을 선택하고 4번을 누르면 타르볼 파일 설치됨
- 설치는 ubuntu 환경에서 진행하였음
- $tar -xf <spark_file_tgz>
3) pyspark 실행 (Ipython 실행시 : IPYTHON=1 ./bin/pyspark, Notebook 사용시: IPYTHON_OPTS=“notebook” ./bin/pyspark
- 로그는 현재 Warning 만 나오게끔 되어 있는데, INFO 등 변경이 가능함
- python2.0부터 IPYTHON=1이 바뀜
- PYSPARK_DRIVER_PYTHON=ipython ./bin/pyspark or 또는 환경변수를 설정해주는 방법이 있음
$ export PYSPARK_DRIVER_PYTHON=ipython
$./bin/pyspark)
설치가 된 화면이다.
반응형
'기타 > 분산 컴퓨팅' 카테고리의 다른 글
Spark Pair RDD 개념 (0) | 2017.04.07 |
---|---|
Spark RDD 개념 및 예제 (0) | 2017.04.07 |
Apache Spark란 무엇인가? (0) | 2017.04.07 |
아파치 하둡 맵리듀스 (0) | 2017.04.01 |
아파치 하둡 HDFS 사용법(Cloudera 사용) (0) | 2017.03.31 |