본문의 내용은 러닝스파크 책 참고


Data불러오기/저장하기

- 스파크에서는 Text file, JSON, CSV, object file 등 다양한 파일 포맷을 지원

1) Text파일

- 불러오기

- <변수명> = sc.textFile(<file_path>)

새로운 RDD 생성 (Python단어라인 추출하기)


- 저장하기

- result.saveAsTextFile(<output_file_name>)


2) JSON

- 불러오기 

가장 간단한 방법은 데이터를 Text File로 불러온 뒤, JSON parser를 사용하여 값들을 매핑


데이터 샘플


- 저장하기 //팬더를 좋아하는 사람으로 필터

result.saveAsTextFile(<output_file_name>)  



3) CSV (Comma Separated Value)

-데이터 샘플

- 10,539 줄의 Traffic

- Comma로 구분이 안되어 있어 , 변환 작업


-데이터 불러오기 (TextFile로 불러오기)


- 전체적으로 CSV 불러오기


- 저장하기


'기타 > 분산 컴퓨팅' 카테고리의 다른 글

Spark Cluster 운영  (0) 2017.04.07
Spark Accumulator  (0) 2017.04.07
SparkContext, Reduce/Group By Key  (0) 2017.04.07
Spark Pair RDD 개념  (0) 2017.04.07
Spark RDD 개념 및 예제  (0) 2017.04.07

+ Recent posts