'Spark 데이터 불러오기' 태그의 글 목록

Spark 데이터 불러오기

꽃경남 2017. 4. 7. 10:33

2017. 4. 7. 10:33

본문의 내용은 러닝스파크 책 참고

Data불러오기/저장하기

- 스파크에서는 Text file, JSON, CSV, object file 등 다양한 파일 포맷을 지원

1) Text파일

- 불러오기

- <변수명> = sc.textFile(<file_path>)

- 새로운 RDD 생성 (Python단어라인 추출하기)

- 저장하기

- result.saveAsTextFile(<output_file_name>)

2) JSON

- 불러오기

- 가장 간단한 방법은 데이터를 Text File로 불러온 뒤, JSON parser를 사용하여 값들을 매핑

- 데이터 샘플

- 저장하기 //팬더를 좋아하는 사람으로 필터

- result.saveAsTextFile(<output_file_name>)

3) CSV (Comma Separated Value)

-데이터 샘플

- 10,539 줄의 Traffic

- Comma로 구분이 안되어 있어 , 변환 작업

-데이터 불러오기 (TextFile로 불러오기)

- 전체적으로 CSV 불러오기

- 저장하기

Spark Cluster 운영 (0)	2017.04.07
Spark Accumulator (0)	2017.04.07
SparkContext, Reduce/Group By Key (0)	2017.04.07
Spark Pair RDD 개념 (0)	2017.04.07
Spark RDD 개념 및 예제 (0)	2017.04.07