본문의 내용은 러닝스파크 책 참고
Data불러오기/저장하기
- 스파크에서는 Text file, JSON, CSV, object file 등 다양한 파일 포맷을 지원
1) Text파일
- 불러오기
- <변수명> = sc.textFile(<file_path>)
- 새로운 RDD 생성 (Python단어라인 추출하기)
- 저장하기
- result.saveAsTextFile(<output_file_name>)
2) JSON
- 불러오기
- 가장 간단한 방법은 데이터를 Text File로 불러온 뒤, JSON parser를 사용하여 값들을 매핑
- 데이터 샘플
- 저장하기 //팬더를 좋아하는 사람으로 필터
- result.saveAsTextFile(<output_file_name>)
3) CSV (Comma Separated Value)
-데이터 샘플
- 10,539 줄의 Traffic
- Comma로 구분이 안되어 있어 , 변환 작업
-데이터 불러오기 (TextFile로 불러오기)
- 전체적으로 CSV 불러오기
- 저장하기
반응형
'기타 > 분산 컴퓨팅' 카테고리의 다른 글
Spark Cluster 운영 (0) | 2017.04.07 |
---|---|
Spark Accumulator (0) | 2017.04.07 |
SparkContext, Reduce/Group By Key (0) | 2017.04.07 |
Spark Pair RDD 개념 (0) | 2017.04.07 |
Spark RDD 개념 및 예제 (0) | 2017.04.07 |