Spark Data 불러오기/저장하기

기타/분산 컴퓨팅

Spark Data 불러오기/저장하기

꽃경남 2017. 4. 7. 10:33

본문의 내용은 러닝스파크 책 참고

Data불러오기/저장하기

- 스파크에서는 Text file, JSON, CSV, object file 등 다양한 파일 포맷을 지원

1) Text파일

- 불러오기

- <변수명> = sc.textFile(<file_path>)

- 새로운 RDD 생성 (Python단어라인 추출하기)

- 저장하기

- result.saveAsTextFile(<output_file_name>)

2) JSON

- 불러오기

- 가장 간단한 방법은 데이터를 Text File로 불러온 뒤, JSON parser를 사용하여 값들을 매핑

- 데이터 샘플

- 저장하기 //팬더를 좋아하는 사람으로 필터

- result.saveAsTextFile(<output_file_name>)

3) CSV (Comma Separated Value)

-데이터 샘플

- 10,539 줄의 Traffic

- Comma로 구분이 안되어 있어 , 변환 작업

-데이터 불러오기 (TextFile로 불러오기)

- 전체적으로 CSV 불러오기

- 저장하기

저작자표시 (새창열림)

'기타 > 분산 컴퓨팅' 카테고리의 다른 글

Spark Cluster 운영 (0)	2017.04.07
Spark Accumulator (0)	2017.04.07
SparkContext, Reduce/Group By Key (0)	2017.04.07
Spark Pair RDD 개념 (0)	2017.04.07
Spark RDD 개념 및 예제 (0)	2017.04.07

현재글Spark Data 불러오기/저장하기

임시

해킹, 안드로이드, Raspberry pi2, Nmap, 우분투, Kali, 아파치 하둡, 리눅스마스터, land attack, volatility, thug, VMware, dos, infomation gathering, Hands-On Machine Learning, hadoop, 라즈베리파이2, node.js, cuckoo sandbox, SYN flooding,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

임시