spark shell 예제

코드 설명: 1. `type` 클래스를 스파크 셸로 가져옵니다. 2. 스파크 쉘에 `행` 클래스를 가져옵니다. 행은 RDD 스키마 매핑에 사용됩니다. 3. 텍스트 파일 `employee.txt`에서 RDD `직원 RDD`를 작성합니다. 4. 스키마를 “이름 연령”으로 정의합니다.

이는 RDD의 열을 매핑하는 데 사용됩니다. 5. `employeeRDD`를 스키마 `스키마스트링`에 매핑한 후 출력될 `필드` RDD를 정의합니다. 6. `스키마`로 `필드` RDD의 유형을 획득. 코드 설명: 1. 암시적 클래스를 셸로 가져옵니다. 2. `employee.json` 파일에서 `employeeDF` 데이터프레임 만들기.

로컬 파일 시스템, HDFS 또는 기타 Hadoop 지원 파일 시스템의 지정된 디렉터리에서 데이터 집합의 요소를 텍스트 파일(또는 텍스트 파일 집합)으로 씁니다. 스파크는 각 요소에 대해 string을 호출하여 파일의 텍스트 줄로 변환합니다. Spark 2.0 이전에는 Spark의 주요 프로그래밍 인터페이스가 RDD(복원력 분산 데이터 집합)였습니다. Spark 2.0 이후, RDD는 데이터 집합으로 대체되며, 이는 RDD와 같이 강력하게 입력되지만 후드 아래에 는 더 풍부한 최적화가 있습니다. RDD 인터페이스는 여전히 지원되며 RDD 프로그래밍 가이드에서 자세한 참조를 얻을 수 있습니다. 그러나 RDD보다 성능이 뛰어난 데이터 집합을 사용하도록 전환하는 것이 좋습니다. 데이터 집합에 대한 자세한 내용은 SQL 프로그래밍 가이드를 참조하십시오. 이 예제에서는 Maven을 사용하여 응용 프로그램 JAR을 컴파일하지만 유사한 빌드 시스템이 작동합니다. (이,1) ==reduceByKey (0,1) => (이,0+1) => (이,1) ==reduceByKey (0,1) =1= (is,0+1) => (is,0+1) => (is,1) => (이다,1) =reduceByKey (0,1) => (an,0+1) => (예, 1) ==reduceByKey (0,1) => (예, 0+1) => (예,0+1) => (예,1) 이제 주의해야 할 것이 있습니다. 감소ByKey (1,1) . 여기서 (x,y) (1,1)는 이미 존재하는 arr(0)의 인덱스(카운터,1) (이,1) ==reduceByKey(1,1) => (이,1+1) => (이것,2) => (이것,2) (는 1)==reduceByKey (1)=== (이다,1+1) => (이다,1) =2) ==reduceByKey (0,1) => (에,0+1) => (에,0+1) => (에,1) => (에,1) (이해) ,1)==reduceByKey (0,1) => (이해,0+1) => (이해,0+1) => (예,1) =1= =1= (예,0+1) => (예,0+1) => (예,1) 다른 탭을 탐색하여 스파크 웹 UI에 대한 아이디어와 단어 수 작업에 대한 세부 정보를 얻습니다.

단어 카운트 예를 고려 – 그것은 문서에 나타나는 각 단어를 계산합니다. 다음 텍스트를 입력으로 간주하고 홈 디렉토리에 input.txt 파일로 저장됩니다. 우리가 쉘 명령을 사용하여, 우리가 전에 사용 단어 수의 동일한 예를 보자. 여기서는 스파크 응용 프로그램과 동일한 예제를 고려합니다. 다음은 RDD를 만드는 세 가지 방법입니다. 로컬 파일 시스템, HDFS, HBase, Cassandra, S3 등과 같은 외부 시스템에서 데이터를 이미 사용할 수 있는 첫 번째 방법을 사용할 수 있습니다. 패스/URL을 인수로 스파크 컨텍스트의 textFile 메서드를 호출하여 RDD를 만들 수 있습니다. 두 번째 방법은 기존 컬렉션과 함께 사용할 수 있으며 세 번째 방법은 기존 컬렉션에서 새 RDD를 만드는 방법입니다. 스파크 코어는 전체 프로젝트의 기본입니다. 분산 작업 디스패치, 일정 및 기본 I/O 기능을 제공합니다.

Spark는 RDD(복원력 있는 분산 데이터 집합)로 알려진 특수한 기본 데이터 구조를 사용하며, 이 구조는 컴퓨터 간에 분할된 데이터의 논리적 컬렉션입니다.

Comments are closed.