반응형
The DataFrame API
- spark-shell을 실행
- /usr/local/Cellar/apache-spark/3.1.2/bin/spark-shell
Spark context available as 'sc' (master = local[*], app id = local-1629336161368).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 3.1.2
/_/
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10)
Type in expressions to have them evaluated.
Type :help for more information.
scala>
scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._
scala> val nameTypes = StringType
nameTypes: org.apache.spark.sql.types.StringType.type = StringType
scala> val firstName = nameTypes
firstName: org.apache.spark.sql.types.StringType.type = StringType
scala> val lastName = nameTypes
lastName: org.apache.spark.sql.types.StringType.type = StringType
DataFrame와 Dataset은 둘 다 Row와 Column을 가지는 불변성을 가지는 분산 테이블 형태의 컬렉션이다.
스키마
DataFrame의 칼럼명과 데이터 타입을 정의한다.
스키마는 데이터 소스에서 얻거나(schema-on-read) 직접 정의할 수 있다.
스파크의 기본 요소
스파크는 저수준의 API, 구조적 API, 그리고 추가로 제공하는 일련의 표준 라이브러리로 구성되어 있다.
API 특징
https://team-platform.tistory.com/49?category=836998
https://team-platform.tistory.com/42?category=836998
반응형
'Study > Study group' 카테고리의 다른 글
[Spark-Study] Day-8 스파크 리마인드 (0) | 2021.09.02 |
---|---|
[Spark-Study] Day-7 spark-shell을 통한 실습 (0) | 2021.08.26 |
EPI group (0) | 2021.07.27 |
[Spark-Study] Day-2 예제 돌려보기 (3) | 2021.06.24 |
[Spark-Study] Day-1 스파크 셋팅 (0) | 2021.06.14 |