[Spark-Study] Day-6 DataFrame Api

The DataFrame API

spark-shell을 실행
- /usr/local/Cellar/apache-spark/3.1.2/bin/spark-shell

Spark context available as 'sc' (master = local[*], app id = local-1629336161368).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._

scala> val nameTypes = StringType
nameTypes: org.apache.spark.sql.types.StringType.type = StringType

scala> val firstName = nameTypes
firstName: org.apache.spark.sql.types.StringType.type = StringType

scala> val lastName = nameTypes
lastName: org.apache.spark.sql.types.StringType.type = StringType

DataFrame와 Dataset은 둘 다 Row와 Column을 가지는 불변성을 가지는 분산 테이블 형태의 컬렉션이다.

스키마
DataFrame의 칼럼명과 데이터 타입을 정의한다.
스키마는 데이터 소스에서 얻거나(schema-on-read) 직접 정의할 수 있다.

스파크의 기본 요소
스파크는 저수준의 API, 구조적 API, 그리고 추가로 제공하는 일련의 표준 라이브러리로 구성되어 있다.

API 특징

참고 : https://medium.zenika.com/a-comparison-between-rdd-dataframe-and-dataset-in-spark-from-a-developers-point-of-view-a539b5acf734

https://team-platform.tistory.com/49?category=836998

https://team-platform.tistory.com/42?category=836998

'Study > Study group' 카테고리의 다른 글

[Spark-Study] Day-8 스파크 리마인드 (0)	2021.09.02
[Spark-Study] Day-7 spark-shell을 통한 실습 (0)	2021.08.26
EPI group (0)	2021.07.27
[Spark-Study] Day-2 예제 돌려보기 (3)	2021.06.24
[Spark-Study] Day-1 스파크 셋팅 (0)	2021.06.14

Developer 태하팍

[Spark-Study] Day-6 DataFrame Api

The DataFrame API

'Study > Study group' 카테고리의 다른 글

티스토리툴바

[Spark-Study] Day-6 DataFrame Api

The DataFrame API

'Study > Study group' 카테고리의 다른 글

관련글

티스토리툴바