본문 바로가기
Study/Study group

[Spark-Study] Day-6 DataFrame Api

by 태하팍 2021. 8. 19.
반응형

The DataFrame API

  • spark-shell을 실행
    • /usr/local/Cellar/apache-spark/3.1.2/bin/spark-shell
Spark context available as 'sc' (master = local[*], app id = local-1629336161368).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.1.2
      /_/

Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._

scala> val nameTypes = StringType
nameTypes: org.apache.spark.sql.types.StringType.type = StringType

scala> val firstName = nameTypes
firstName: org.apache.spark.sql.types.StringType.type = StringType

scala> val lastName = nameTypes
lastName: org.apache.spark.sql.types.StringType.type = StringType

 

DataFrame와 Dataset은 둘 다 Row와 Column을 가지는 불변성을 가지는 분산 테이블 형태의 컬렉션이다. 

스키마 
DataFrame의 칼럼명과 데이터 타입을 정의한다. 
스키마는 데이터 소스에서 얻거나(schema-on-read) 직접 정의할 수 있다. 

스파크의 기본 요소
스파크는 저수준의 API, 구조적 API, 그리고 추가로 제공하는 일련의 표준 라이브러리로 구성되어 있다.

API 특징

참고 : https://medium.zenika.com/a-comparison-between-rdd-dataframe-and-dataset-in-spark-from-a-developers-point-of-view-a539b5acf734

https://team-platform.tistory.com/49?category=836998 

https://team-platform.tistory.com/42?category=836998 

 

반응형

'Study > Study group' 카테고리의 다른 글

[Spark-Study] Day-8 스파크 리마인드  (0) 2021.09.02
[Spark-Study] Day-7 spark-shell을 통한 실습  (0) 2021.08.26
EPI group  (0) 2021.07.27
[Spark-Study] Day-2 예제 돌려보기  (3) 2021.06.24
[Spark-Study] Day-1 스파크 셋팅  (0) 2021.06.14