ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • pySpark 함수 정리
    카테고리 없음 2021. 1. 19. 17:24

    사용하는 모듈 

    import pyspark

    from pyspark.sql.types import structType

    from pyspark.sql.types import StructField

    from pyspark.sql.types import StringType

     

    • spark.read.table
      databricks내 테이블을 읽어올 때 사용
      ex. spark.read.table("database_name.table_name")
    • data.printSchema()
      데이터프레임의 스키마를 볼 때 사용
    • data.columns
      데이터프레임의 컬럼명을 리스트로 반환해주는 함수
    • len(data.columns)
      데이터프레임 컬럼 갯수 셀때
    • data.select('컬럼명','컬럼명2',...)
      해당 열의 데이터만을 데이터프레임으로 반환해준다

     

     

    앞으로 필요할 예정인 참조모듈

    import datetime

    import pyspark

    from pyspark.sql.functions import *

    from pyspark.sql import sparkSession as ss

    import pandas as pd

    import numpy as np

    from pyspark.sql.types import IntegerType, StringType, DoubleType, FloatType

    import pyspark.sql.functions as F

    import matplotlib.pyplot as plt

    import seaborn as sns

    import time

    from pyspark impor DataFrameStatFunctions as statFunc

    from pyspark.sql import Window

     

    댓글

Designed by Tistory.