카테고리 없음

pySpark 함수 정리

나미-IT 2021. 1. 19. 17:24

사용하는 모듈 

import pyspark

from pyspark.sql.types import structType

from pyspark.sql.types import StructField

from pyspark.sql.types import StringType

 

  • spark.read.table
    databricks내 테이블을 읽어올 때 사용
    ex. spark.read.table("database_name.table_name")
  • data.printSchema()
    데이터프레임의 스키마를 볼 때 사용
  • data.columns
    데이터프레임의 컬럼명을 리스트로 반환해주는 함수
  • len(data.columns)
    데이터프레임 컬럼 갯수 셀때
  • data.select('컬럼명','컬럼명2',...)
    해당 열의 데이터만을 데이터프레임으로 반환해준다

 

 

앞으로 필요할 예정인 참조모듈

import datetime

import pyspark

from pyspark.sql.functions import *

from pyspark.sql import sparkSession as ss

import pandas as pd

import numpy as np

from pyspark.sql.types import IntegerType, StringType, DoubleType, FloatType

import pyspark.sql.functions as F

import matplotlib.pyplot as plt

import seaborn as sns

import time

from pyspark impor DataFrameStatFunctions as statFunc

from pyspark.sql import Window