-
pySpark 함수 정리카테고리 없음 2021. 1. 19. 17:24
사용하는 모듈
import pyspark
from pyspark.sql.types import structType
from pyspark.sql.types import StructField
from pyspark.sql.types import StringType
- spark.read.table
databricks내 테이블을 읽어올 때 사용
ex. spark.read.table("database_name.table_name") - data.printSchema()
데이터프레임의 스키마를 볼 때 사용 - data.columns
데이터프레임의 컬럼명을 리스트로 반환해주는 함수 - len(data.columns)
데이터프레임 컬럼 갯수 셀때 - data.select('컬럼명','컬럼명2',...)
해당 열의 데이터만을 데이터프레임으로 반환해준다
앞으로 필요할 예정인 참조모듈
import datetime
import pyspark
from pyspark.sql.functions import *
from pyspark.sql import sparkSession as ss
import pandas as pd
import numpy as np
from pyspark.sql.types import IntegerType, StringType, DoubleType, FloatType
import pyspark.sql.functions as F
import matplotlib.pyplot as plt
import seaborn as sns
import time
from pyspark impor DataFrameStatFunctions as statFunc
from pyspark.sql import Window
- spark.read.table