Skip to content

jhryu1208/Python_DataAnalysis_Pandas

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

69 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data Anyalsis/Preprocessing/Visualization-Pandas


Contents


[ 데이터 포맷 이해 ]

[ Pandas 기본 문법 ]

  • Pandas 라이브러리 기본 이해
    • Series (CRUD) Create/Read/Update/Delete

      [ 데이터 시리즈 Create ] pd.Series( value list, index = [index list])

    • Pandas 데이터 타입 변경

      Series객체.astype('변경타입')

    • Dataframe (CRUD) Create/Read/Update/Delete

      [ 데이터 프레임 Create ] pd.Dataframe( {key : value,...}, index = [index list])

    • Dataframe에서 특정 행/열/값 가져오기

      행 가져오기 : ex) df.loc[2000] 열 가져오기 : ex) df.iloc[0] value 가져오기 : ex) df.loc[2000]['미국'] or df.['미국'][2000]

[ 탐색적 데이터 분석 ]

  • EDA 기본 패턴 적용을 위한 Pandas 라이브러리 문법 활용
    • EDA

      EDA(Exploratory Data Analysis) : 탐색적 데이터 분석

      1. 데이터 출처와 주제에 대해 이해
      2. 데이터의 크기 확인
      3. 데이터 구성 요소(featur)의 속성(특징) 확인
    • Pandas 라이브러리로 csv 파일 읽기

      doc = pd.read_csv('/파일경로/파일명', encoding = 'utf-8-sig') 뒤에 (quotechar = '구분자옵션')를 넣어서 구분자가 다른 경우도 읽기 가능하다.

    • 데이터 일부 확인

      head() : 처음 5개(디폴트)의 데이터 확인하기 tail() : 마지막 5개의 데이터 확인하기

    • 데이터 정보 확인

      shape : 데이터의 row,column 사이즈 확인 info() : column별 데이터타입과 실제 데이터 사이즈 확인

    • 속성간 상관관계

      corr(method = 상관계수) : 각 속성간 상관관계 확인

[ 데이터 전처리를 위한 Pandas 라이브러리 사용법]

  • Pandas 라이브러리 데이터 가공
    • Series로 feature를 보다 상세하게 탐색

      Series객체.size : series의 size 반환 Series객체.count() : 데이터가 없는 경우를 뺸 사이즈 반환 Series객체.unique() : 유일한 값만 반환 Series객체.value_counts() : 데이터가 없는 경우를 제외하고, 각 값의 갯수를 반환

    • 결측치(NaN) 데이터 확인

      isnull() : 없는 데이터가 있는지 확인 (반환값은 bool형식으로 출력) sum() : isnull은 단지 T/F값만 반환하므로, 결측치의 총 결산을 확인하기 위해 사용 따라서, isnull().sum()을 통상적으로 사용

    • 결측치(NaN) 데이터 삭제

      dropna() : 모든 컬럼의 결측치를 가진 '행'을 모두 삭제 dropna(subset=[특정컬럼]) : 특정 컬럼의 결측치를 가진 행을 모두 삭제

    • 결측치(NaN) 데이터를 특정값으로 일괄 변경

      fillna(특정값) fillna( {'컬럼명' : '특정값',... } )

    • 특정 키 값을 기준으로 데이터 합치기

      groupby().sum()

    • 특정 컬럼의 타입 변경

      astype( {'컬럼명' : '특정값',... } )

    • Dataframe에서 중복 행 확인/제거 하기

      duplicated() : 중복 행 확인 함수 drop_duplicates() : 중복 행 삭제

      • drop_duplicates(subset = '특정컬럼') : 특정 컬럼 기준으로 중복 행 제거
      • 중복된 경우, 처음과 마지막행 중 어느 행을 남길 것인지 결정하는 방법
        • keep = 'first' (디폴트 값)
        • keep = 'last'
  • 데이터프레임 연결/병합을 통해 데이터 가공하기
    • 두 Dataframe 연결

      pd.concat( [데이터프레임1,데이터프레임2], axis = )

      • 두 데이터프레임을 (위/아래) 혹은 (왼쪽/오른쪽)으로 연결
      • axis : 0(디폴트)이면 위에서 아래로 합치고, 1이면 왼쪽에서 오른쪽으로 합친다.
    • 두 Dataframe 병합

      pd.merge(데이터프레임1, 데이터프레임2, on = 기준컬럼명, how = 결합방법)

      • how 옵션 : inner / outer / left / right

[ COVID-19 현황 분석 및 시각화]

[ 시각화 라이브러리 사용 ]

[ Olist Brazil Ecommerce 데이터 분석 및 시각화 ]

About

Python Pandas 라이브러리, COVID-19, 브라질 E-Commerce

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published