머신러닝

[ML]4. 데이터 핸들링(Titanic 실습)

CodeJaram 2023. 8. 14. 09:22

머신러닝_04_데이터 핸들링

 

[Titanic 데이터 실습]

1. Pandas 라이브러리 

import pandas as pd

 

2. 파일 로딩

#파일 읽어오기

#최상위 폴더: /content/

#파일경로: 절대경로로 작성

# [TIP]파일경로 쉽게 작성하기

#파일-오른쪽마우스-경로복사

 

titanic_df=pd.read_csv('/content/titanic_train.csv')

print('titanic 변수 타입', type(titanic_df))

 

3. 데이터 정보 확인

  • 데이터 출력

#상위 5개 출력

titanic_df.head()

 

#하위 5개 출력

titanic_df.tail()

 

  • 데이터 크기 확인

#데이터 크기 확인(행, 열)

titanic_df.shape

 

  • 데이터 정보 확인

#정보 확인

titanic_df.info()

  • 기술통계량 확인

#기술통계량 확인

titanic_df.describe()



  • 유형별 건수 확인

#.value_counts()->유형별 건수 확인

 

titanic_df['Pclass'].value_counts()

 

#1등석/2등석/3등석 인원 수



  • 타입 확인

#타입 확인

pclass=titanic_df['Pclass']

type(pclass)



4. Numpy ndarray/리스트/딕셔너리를 DataFrame으로 변환하기

1)1차원 형태의 DataFrame 만들기

  • 라이브러리/list 생성

import numpy as np

import pandas as pd

 

col_name1=['col1'] #컬럼 이름

list1=[1,2,3] #리스트



  • 리스트를 이용하여 DataFrame 생성

#리스트를 이용하여 DataFrame 생성

df_list1=pd.DataFrame(list1, columns=col_name1)

print('1차원 리스트로 만든 DataFrame:\n', df_list1)

 

  • 배열(ndarray) 이용하여 DataFrame 생성

#리스트->ndarr 형태로 변환

array1=np.array(list1)

#넘파이 ndarr 이용하여 DataFrame 만들기

df_arr1=pd.DataFrame(list1, columns=col_name1)

print('1차원 넘파이 ndarr로  만든 DataFrame:\n', df_arr1)

 

2)2차원 형태의 DataFrame 만들기

  • list 생성

#2행 3열

#컬럼 이름

col_name2=['col1', 'col2', 'col3']

 

#2행 3열의 리스트와 ndarray 생성하고 DataFrame으로 변환

list2=[[1,2,3],[4,5,6]]

array2=np.array(list2)

 

  • 리스트를 이용하여 DataFrame 생성

#리스트를 이용하여 DataFrame 생성

df_list2=pd.DataFrame(list2, columns=col_name2)

print('2차원 리스트로 만든 DataFrame:\n', df_list2)

 

  • 배열(ndarray) 이용하여 DataFrame 생성

#넘파이 ndarr 이용하여 DataFrame 만들기

 

df_arr2=pd.DataFrame(list2, columns=col_name2)

print('2차원 넘파이 ndarr로  만든 DataFrame:\n', df_arr2)

 

  • 딕셔너리  이용하여 DataFrame 생성

#딕셔너리로 DataFrame 만들기

#key:value=>컬럼명: 리스트/ndarray

 

dict={'col1': [1,11], 'col2': [2, 22],

      'col3':[3,33]}

 

df_dict=pd.DataFrame(dict)

print('딕셔너리로 만든 DataFrame\n',df_dict)




  • 드라이브 마운트(파일을 계속 저장하는 방법)

-구글 드라이브나 PC 폴더에 있는 파일을 불러올 수 있음

-파일-3번째 폴더 아이콘 클릭-Google drive 연결 허용

 

-drive mount import-data 파일 경로복사하여 붙여넣기

# from google.colab import drive
 
drive.mount('/content/drive')
 
#파일 불러오기
import pandas as pd

data=pd.read_csv('/content/mushrooms.csv')

 

'머신러닝' 카테고리의 다른 글

[ML]6. Decision Tree 모델  (0) 2023.08.17
[ML]5. KNN 모델(Iris 데이터)  (0) 2023.08.16
[ML]3. 머신러닝 과정 실습  (0) 2023.08.10
[ML]2. 머신러닝 개요  (0) 2023.08.07
[ML]1. 기초통계  (0) 2023.08.04