머신러닝_04_데이터 핸들링
[Titanic 데이터 실습]
1. Pandas 라이브러리
import pandas as pd
2. 파일 로딩
#파일 읽어오기
#최상위 폴더: /content/
#파일경로: 절대경로로 작성
# [TIP]파일경로 쉽게 작성하기
#파일-오른쪽마우스-경로복사
titanic_df=pd.read_csv('/content/titanic_train.csv')
print('titanic 변수 타입', type(titanic_df))
3. 데이터 정보 확인
- 데이터 출력
#상위 5개 출력
titanic_df.head()
#하위 5개 출력
titanic_df.tail()
- 데이터 크기 확인
#데이터 크기 확인(행, 열)
titanic_df.shape
- 데이터 정보 확인
#정보 확인
titanic_df.info()
- 기술통계량 확인
#기술통계량 확인
titanic_df.describe()
- 유형별 건수 확인
#.value_counts()->유형별 건수 확인
titanic_df['Pclass'].value_counts()
#1등석/2등석/3등석 인원 수
- 타입 확인
#타입 확인
pclass=titanic_df['Pclass']
type(pclass)
4. Numpy ndarray/리스트/딕셔너리를 DataFrame으로 변환하기
1)1차원 형태의 DataFrame 만들기
- 라이브러리/list 생성
import numpy as np
import pandas as pd
col_name1=['col1'] #컬럼 이름
list1=[1,2,3] #리스트
- 리스트를 이용하여 DataFrame 생성
#리스트를 이용하여 DataFrame 생성
df_list1=pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
- 배열(ndarray) 이용하여 DataFrame 생성
#리스트->ndarr 형태로 변환
array1=np.array(list1)
#넘파이 ndarr 이용하여 DataFrame 만들기
df_arr1=pd.DataFrame(list1, columns=col_name1)
print('1차원 넘파이 ndarr로 만든 DataFrame:\n', df_arr1)
2)2차원 형태의 DataFrame 만들기
- list 생성
#2행 3열
#컬럼 이름
col_name2=['col1', 'col2', 'col3']
#2행 3열의 리스트와 ndarray 생성하고 DataFrame으로 변환
list2=[[1,2,3],[4,5,6]]
array2=np.array(list2)
- 리스트를 이용하여 DataFrame 생성
#리스트를 이용하여 DataFrame 생성
df_list2=pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)
- 배열(ndarray) 이용하여 DataFrame 생성
#넘파이 ndarr 이용하여 DataFrame 만들기
df_arr2=pd.DataFrame(list2, columns=col_name2)
print('2차원 넘파이 ndarr로 만든 DataFrame:\n', df_arr2)
- 딕셔너리 이용하여 DataFrame 생성
#딕셔너리로 DataFrame 만들기
#key:value=>컬럼명: 리스트/ndarray
dict={'col1': [1,11], 'col2': [2, 22],
'col3':[3,33]}
df_dict=pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame\n',df_dict)
- 드라이브 마운트(파일을 계속 저장하는 방법)
-구글 드라이브나 PC 폴더에 있는 파일을 불러올 수 있음
-파일-3번째 폴더 아이콘 클릭-Google drive 연결 허용
-drive mount import-data 파일 경로복사하여 붙여넣기
'머신러닝' 카테고리의 다른 글
[ML]6. Decision Tree 모델 (0) | 2023.08.17 |
---|---|
[ML]5. KNN 모델(Iris 데이터) (0) | 2023.08.16 |
[ML]3. 머신러닝 과정 실습 (0) | 2023.08.10 |
[ML]2. 머신러닝 개요 (0) | 2023.08.07 |
[ML]1. 기초통계 (0) | 2023.08.04 |