머신러닝

[ML]1. 기초통계

CodeJaram 2023. 8. 4. 12:12

기초통계_01

 

  1. 통계: 데이터를 요약해 만든 정보를 바탕으로 데이터 속에 있는 차이를 확인하는 것

-데이터 요약은 큰 틀에서 보고 데이터의 특징을 숫자로 표현하여 그 속에서 차이를 확인하는 것이 중요

 

2. 빅데이터: 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상데이터를 포함하는 대규모 데이터

-규모(Volume)/속도(Velocity)/다양성(Variety)/정확성(Veracity)/가치(Value) 

 

3. 자료의 종류

*data: datum의 복수형

  • 양적 자료: 수치로 표현할 수 있는 자료

-이산형자료(정수형) 예) 자녀 수 등

-연속형 자료(실수형) 예)키, 무게 등

  • 질적자료: 수치로 표현할 수 없는 자료 예)이름, 직업, 거주지 등

4. 모집단과 표본집단

  • 모집단: 연구목적을 달성하기 위해 통계적으로 관찰의 대상이 되는 전체 집단
  • 표본집단: 모집단의 부분집합. 연구목적에 맞게 모집단 중 일부를 선택한 집단

-모집단을 잘 대표하는 표본을 선택해야 연구의 목적을 달성할 수 있음

 

 

5. 데이터의 구성

-변수(열)와 관측치(행)로 구성

-행: axis=0, 열: axis=1

 

6. 데이터의 표현

-변수=x로 표현

-데이터의 크기표현: n(변수의 개수)x p(관측치의 개수)



7. 기술통계량

  • 통계량: 변수의 특징을 설명하기 위해 연산한 숫자
  • 기술통계량: 데이터의 특징을 설명하는 통계량 예)최소값, 최대값, 중앙값, 분산 등

-연속형: 순서를 정하거나 값들을 더해 통계량을 계산

-범주형: 관측치들을 카테고리화한 데이터 예)나이를 10대, 20대, 30대로 나눔

 

1)순서통계량

-최소값: 오름차순 정렬 후 가장 먼저 나오는 값

-최대값: 오름차순 정렬 후 가장 나중에 나오는 값

 

2)대표값: 데이터를 가장 잘 표현해주는 값 예)평균값, 중앙값, 최빈값

*이상치: 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값

  • 데이터의 값이 비슷할 때는 평균값으로 설정 예)80, 90, 90, 90, 100
  • 이상치가 있으면 최빈값으로 설정 예)1, 90, 90, 90, 100
  • 중앙값은 값들을 오름차순으로 정렬했을 때 가장 중앙에 있는 값으로

이상치의 영향을 덜 받음

 

-홀수 개는 한 가운데에 있는 수가 중앙값

-짝수 개는 가운데에 있는 두 수를 더 한 후 2로 나눈 값이 중앙값

 

3)분산: 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지 계산

-분산이 0에 가까우면 평균 근처에 몰려있다는 의미→대표값을 설정하기 좋음

-분산이 커지면 평균에서 멀리 떨어져 있다는 의미

  • 표준편차: 분산에 제곱근을 씌워서 단위의 문제를 해결

  • 사분위수(quartile): 관측값을 오름차순으로 정렬 후 4개의 동일한 값으로 나눈 값

-관측값의 중심위치와 분포를 쉽고 빠르게 파악할 수 있음

-1사분위: 첫번째 수부터 중앙값까지 포함하여 구한 중앙값

-2사분위: 전체 관측치 범위에서 구한 중앙값

-3사분위: 중앙값부터 마지막 수까지 구한 중앙값

예)1,3,3(25%),3,4(50%),4,4(75%),6,6

  • 상자그림(Boxplot): 관측치를 같은 비율로 지점을 계산하여 각 구간의 간격을 살핌

-4분위수 범위: 3사분위수-1사분위수

-이상값: 최소값보다 작거나 최대값보다 큰 수

 

예)1,6,10,12,12,15,21,22,33,37,56

-2사분위수: 15

-1사분위수: 11

-3사분위수: 27.5

-4사분위수 범위: 16.5

-최소값: -13.75

-최대값: 52.25

-이상값: 56



8. 도수분포표와 히스토그램

  • 도수분포표: 범주형 데이터들이 나타내는 빈도수를 정리해놓은 표
  • 히스토그램: 도수분포표를 그래프로 나타낸 것

 

  1. 확률(Probability): A가 일어날 모든 경우의 수/총 경우의 수

 

9. 변수 간의 관계

  • 변수 간의 차이에서 의미를 찾기
  • 독립변수(영향을 미치는 요인), 종속변수(영향을 받은 결과)

예)유전, 운동량, 생활습관→사람의 키

 

10. 상관분석/상관계수: 연속형 변수들 간의 관계

  • 상관분석: 연속변수로 측정되는 두 변수 간의 선형적 관계(밀접한 정도)를 갖고 있는지 분석하는 기법
  • 상관관계: 두 변수는 서로 독립적인 관계(0)이거나 상관된 관계(-1/1)일 수 있음

-상관계수: -1부터 1까지 존재, 0에 가까울 수록 관계가 없다.

-음의 상관관계(-1): x와 y는 반비례, 음수가 상관관계없다는 의미는 아님

-양의 상관관계(1): x와 y는 비례

-상관관계 없음(0): x와 y는 서로 영향을 미치지 않음

 

상관계수 구하는 법: train_data.corr()

 

 

11. 교차표: 범주형 변수들 간의 관계

 

  • 열지도(heatmap)

 

[상자 그림 그려보기]

#pandas 라이브러리 
import pandas as pd

#데이터 시리즈 형태로 생성해주기
score=pd.Series([1,6,10,12,12,15,21,22,33,37,56])

#1사분위 수 구하기(25%)
Q1=score.quantile(.25)

#3사분위 수 구하기(75%)
Q3=score.quantile(.75)

#2사분위 수(=중위값, 중앙값, 50%)

score.quantile(.5)

#그래프 라이브러리
import matplotlib.pyplot as plt

#시각화 라이브러리, 다양한 색감, 다양한 차트 보유
import seaborn as sns

#box 그림 그리기

sns.boxplot(x=score, color='skyblue')

#데이터 표시하기

sns.swarmplot(x=score, color='black')

 

 

'머신러닝' 카테고리의 다른 글

[ML]6. Decision Tree 모델  (0) 2023.08.17
[ML]5. KNN 모델(Iris 데이터)  (0) 2023.08.16
[ML]4. 데이터 핸들링(Titanic 실습)  (0) 2023.08.14
[ML]3. 머신러닝 과정 실습  (0) 2023.08.10
[ML]2. 머신러닝 개요  (0) 2023.08.07