기초통계_01
- 통계: 데이터를 요약해 만든 정보를 바탕으로 데이터 속에 있는 차이를 확인하는 것
-데이터 요약은 큰 틀에서 보고 데이터의 특징을 숫자로 표현하여 그 속에서 차이를 확인하는 것이 중요
2. 빅데이터: 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상데이터를 포함하는 대규모 데이터
-규모(Volume)/속도(Velocity)/다양성(Variety)/정확성(Veracity)/가치(Value)
3. 자료의 종류
*data: datum의 복수형
- 양적 자료: 수치로 표현할 수 있는 자료
-이산형자료(정수형) 예) 자녀 수 등
-연속형 자료(실수형) 예)키, 무게 등
- 질적자료: 수치로 표현할 수 없는 자료 예)이름, 직업, 거주지 등
4. 모집단과 표본집단
- 모집단: 연구목적을 달성하기 위해 통계적으로 관찰의 대상이 되는 전체 집단
- 표본집단: 모집단의 부분집합. 연구목적에 맞게 모집단 중 일부를 선택한 집단
-모집단을 잘 대표하는 표본을 선택해야 연구의 목적을 달성할 수 있음
5. 데이터의 구성
-변수(열)와 관측치(행)로 구성
-행: axis=0, 열: axis=1
6. 데이터의 표현
-변수=x로 표현
-데이터의 크기표현: n(변수의 개수)x p(관측치의 개수)
7. 기술통계량
- 통계량: 변수의 특징을 설명하기 위해 연산한 숫자
- 기술통계량: 데이터의 특징을 설명하는 통계량 예)최소값, 최대값, 중앙값, 분산 등
-연속형: 순서를 정하거나 값들을 더해 통계량을 계산
-범주형: 관측치들을 카테고리화한 데이터 예)나이를 10대, 20대, 30대로 나눔
1)순서통계량
-최소값: 오름차순 정렬 후 가장 먼저 나오는 값
-최대값: 오름차순 정렬 후 가장 나중에 나오는 값
2)대표값: 데이터를 가장 잘 표현해주는 값 예)평균값, 중앙값, 최빈값
*이상치: 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값
- 데이터의 값이 비슷할 때는 평균값으로 설정 예)80, 90, 90, 90, 100
- 이상치가 있으면 최빈값으로 설정 예)1, 90, 90, 90, 100
- 중앙값은 값들을 오름차순으로 정렬했을 때 가장 중앙에 있는 값으로
이상치의 영향을 덜 받음
-홀수 개는 한 가운데에 있는 수가 중앙값
-짝수 개는 가운데에 있는 두 수를 더 한 후 2로 나눈 값이 중앙값
3)분산: 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지 계산
-분산이 0에 가까우면 평균 근처에 몰려있다는 의미→대표값을 설정하기 좋음
-분산이 커지면 평균에서 멀리 떨어져 있다는 의미
- 표준편차: 분산에 제곱근을 씌워서 단위의 문제를 해결
- 사분위수(quartile): 관측값을 오름차순으로 정렬 후 4개의 동일한 값으로 나눈 값
-관측값의 중심위치와 분포를 쉽고 빠르게 파악할 수 있음
-1사분위: 첫번째 수부터 중앙값까지 포함하여 구한 중앙값
-2사분위: 전체 관측치 범위에서 구한 중앙값
-3사분위: 중앙값부터 마지막 수까지 구한 중앙값
예)1,3,3(25%),3,4(50%),4,4(75%),6,6
- 상자그림(Boxplot): 관측치를 같은 비율로 지점을 계산하여 각 구간의 간격을 살핌
-4분위수 범위: 3사분위수-1사분위수
-이상값: 최소값보다 작거나 최대값보다 큰 수
예)1,6,10,12,12,15,21,22,33,37,56
-2사분위수: 15
-1사분위수: 11
-3사분위수: 27.5
-4사분위수 범위: 16.5
-최소값: -13.75
-최대값: 52.25
-이상값: 56
8. 도수분포표와 히스토그램
- 도수분포표: 범주형 데이터들이 나타내는 빈도수를 정리해놓은 표
- 히스토그램: 도수분포표를 그래프로 나타낸 것
- 확률(Probability): A가 일어날 모든 경우의 수/총 경우의 수
9. 변수 간의 관계
- 변수 간의 차이에서 의미를 찾기
- 독립변수(영향을 미치는 요인), 종속변수(영향을 받은 결과)
예)유전, 운동량, 생활습관→사람의 키
10. 상관분석/상관계수: 연속형 변수들 간의 관계
- 상관분석: 연속변수로 측정되는 두 변수 간의 선형적 관계(밀접한 정도)를 갖고 있는지 분석하는 기법
- 상관관계: 두 변수는 서로 독립적인 관계(0)이거나 상관된 관계(-1/1)일 수 있음
-상관계수: -1부터 1까지 존재, 0에 가까울 수록 관계가 없다.
-음의 상관관계(-1): x와 y는 반비례, 음수가 상관관계없다는 의미는 아님
-양의 상관관계(1): x와 y는 비례
-상관관계 없음(0): x와 y는 서로 영향을 미치지 않음
상관계수 구하는 법: train_data.corr()
11. 교차표: 범주형 변수들 간의 관계
- 열지도(heatmap)
[상자 그림 그려보기]
#pandas 라이브러리
import pandas as pd
#데이터 시리즈 형태로 생성해주기
score=pd.Series([1,6,10,12,12,15,21,22,33,37,56])
#1사분위 수 구하기(25%)
Q1=score.quantile(.25)
#3사분위 수 구하기(75%)
Q3=score.quantile(.75)
#2사분위 수(=중위값, 중앙값, 50%)
score.quantile(.5)
#그래프 라이브러리
import matplotlib.pyplot as plt
#시각화 라이브러리, 다양한 색감, 다양한 차트 보유
import seaborn as sns
#box 그림 그리기
sns.boxplot(x=score, color='skyblue')
#데이터 표시하기
sns.swarmplot(x=score, color='black')
'머신러닝' 카테고리의 다른 글
[ML]6. Decision Tree 모델 (0) | 2023.08.17 |
---|---|
[ML]5. KNN 모델(Iris 데이터) (0) | 2023.08.16 |
[ML]4. 데이터 핸들링(Titanic 실습) (0) | 2023.08.14 |
[ML]3. 머신러닝 과정 실습 (0) | 2023.08.10 |
[ML]2. 머신러닝 개요 (0) | 2023.08.07 |