본문 바로가기

Data/Python

[Data/Python] 이론 정리

[자료의 이해1_기본 용어]

모집단 : 관심 대상의 전체 집합

모수 : 모집단을 분석해서 얻은 결과 (ex 평균, 분산 등)

 

하지만 실제로는 모집단 전체를 조사하기 힘듦

-> 표본 추출

표본 : 모집단 중 일부

통계량 : 표본을 분석해서 얻은 결과값

 

통계량을 통해 모수를 추정하자!!

 

 

변수형 종류

  • 범주형(빈도 분석) 
    • 명목형
      • 단순히 범주(성별, 혈액형)
    • 순서형
      • 범주의 순서 상대적으로 비교 가능(비만도, 학점)
  • 수치형(분포 분석)
    • 이산형
      • 셀 수 있음. 유한한 범위(멤버의 수, 교통사고 건수)
    • 연속형
      • 등간형
    독립 변수 X
    수치형 범주형





Y


상관분석
회귀분석
t-test


로지스틱
회귀분석
카이제곱 검정

 

 

 

 

[자료의 이해2_시각화]

범주형 데이터 - 질적 자료

수치형 데이터 - 양적 자료

 

일변량차트

: 수치형 데이터->box plot 등을 통해 이상치 알 수 있음. 히스토그램

 

다변량차트

:수치형&수치형->산점도를 통해 데이터 간의 관계성(선형 관계 등), 데이터가 그룹을 갖고 있는지, 이상치 존재 등을 알 수 있음. But 산점도를 통해 인과관계는 알 수 없음

 

 

 

 

[통계분석_위치&변이 통계량]

통계량 : 표본을 분석해서 얻는 결과

 

통계량 종류

1. 위치 통계량

1) 평균

이상치에 민감. 자료 수가 적거나 극단값이 여러 개이면 대푯값 기능 상실

기댓값 E(x)

-평균이 수치형 데이터에 대한 대푯값이라면, 기댓값은 모집단 데이터에 대한 평균값임

 

2) 중앙값(Median)=중위수

데이터 순서대로 나열->가운데값.(짝수형이면 가운데 두 수의 평균)

이상치에 민감하지 x

 

3) 최빈값(Mode)

데이터 중 빈도가 가장 많은 값.

질적 변수(명목, 서열 자료)에도 활용 가능.

 

2. 변이 통계량(산포도=분산도)

자료가 흩어져 잇는 정도를 측정

  • 분산
    • 두 분포에서 자료의 흩어짐을 비교
  • 표준편차
    • 원래 자료의 단위로 환원되어 같은 단위로 측정된 다른 통계량과 쉽게 비교 가능

특징

- 자료가 흩어질수록 범위, 분산, 표준편차 커짐

- 자료가 평균 주위로 집중하면 범위, 분산, 표준편차 작아짐

- 자료 모두 동일 -> 범위, 분산, 표준편차=0

 

  • 변동계수(CV)
    • 표준편차를 평균으로 나눈 값.
    • 서로 다른 데이터 간의 편차 비교

표준편차는 키가 커서 자료의 키의 데이터가 더 흩어져있다고 생각할 수 있지만 키와 몸무게의 스케일이 다르기 때문에, 

표준편차를 평균으로 나눴을 때 확인해보면 몸무게의 변동계수가 더 큼을 알 수 있음->몸무게의 데이터가 더 퍼져있음

 

3. 모양 통계량(분포의 모양)

- 데이터 분포의 형태와 대칭성 설명

  • 왜도(skewness)
    • 분포의 대칭성 알아봄
  • 첨도(kurtosis)
    • 정규분포 대비 봉오리의 높이 알아봄

 

 

 

[통계분석_확률&베이즈 정리]

표본공간(Sample space) : 확률실험으로부터 가능한 모든 결과들의 모임

독립인 경우

 

베이즈 정리

 

 

 

[주요확률분포1_이산, 연속, 균등, 이항, 포아송, 지수]

기대값의 특성
분산의 특성

 

* 이항분포

베르누이 실험에 기초.

조건

  • n번 독립적으로 시행. 
  • 성공/실패
  • 1번 시행 시 성공확률 p. 실패확률 (1-p). 확률은 시행때마다 동일
  • 확률변수 X : n번 시행 중 성공횟수

특성

  • 성공확률 p=1/2에 가까움->좌우대칭 종모양
  • n이 크면 p의 크기에 관계 없이 좌우대칭
  • n이 작고 p<1/2이면 오른쪽 꼬리 분포
  • n이 작고 p>1/2이면 왼쪽 꼬리 분포

 

 

* 포아송분포

특정한 단위 안에서 발생되는 횟수의 값을 알아낼 때 사용.

포아송분포의 람다값이 커질수록 정규분포에 수렴.

 

* 지수분포

사건 독립. 일정시간동안 발생하는 사건의 횟수가 포아송 분포를 따를 때, 다음 사건이 일어날 때까지의 대기시간

람다가 커질수록. 일정시간동안 사건이 많이 발생할 수록 대기시간은 짧아진다.

 

 

 

 

[주요확률분포2_정규, t, 카이제곱, f]

* 정규분포

  • 연속확률변수를 기술하는 가장 중요한 확률분포
  • 종 모양
  • 중심극한정리에 의해 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문에 수집된 자료의 분포를 근사하는 데에 자주 사용
  • 중심극한정리 : 각각의 표본에서 평균을 구한 뒤, 이 평균들을 원소로 하여 이 표본평균들의 평균을 구하면, 모집단이 어떤 분포를 따르던지, 표본의 평균들은 무조건 정규분포를 따른다.
  • 표준정규분포 : 정규분포 표준화. 평균=0, 분산=1인 정규분포

범위 안에 약 68%, 95%, 99%의 데이터가 존재
1.96 암기

 

 

* t분포(Student's t-Distribution)

  • 활용
    • 모집단 평균 추론 시 표본의 수가 적을 경우(보통 30개 미만)
    • 모집단의 분산을 모를 경우, 가설검정, 회귀분석시
    • 선형 회귀 계수 추론 
  • 정규분포와 유사하게 좌우대칭 종모양. 중심=0
  • 자유도에 따라 형태가 다름

확률변수 T.

이때 분모는 표준오차를 의미.

 

 

* 카이제곱 분포(Chi-squared Distribution)

  • 활용
    • 모집단 분산 추론 시
    • 카이제곱 검정 시
  • 자유도가 k인 x^2분포의 평균은 k, 분산은 2k
  • 항상 양수. 심하게 왼쪽으로 쏠린 분포임. 자유도에 따라 모양 변함. 자유도가 커질수록 정규분포에 가까워

오른쪽 카이제곱분포. 자유도 클수록 왼쪽 모양으로 가까워짐
자유도(k)가 클수록 정규분포모양 근사

 

 

* f분포

  • 활용
    • 두 모집단 분산차이 비교 시
    • F-검정, 분산분석, 회귀분석 등
  • 분산떠올리기. 회귀 때 사용
  • 분산의 비를 이용해 특징 추출
  • 이 분산비를 활용해 두 분산 간의 동질성 여부 검정 or 두 개 이상의 평균치 간의 차이 유무 검정(F-검정, 분산분석, 회귀분석 등)
  • 두 개의 자유도에 따라 모양 달라짐. 항상 양의 값만 가짐. 왼쪾으로 치우친 비대칭 형태.
  • 자유도가 커질수록 정규분포에 가까워

 

 

이건 그냥 참고

 

Vㅔ리 중요

 

 

[추론 통계1_추정]

* 추정

모집단의 평균, 분산, 표준편차 등을 표본을 이용해 알아내려는 과정

 

추정량 : 추정때 사용되는 통계량. 표본에서 나옴. (가설점정에서는 검정통계량으로 부름)

추정치 : 추정량을 평가해 얻는 수치

 

* 점추정

  • 모집단의 특성을 하나의 값으로 추정.
  • 표본으로부터 표본평균, 표본분산 등을 얻음.
  • 표본이 모집단 특성을 잘 표현하지 못하면 오차 클 수 있음
  • 사전에 조건들이 갖춰져있어야 그 값이 맞다고 인정할 수 있음.
  • 조건 : 모집단을 잘 대표하는 표본을 추출해야함. 분산도 작아야함 등..

-> 구간추정 많이 사용

 

* 구간추정

  • 표본 안에 오차가 있다고 전제. 
  • 모수가 포함될 것이라고 추정하는 범위를 나타냄
  • 구간 설정 : 구간이 좁으면 좀 더 모수를 정확하게 추정
  • 신뢰도 설정 : 설정된 구간 안에 실제 모수가 존재할 확률
  • 구간의 상한/하한 내에 표본평균이 존재

 

* 대수의 법칙 / 중심극한정리

대수의 법칙 : 표본수가 많을수록 오차는 줄어듦

중심극한정리 : 표본이 커지면 표본들의 평균은 정규분포를 따르게 된다

 

 

 

* 신뢰구간

  • 모수가 특정 확률로 포함될 것이라고 주장하는 범위
  • 신뢰구간 추정치 : 하한 ≤ 점추정치 ≤ 상한

이때 z분포나 t분포나 계산식은 동일함. z분포인지, t분포인지에 따라 신뢰구간의 상한, 하한값이 달라짐

 

100번정도 표본추출을 하면 95번정도는 평균이 있는 구간을 맞출 것이다.

신뢰구간이 좁을수록 정확도가 높다.

모집단의 평균이 좁은 신뢰구간에 위치한다는 뜻임. => 성능이 높다

 

 

* 신뢰수준

  • 모수의 참값이 두 신뢰 한계 안에 포함될 것이라고 주장할 때 사용하는 확률
  • 90%, 95%, 99% 신뢰수준 주로 사용
  • 모수 뮤에 대한 95% 신뢰구간이란, 모수 뮤가 이 구간에 들어갈 확률이 95%라는 것이 아니라!!!!!!!!!
  • n번을 반복추출하여 산정하는 수많은 신뢰구간 중에서 평균적으로 95%는 모수 뮤를 포함하고 있을 것이라는 의미

 

 

 

* 표준 오차(Standard Error)

  • 오차.
  • 표준 오차는 표본 평균의 퍼짐 정도(표본평균의 표준편차)

  • 표준편차 vs 표준오차
    • 표준편차 : 원시 자료의 퍼짐 정도에 대한 측도
    • 표준오차 : 표본평균의 퍼짐 정도(표본평균의 표준편차)

표준 편차와 표준 오차

  • 표준편차와 표준오차를 통해 실험에서 사용할 샘플의 개수 정할 수 있음