ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 통계분석 본문

ADsP

데이터분석 준전문가 ADsP 3과목 통계분석

madb 2022. 2. 16. 22:27
반응형

 

  • 히스토그램의 각 막대의 높이빈도를 나타낸다.

  • 표본추출방법
    단순랜덤추출법
    계통추출법
    집락추출법
    층화추출법

  • 구간추정은 모수의 참값이 포함되어있다고 추정되는 구간을 결정하는 것이지만
    실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다.

  • 비표본오차는 표본오차를 제외한 모든 오차
    조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며
    조사대상이 증가하면 오차가 커진다

  • 표본편의 sampling bias확률화 randomization에 의해 최소화하거나 없앨수 있다.

  • 구간척도 등간척도는 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 

    구간이나 구간사이의 간격이 의미가 있는 자료이다
    순서뿐만 아니라 그 간격도 의미가 있으며 

    0이 절대적인 의미를 가지는 것비율척도에 해당한다.

  • p value는 귀무가설이 사실인데도 불구하고
    사실이 아니라고 판정할 떄 실제 확률을 나타낸다

  • 조건부 확률은 어떤 사건이 일어난 조건하에서 다른 사건이 일어날 확률을 말한다

  • 표본의 분산은 카이제곱 분포를 따른다

  • 신뢰수준의 95%의 의미는 
    모수가 신뢰구간 내에 존재할 확률이 95%라는 것이다

  • 이산형 확률분포에는 
    베르누이
    이항
    다항
    포아송
    기하분포 등이 있다

    지수분포연속형 확률분포에 해당한다

  • 비율척도는 절대적인 기준인 0이 존재하고 사칙연산이 가능하다 

  • 히스토그램은 표본의 크기가 작으면
    각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못한다

  • 비모수적 검정
    관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나
    두 관측값 차이의 부호등을 이용해 검정한다

  • 줄기잎그림의 계산량은 많지 않다

  • 귀무가설에서 설정한 평균의 참값은 100으로 
    평균에 대한 95% 신뢰구간에 포함되지 않는다.

  • 스피어만 상관계수는 순서형 변수를 사용하여
    비모수적 상관관계를 나타낸다.

  • 회귀분석의 가정은 
    선형성
    독립성
    정규성
    등분산성
    비상관성

  • 피어슨 상관계수연속형 변수에 사용하며 정규성을 가정한다.

    스피어만 상관계수순서형 변수에 사용하며 비모수적 방법이다
    피어슨 상관계수를 순위로 변환시키는 것은 옳지 않다.

  • 회귀분석
    종속변수에 미치는 영향력의 크기를 파악하여
    독립변수의 특정한 값에 대응하는 종속변수값을 에측하는 선형모형을 산출하는 방법

  • F통계량을 확인함으로
    추정된 다중회귀모형이 통계적으로 유의미한지 확인할 수 있다.

  • 상관분석을 통해 분산은 알 수 없으며
    변수 자기 자신과의 상관계수가 1이다.

  • 상관분석
    두 변수간의 관계의 정도를 알아보기 위한 분석방법

    상관분석으로 인과관계를 알 수 없다

  • 회귀식에 대한 검정은 
    독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설
    독립변수의 기울기(회귀계수)0이 아니라는 가정대립가설로 놓는다.

  • 회귀분석의 가정
    선형성
    독립성
    등분산성
    비상관성이 있다

    산점도가 나팔모양이면 
    오차의 분산이 예측치가 커짐에 따라 커지거나 작아지고 있음을 의미하며
    등분산 가정이 무너지고 오차항의 이분산성 heteroscedasticity을 가진다.

  • 결정계수
    총 변동중에 회귀모형에 의하여 설명되는 변동이 차지하는 비율

  • 매우 큰 수(양수 또는 음수)를 부동소수점으로 표현할때는 E 혹은 e를 이용하여 숫자에 지수를 추가할 수 있다.

    지수가 있는 숫자 값은 E앞에 있는 숫자에 10을 지수번만큼 곱한 값이다.

    지수가 양수이면 그 수만큼 소수점을 오른쪽으로 이동시키고
    지수가 음수이면 그 수만큼 소수점을 왼쪽으로 이동한다.

    1.579e-01 이면 0.1579
    1.775e-02 이면 0.01775

  • Durbin Watson Test
    회귀 모형 오차항의 자기상관이 있는 지에 대한 검정

    히스토그램
    Q-Q plot
    Shaprio-Wilk 검정등을 활용하여
    데이터의 정규성을 확인한다.

  • 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법
    전진선택법과 후진선택법과 동일한 최적의 모형을 가지는 것은 아니다.

  • 시계열 자료는 시간의 흐름에 따라 관찰된 값을 의미한다.

  • 평균이 일정하지 않은 비정상 시계열은 차분통해 정상 시계열로 바꾼다

    분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상 시계열로 바꾼다

  • 평균 고유값 방법
    고유값들의 평균을 구한후 
    고유값이 평균값 이상이 되는 주성분을 제거하는 것이 아니라 설정하는 것이다

  • 시계열 예측에서 정상성을 만족한다는 것은 
    분산이 시점에 의존하지 않는 다는 것을 의미한다

  • 스크리 그림 Scree plot 
    총 분산 비율과 고유값 eigenvalue 수평을 유지하기 전 단계로 주성분의 수를 선택한다

    총분산의 비율 cumulative proportion은 주성분분석 결과에서 확인할 수 있다.

  • 상관행렬을 사용하여 주성분 분석을 시행한 것

  •  L1규제 penalty
    lasso 회귀모형에서는 사용하는 규제방식

  • 교차분석
    두 문항 모두 범주형 변수일떄 사용되는 분석
    두 변수간의 관련성을 보기 위해 실시한다

  • 잡음은 무작위적 변동이며 일반적인 원인이 알려져 있지 않다.

  • 계량적 다차원척도법 metric MDS
    비율척도, 구간척도의 데이터를 활용하고 

    비계량적 다차원척도법 nonmetric MDS
    순서척도의 데이터를 활용하게 된다 

  • 순환변동
    경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료를 의미한다

  1. 후진제거법 backward elimination
    최적회귀방정식을 선택하기 위한 방법중
    모든 독립변수 후보를 포함한 모형에서 시작하여
    가장 적은 영향을 주는 변수를 하나씩 제거하면서 
    더이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법

  2.  회귀계수 추정량 최소제곱

  3. 계통추출방법(Systematic sampling)
    번호를 부여한 샘플을 나열하여 
    k씩 n개의 구간을 나누고 
    첫 구간에서 하나를 임의로 선택한 후에 k씩 띄어서 표본을 선택하고
    매번 k번째 항목을 추출하는 표본 추출 방법 

  4. 제1종 오류 
    귀무가설이 옳은데
    귀무가설을 받아들이지 않고
    기각하게 되는 오류 

  5. 오즈(odds) 승산비

  6. 정상성
    시계열의 수준과 분산에 체계적인 변화가 없고
    엄밀하게 주기적 변동이 없다는 것으로
    미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어 

  7. 자기회귀모형(AR모형, autogressive model)
    시계열모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
    백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률모형
    모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차... p차 등을 사용하나
    정상시계열 모형에서는 주로 1, 2차를 사용함 

  8. 분해시계열
    상시계열에 영향을 주는 일반적인 요인을 
    시계열에서 분리해 분석하는 방법 

  9. 중앙값 
    자료의 위치를 나타내는 척도의 하나로
    관측치를 크기순으로 배열하였을때 
    전체의 중앙에 위치한 수치이다.

    평균에 비해 이상치에 의해 영향이 적기 때문에 
    자료의 분포가 심하게 비대칭인 경우
    중심을 파악할떄 합리적인 방법이다. 
반응형