ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 정형데이터마이닝 본문

ADsP

데이터분석 준전문가 ADsP 3과목 정형데이터마이닝

madb 2022. 2. 17. 00:39
반응형
  • 데이터마이닝
    대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

  • 반응변수가 범주형인 경우 예측모형의 주목적은 분류이다

  • 군집분석
    각 객체의 유사성을 측정하여 
    유사성이 높은 대상 집단을 분류하고 
    군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석방법

  • 랜덤포레스트 분석기법
    데이터마이닝 방법론의 앙상블 기법중 하나
    분류분석문제를 해결하기 위한 의사결정나무와 같은 방법론이지만
    의사결정나무에서 나타나는 과대적합/과소적합의 문제를 해결할 수 있다

  • 데이터 가공단계
    모델링 목적에 따라 목적변수를 정리하고 
    필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계

  • 자기조직화지도(self- organizing map) SOM - 비지도학습

    비지도 신경망
    고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 
    지도의 형태로 형상화한다.


    역전파 알고리즘 등을 이용하는 인공신경망과 달리 
    단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다
    따라서 실시간 학습처리를 할 수 있는 모형이다 

    경쟁학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 
    연결 강도를 반복적으로 재조정하여 학습한다.
    이 과정을 거치면서 연결강도는 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

    승자 독식 구조로 인해 
    경쟁층에는 승자 뉴런만이 나타나며 
    승자와 유사한 연결강도를 갖는 입력패턴이 동일한 경쟁 뉴런으로 배열된다.

    각 학습 단계마다 입력층의 데이터 집합으로부터
    하나의 표본 벡터를 임의로 선택하고
    경쟁층의 프로토타입 벡터와의 거리를 계산하고
    가장 가까운 프로토타입 벡터를 선택하는데
    이때 선택된 프로타입 벡터를 나타내는 용어 ->
    BMU Best-Matching Unit

  • 지도 학습은 답이 있는 학습으로 기억하면 되고, 
    반대로 비지도학습은 '답이 없는' 학습이라고 인지하면 된다. 

    비지도 학습은 정답과 오답 등 같은 답이 없는 데이터로 학습시키는 것을 말한다.
    어떤 분류도 하지 않아서 답이 없는 데이터를 머신러닝에 건네줘서 학습시킨다.

    지도학습에는 
    로지스틱 회귀분석
    인공신경망
    의사결정나무 : 의사결정나무모형에서 핵심적인 공통개념은 하향식 기법이 사용되며
    각 진행단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다.

    의사결정나무중 가지치기 단계는 
    오차를 크게 할 위험이 높거나
    부적절한 추론규칙을 가지고 있는 가치 또는 불필요한 가치를 제거하는 단계이다
  • 생성된 모델이 훈련 데이터에 최적화되어 있기 때문에 
    데이터의 작은 변화에 민감하게 반응한다

  • 일반적으로 test set에 대한 모형평가 결과가 
    train set에 대한 모형 평가 결과보다 좋게 나타나는 지는 알 수 없다.

  • 기술 description은 데이터가 암시하는 바를 설명가능해야하며
    설명에 대한 답을 찾아낼 수 있어야 한다.

  • 뿌리 마디에서 아래로 내려갈수록 각 마디에서의 불순도는 점차 감소한다

    분리변수의 p차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다.

  • %captured response
    전체에서 해당집단을 분리해내는 비율을 의미하며
    score에 따라 고객을 10개의 집단으로 구분하고
    집단이 누적됨에 따라
    전체 재구매 고객 대비 percentile별 누적 구매 고객의 비율을 나타낸다

    특정 범주의 고객에게 action을 수행할 경우
    실제 반응이 나타난 고객 중 몇 %의 고객을 확보할 수 있는 지에 대한 수치로 해석할 수 있다.

  • 배깅
    주어진 자료에서 여러개의 붓스트랩 자료를 생성하고
    각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종예측모형을 만드는 방법

  • 앙상블 기법
    배깅 bagging
    부스팅 boosting - 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법 
    랜덤포레스트 random forest 포함된다 

    시그모이드인공신경망에서 활성화함수로 쓰인다.
    시그모이드 함수를 단층신경망에서 활성화함수로 사용하면 
    로지스틱 회귀모형과 작동원리가 유사하다.

  • precision
    True로 예측된 것중 실제 True인 것들의 비율

  • 향상도는 1보다 큰값 나오면 연관성이 높다 

  • 재현율 TP/(TP+FP)
    실제 True인 것중에서
    모델이 True라고 예측한 것의 비율

  • 특이도 TN/(TN+FP) 

  • 일반화 가중치 generalized weight 
    각 공변량의 영향을 표현하기 때문에
    회귀모델에서 1번째 회귀 변수의 유사한 해석을 가진다. 

  • 은닉층의 뉴런수와 개수는 
    신경망 모형에서 자동으로 설정되지 않으므로 직접 설정해야 한다 

  • 뉴런은 활성화 함수를 이용해 출력을 결정하며
    입력신호의 가중치 합을 계산하여 임계값과 비교한다

    입력변수의 속성에 따라 활성화 함수를 선택하지 않는다.

  • 로지스틱 회귀모형에서 설명변수가 1개 인 경우
    해당 회귀 계수의 부호가 0보다 작을 때는 역 S자 그래프가 그려진다 

  • 종속변수 y 대신 로짓 logit이라 불리는 상수를 사용하는 것이 아니라
    y의 값 범위를  [0,1]로 조정하기 위하여 로짓 logit 변환을 사용한다 

  • 군집분석에서 거리계산을 수행할때 사용하는 dist함수에서 지원하는 거리 측도에는 
    유클리디안 거리
    표준화 거리
    마할라노비스 거리
    체비셰프 거리
    맨하탄 거리
    캔버라 거리
    민코우스키 거리

    군집분석
    각 객체의 유사성을 측정하여
    유사성이 높은 대상 집단을 분류하는 분석방법

    계층적 군집분석 수행시 군집내 편차들의 제곱합을 고려하여

    군집간 정보의 손실을 최소화하는 방향으로 
    군집을 형성하는 방법이다.

    군집 개수나 구조에 대한 가정없이 데이터들 사이의 거리를 기준으로 군집화를 유도한다 

    군집분석의 유사도 측도로 피어슨 상관계수는 사용하지 않는다. 

    마할라노비스 거리
    변수의 표준편차와 더불어 변수간 상관성까지 고려한 거리측도 

    통계적 개념이 포함된 거리
    변수들의 산포를 고려하여 표준화한 거리

    두벡터 사이의 거리를 산포를 의미하는 표준 공분산으로 나눠주어야 하며,
    그룹에 대한 사전 지식 없이는 표준 공분산을 계산 할 수 없으므로 사용하기 곤란하다 


  • 덴드로그램
    무슨 군집과 무슨 군집이 서로 묶였는지
    어떤 순서와 차례대로 묶여갔는지
    군집간 거리는 얼마나 되는지를 알 수 있는 그래프이다

  • k개의 초기 중십값은 임의로 선택이 가능하므로
    한번 군집이 형성되어도 
    군집 내 객체들은 다른 군집으로 이동이 될 수 있다.

  • 95% 이상의 개체가 아닌 모든 개체가 
    군집으로 할당될 때까지 위 과정들을 반복화한다
  • 군집분석의 유사도 측도로 
    피어슨 상관계수는 사용하지 않는다

  • k-means clustering의 단점을 극복하기 위해 
    k-median 군집의 함수 PAM (partitioning around medoids)를 사용한다

    k-평균 군집은 초기 중심으로부터 오차 제곱항을 최소화하는 방향으로 
    군집이 형성되므로
    집단 내 제곱합 그래프가 필요하다 

    k-평균 군집은 먼저 원하는 군집의 개수와 초기 값들을 정해
    seed 중심으로 군집을 형성하고 
    각 데이터를 거리가 가까운 seed가 있는 군집으로 분류한 후
    각 군집내의 자료들의 평균을 계산하며
    모든 개체가 군집으로 할당될 때까지 과정을 반복한다 

    k-means 기법은 

    극도로 큰 값( 혹은 작은 값)이 데이터의 분포를 사실상 왜곡할 수 있기 때문에
    이상치에 민감하여 
    군집에서 객체들의 평균값을 취하는 대신에
    군집에서 가장 중심에 위치한 객체인 median을 사용하는 k-medoids 군집화 알고리즘이 있다

  • 밀도기반 군집분석
    어느 점을 기준으로 주어진 반경 내에 최소 개수 만큼의 데이터들을 가질 수 있도록 함으로써 
    특정 밀도함수 혹은 밀도에 의해 군집을 형성해나가는 기법

    DBSCAN
    OPTICS
    DENCLUE 등이 있다.

  • 최단 연결법은 평균연결법에 비해 계산량이 많지 않다

  • 시차연관분석
    시간이 지남에 따라 어떤 소비형태를 보이는 가에 대한 분석
    원인과 결과의 형태로 해석이 가능해서 
    껼과가 더욱 유용하게 쓰인다 

  •  apriori 함수를 활용해 생성한 연관규칙은
    inspect()함수를 통해 확인이 가능하다 

  • 혼합분포군집 mixture distribution clustering
    모형 기반의 군집방법
    데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 분석을 하는 방법

  1. 홀드아웃방법
    데이터의 양이 충분하지 않거나
    입력변수에 때한 설명이 충분한 경우에 사용하는 모형평가 방법으로
    주어진 데이터를 랜덤하게 두개의 데이터로 구분하여 사용하는 방법 

  2. 나이트 베이지안 분류
    베이즈 정리 Bayes Theory와 특징에 대한 조건부 독립을 가설로 하는 알고리즘
    클래스에 대한 사전 정보와
    데이터로부터 추출된 정보를 결합하고
    베이즈 정리를 이용하여 
    어떤 데이터가 특정 클래스에 속하는 지를 분류하는 알고리즘 

  3. softmax 함수
    신경망 모형, 표준화 지수 함수로 불리며
    출력값 z가 여러개로 주어지며
    목표치가 다범주인 경우
    각 범주에 속할 사후 확률을 제공하여
    출력노드에 주로 사용되는 함수

  4. 코사인 유사도 cosine similarity 
    두 개체 간의 거리에 기반하여 
    군집을 형성해가는 계층적 군집방법에서 사용하는 측도중 
    두 개체의 벡터 내적을 기반하여 계산할 수 있는 유사성 측도 

  5. EM Expectation Maximization 알고리즘
    k개의 각 모형은 군집을 의미하며
    이 혼합 모형의 모수와 가중치의 최대가능도 maximum likelihood 추정에 사용되는 알고리즘 

  6. 실루엣 shilouette
    군집분석의 품질을 정량적으로 평가하는 대표적인 지표

    군집내의 데이터 응집도 cohesion 과 군집간 분리도 separation 계산하여 
    군집 내의 데이터의 거리가 짧을 수록,
    군집 간 거리가 멀수록 값이 커지며
    완벽한 분리일 경우 1의 값을 가지는 지표 

  7. 향상도곡선 
    랜덤 모델과 비교하여 
    해당 모델의 성과가 얼마나 좋아졌는지를
    각 등급별로 파악하는 그래프

    상위등급에서 매우 크고

    하위 등급으로 갈수록 감소하게 되면
    일반적으로 모형의 예측력이 적절하다고 판단하게 된다
    모형평가에 사용되는 그래프 

  8. F1  score
    정확도 precision 와 재현율 recall은 한 지표의 값이 높아지면
    다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 
    이러한 효과를 보정하여 하나의 지표로 만들어낸 지표 
반응형