ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 데이터분석 데이터마트 본문

ADsP

데이터분석 준전문가 ADsP 3과목 데이터분석 데이터마트

madb 2022. 2. 6. 22:50
반응형
  • reshape 패키지
    데이터를 원하는 형태로 바꿔주는 melt 함수와 
    데이터를 재구성하는 함수 

    원하는 부분만을 선택하는 cast함수로 구성되어 있다. 
    모양을 만드는 함수 cast 함수 

    변수를 조합해 변수명을 만들고
    변수들을 시간, 상품 등의 차원에 결합해 
    다양한 요약변수와 파생변수를 쉽게 생성하여 
    데이터 마트를 구성할 수 있는 패키지 

  • 휴면 고객
    기업에서 평균 거래 주기를 3~4배 이상 초과하거나
    다음달에 거래가 없을 것으로 예상되는 고객

  • 이상값을 겁색하여 한 집단에서 매우 크거나 매우 작으면 의심되는 대상이므로
    부정사용방지 시스템에 활용이 가능하다 

    부정사용방지 시스템이나 부도예측 시스템에서는 이상값이라도 의미가 있으므로 제거하지 않는다. 

Recheck 

  • 데이터 마트란
    데이터 웨어 하우스와 사용자 사이의 중간층에 위치한 것으로

    하나의 주제 또는 하나의 부서 중심의 데이터 웨어 하우스 
    데이터의 한 부분으로 특정 사용자가 관심을 가지고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어 하우스 


  • 파생변수
    사용자가 특정 조건을 만족하거나 
    특정 함수에 의해 값을 만들어 의미를 부여한 변수로서

    특정한 의미를 갖는 작위적 정의에 의한 변수

    매우 주관적일 수 있으므로 
    논리적 타당성을 갖추어 개발해야 한다

  • 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옳지 않다.
    default 값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수도 있다.

  • complete.casses 함수는 레코드에 결측값이 없으면 True, 
    결측값이 있으면 False를 반환하는 함수 

  • 다중대치법
    추정량의 표준오차의 과소추정
    또는 계산의 난해성 문제가 보완된 방법

  • 이상치라고 규정한 자료는 분석에서 제외를 할 수 있지만,
    무조건 적으로 제거 할 수 는 없다. 

    이상치는 분석에 의미가 있으므로 제거하면 안된다 

    이상치를 절단이나 조정하는 경우
    제거방법에 비해 데이터의 손실율이 낮아지기 때문에
    설명력이 높아지는 장점이 생긴다 

  • 최대값과 최소값은 이상치 outlier로 볼 수 없다 

  • 이상치 탐지에 활용할 수 있는 분야는 사기탐지, 의료, 침입 탐지등에 활용가능, 환경 파괴에는 적용 불가 

    이상치 탐지의 목적은 대부분의 객체들과 다른 객체들을 찾는 것.

    이상치의 탐지는 속성값들의 일반적 값들과 상당히 편차가 큰 값을 가지므로 편차탐지 (deviation detection)라고도 한다. 그러나 이상치는 반드시 비정상적인 객체를 의미하지는 않는다. 

  • plyr
    데이터 처리에 필요한 R 패키지로 데이터를 분할하고 
    분할된 결과에 함수를 적용한 뒤 
    결과를 재조합 하는 함수를 포함한다.

    R에서 반복문을 다중으로 사용할 경우 계산 시간이 현저하게 떨어지는 단점이 있다.

    plyr은 multi- core를 사용하여 반복문을 사용하지 않고도
    매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지임 

  • ESD Extreme Studentized Deviation 
    평균으로부터 t standard deviation 이상 떨어져 있는 값들을 
    이상값으로 판단하고 
    t는 3으로 설정하는 이상값 검색 알고리즘 
    (이상값 인식에 있어서 가장 많이 활용하는 방법) 

  • aqm <-melt(airquality, id=c("Month", "Day"), na.rm = TRUE)

    melt함수는 데이터를 재구성하기 위한 함수
    id는 month,  day이고 
    NA값은 na.rm = TRUE 제외처리 

  • cast함수는 모양을 만드는 함수
    ID와 variable에 대해 time의 value를 확인하는 것이므로
    cast(md, id+variable~time) 
반응형