ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 기출 정리 26회에서 30회까지 본문

ADsP

데이터분석 준전문가 ADsP 기출 정리 26회에서 30회까지

madb 2022. 2. 18. 22:26
반응형

  • 데이터 양이 늘어난다고 해서 더 많은 분석이 필요한 것은 아니다
    데이터 양이 늘수록 데이터를 처리하는 저장장치가 더 필요하다

    데이터의 크기는 작은것부터 큰것까지 순서대로 
    테라바이트 (TB)

    페타바이트(PB)
    엑사바이트(EB)
    제타바이트(ZB)
    요타바이트(YB) 

  • 책임 원칙 훼손
    빅데이터 기본분석과 예측기술이 발전하면서
    정확도가 증가한 만큼
    분석대상이 되는 사람들은
    예측 알고리즘의 희생양이 될 가능성도 증가한다

    민주주의 국가에서는
    잠재적인 위협이 아닌
    명확한 결과에 대한 책임을 묻고 있어
    이에 따른 원리를 훼손할 가능성이 있다

    개인정보 사용자의 정보사용에 대한 무한책임의 한계로
    개인정보 사용 동의제보다 개인정보책임체로 더욱 강화시켜야한다.
    민주주의 국가의 형사처벌과 같이
    잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻기 떄문에 
    빅데이터 사전 성향 분석을 실시한다면 책임 원칙을 훼손한다.

  • 퍼스널 빅데이터에는 사람들의 행태 정보가 포함되며 정당 선호도는 포함되지 않는다
  • DIKW 피라미드
    데이터,정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정 

    DIKW 피라미드에서 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실에서 
    데이터를 가공 및 처리하여 정보, 지식, 지혜를 얻을 수 있다. 

    객관적인 사실로 데이터
    데이터간 연간관계 속에서 의미를 도출하는 정보
    데이터를 도출된 정보를 구조화해 유의미한 정보를 찾는 등의 특징을 지닌 지식
    상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 =  지식
    지식의 축적과 아이디어가 결합된 창의적인 산물인 지혜 

  • 객체지향 DB
    일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게
    정보를 객체 형태로 표현하는 데이터베이스 모델
    정보를 '객체'형태로 표현하는 데이터베이스 모델, 멀티미디어등 복잡한 데이터구조를 관리하는 DBMS

  • 클라우드 컴퓨팅의 보편화는 
    빅데이터의 처리 비용을 획기적으로 낮춰 경제성을 제공했다

  • 개인 신용도 평가에 가장 많이 활용되는 것
    분류 또는 예측 모형이 가장 많이 활용된다

  • 빅데이터의 가치 산정이 어려운 이유
    데이터 활용방식
    새로운 가치 창출
    분석 기술 발전

  • 암묵지와 형식지의 상호작용
    내면화
    공통화
    표출화
    연결화 

  • 가명처리 - 개인정보 주체의 이름을 다른 이름으로 변경하는 기술
    다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 한다

  • 데이터 시각화는 비즈니스 분석의 영역

  • 데이터 사이언스는 정형, 비정형 데이터 모두를 대상으로 분석을 수행한다

  • 분석 프로젝트 관리방안에서 시간관리는 
    프로젝트의 활동 일정을 수립하고
    일정 통제의 진척상황을 관차하는데 요구되는 프로세스

  • 마스터 플랜 수립시 우선순위 고려요소
    전략적 중요도
    비즈니스 성과 / ROI
    실행용이성 

  • 경쟁적 확대 관점에서 보았을때 포함되는 영역은 
    대체제
    경쟁자
    신규진입자가 있다.

  • 데이터 표준화
    데이터 표준 용어 설정
    명명 규칙 수립
    메타 데이터 구축
    데이터 사전 구축등의 업무로 구성된다 

  • 역량의 재해석의 관점에서 
    내부 역량을 집중적으로 분석하여 
    분석 기회를 탐색하며
    파트너와 네트워크를 통해 분석기회를 추가적으로 도출할 수 있다.

  • 빅데이터 가치에 대한 재해석을 위해서는 
    내부의 노하우
    인프라와 파트너사의 정보
    네트워크를 활용한 정보를 확보하여 새로운 가치를 창출할 수 있다.
    내부의 지적재산권은 재해석에 사용되기는 어렵다 

  • 분석해야 할 대상이 명확하다면 하향식 접근방식이 적절하다

  • 시스템 구현단계에서 
    정보보안영역과 코딩은 주요 고려 사항이 아니다
    시스템 설계 및 구현, 테스트 및 운영이 주요 고려사항이다

  • 성과가 우수한 기업들은 일상업무에서 데이터 분석을 활용하고 있다.

  • 데이터는 유형으로 봤을 때 
    정성적 데이터
    정량적 데이터

  • 데이터웨어하우스
    기업의 의사결정 과정을 지원하기 위한 
    주제 중심적으로
    통합적이며
    시간성을 가지는 
    비휘발성 데이터의 집합이다

    데이터웨어하우스의 4가지 특성 
    데이터의 주제지향성
    데이터 통합
    데이터의 시계열성
    데이터의 비휘발성 

  • 빅데이터가 만들어내는 본질적인 변화로는
    사전처리에서 사후처리
    표본조사에서 전수조사
    질에서 양
    인과관계에서 상과관계가 있다.

  • 비즈니스 모델 캔버스의 채널 channel 
    채널은 기업이 고객세그먼트에게 가치를 제안하기 위해 
    커뮤니케이션을 하고 
    상품이나 서비스를 전달하는 방법을 의미한다
    커뮤니케이션, 물류, 판매채널 등 기업과 고객의 인터페이스 전반이 바로 채널이다

  • 평가를 통해 모델에 대한 평가등을 파악하며
    business에 대한 이해가 부족해
    모형 개발이 잘못되었을 때
    다시 business understanding으로 돌아갑니다.

  • 데이터 분석을 위해서 데이터의 정형화가 필수사항이 아니다
    분석을 위한 데이터의 확보가 우선적이며
    데이터의 유형에 따라 적용 가능한 솔루션 및 분석방법이 다르기 때문에
    유형에 대한 분석이 선행적으로 이루어져야 한다.

  • 데이터사이언티스트에 요구되는 역량으로는 
    빅데이터에 대한 이론적 지식, 
    분석 기술에 대한 숙련, 
    통찰력 있는 분석, 
    설득력 있는 전달, 
    다분야간 협력이 있다

  • OLTP
    데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로
    호스트 컴퓨터가 데이터베이스를 엑세스하고
    바로 처리 결과를 돌려보내주는 형태이다

    Business Analytics
    경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

  • CRISP - DM 방법론에서
    데이터 준비 단계에서는 
    데이터셋 
    데이터 정제
    분석을 데이터셋 편성
    데이터 통합
    데이터 포맷팅 작업을 수행한다

    CRISP - DM 방법론의 단계에서 수행하는 태스크 task
    모델링 기법 선택
    모델 테스트 계획과 설계 
    모델 작성
    모델 평가가 있다 

  • 복잡하고 정교한 모형은
    분석 기획 고려사항중 장애요소에 해당되지 않는다
  • 분석과제 중에서 발생된 시사점과 
    분석결과물이 풀 pool로 관리하고 공유된다

    확정된 분석과제는 풀 pool로 관리하지 않는다

    분석과제 정의서
    분석별로 필요한 소스데이터
    분석방법
    데이터 입수 및 분석의 난이도
    분석 수행주기
    분석 결과에 대한 검증 오너십
    상세 분석 과정등을 정의한다
  • 시급성이 높고
    난이도가 낮은 분석과제가
    우선순위의 기준이 가장 높다 


  • 은닉층의 뉴런수와 개수는
    신경망 모형에서 자동으로 설정되지 않으므로
    직접 설정해야 한다.

  • 지도 학습은 답이 있는 학습으로 기억하면 되고, 
    반대로 비지도학습은 '답이 없는' 학습이라고 인지하면 된다. 

    비지도 학습은 정답과 오답 등 같은 답이 없는 데이터로 학습시키는 것을 말한다.
    어떤 분류도 하지 않아서 답이 없는 데이터를 머신러닝에 건네줘서 학습시킨다.

    지도학습에는 
    로지스틱 회귀분석
    인공신경망
    의사결정나무 : 의사결정나무모형에서 핵심적인 공통개념은 하향식 기법이 사용되며
    각 진행단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다.

    의사결정나무 중 가지치기 단계

    오차를 크게 할 위험이 높거나 
    부적절한 추론규칙을 가지고 있는 가치 또는 불필요한 가치를 제거하는 단계 

  • 분류분석
    로지스틱 회귀분석
    의사결정나무
    앙상블기법
    인공신경망

  • 택배차량을 어떻게 배치하는 것이 
    비용측면에서 효율적인가는 유전자 알고리즘을 활용하여 할 수 있다.

    유전자 알고리즘

    생명의 진화를  모방하여 최적해 (옵티멀 솔루션 optimal solution)를 구하는 알고리즘

    존 홀랜드 john holland가 1975년 개발

    '최대의 시청률을 얻으려먼 어떤 시간대에 방송해야하는 가?"와 같은 문제를 해결할때 사용된다

    어떤 미지의 함수 Y = f(x)를 최적화하는 해 x를 찾기 위해, 
    진화를 모방한(Simulated evolution) 탐색 알고리즘이라고 말할 수 있다
     

  • 계통추출법
    단순랜덤추출법의 변형된 방식으로
    번호를 부여한 샘플을 나열하여
    k개씩 (K=N/n) n개의 구간으로 나누고
    첫 구간 (1, 2,.... K) 에서 하나를 임의로 선택한 후에
    k개씩 띄어서 n개의 표본을 선택한다

  • 잔차 형태가 U자를 띄고 있기 때문에
    선형성 가정에 위배


  • k- 중앙값  k means알고리즘
    클러스터의 대표값으로 오브젝트의 중심점을 구하는 것이 아니라
    오브젝트 중에서 클러스터를 대표할 수 있는 가장 가까운 대표 오브젝트를 뽑는다. 

    k-means군집은 한번 군집이 형성되더라도 
    다른 군집으로 이동이 가능하다 

    k-means clustering의 단점을 극복하기 위해 
    k-median 군집의 함수 PAM (partitioning around medoids)를 사용한다

    k-평균 군집은 초기 중심으로부터 오차 제곱항을 최소화하는 방향으로 
    군집이 형성되므로
    집단 내 제곱합 그래프가 필요하다 

    군집 수에 따른 집단 내 제곱합의 그래프를 그려
    군집의 수를 정한다


    k-평균 군집은 먼저 원하는 군집의 개수와 초기 값들을 정해
    seed 중심으로 군집을 형성하고 
    각 데이터를 거리가 가까운 seed가 있는 군집으로 분류한 후
    각 군집내의 자료들의 평균을 계산하며
    모든 개체가 군집으로 할당될 때까지 과정을 반복한다 

    k-means 기법은 
    극도로 큰 값( 혹은 작은 값)이 데이터의 분포를 사실상 왜곡할 수 있기 때문에
    이상치에 민감하여 
    군집에서 객체들의 평균값을 취하는 대신에
    군집에서 가장 중심에 위치한 객체인 median을 사용하는 k-medoids 군집화 알고리즘이 있다


  • 밀도 기반 군집분석
    어느 점을 기준으로
    주어진 반경 내에
    최소 개수만큼의 데이터들을 가질 수 있도록 함으로써
    특정 밀도 함수 혹은 밀도에 의해 군집을 형성해 나가는 기법

    DBSCAN
    OPTICS
    DENCLUE등이 있다

  • 군집분석
    각 객체의 유사성을 측정하여 
    유사성이 높은 대상 집단을 분류하고 
    군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석방법

    군집분석에서는 
    군집의 개수나 
    구조에 대한 가정 없이
    데이터들 사이의 거리를 기준으로
    군집화를 유도한다

    계층적 군집분석 수행시 군집내 편차들의 제곱합을 고려하여
    군집간 정보의 손실을 최소화하는 방향으로 
    군집을 형성하는 방법이다.

    군집분석의 유사도 측도로 피어슨 상관계수는 사용하지 않는다. 

  • 군집분석에서 거리계산을 수행할때 사용하는 dist함수에서 지원하는 거리 측도에는 
    유클리디안 거리
    표준화 거리
    마할라노비스 거리
    체비셰프 거리
    맨하탄 거리
    캔버라 거리 
    민코우스키 거리

    마할라노비스 거리
    변수의 표준편차와 더불어 변수간 상관성까지 고려한 거리측도 
    통계적 개념이 포함된 거리
    변수들의 산포를 고려하여 표준화한 거리

    두벡터 사이의 거리를 산포를 의미하는 표준 공분산으로 나눠주어야 하며,
    그룹에 대한 사전 지식 없이는 표준 공분산을 계산 할 수 없으므로 사용하기 곤란하다 
  • default 값으로 기록되어도
    그 값이 실제 default와 동일한 값이 입력되는 등의 경우가 있으므로
    해당 값을 임의로 결측치로 변경하거나 하면 안된다

  • 판별분석에서 
    거리측정을 위해서는 
    유클리드, 마할라노비스 거리등의 방법을 활용하며

    판별 분석에서 피어슨 상관계수로는 거리 측정이 불가능하다

  • 평균 고유값 방법
    고유값들의 평균을 구한 후 
    고유값이 평균값 이상이 되는 주성분을 제거하는 것이 아니라 설정하는 것이다.

  • 모든 확률 변수에 대해
    누적분포함수는 존재하지만,
    확률밀도(질량)함수가 존재하지 않는 확률변수도 있다

  • 생성된 모델이 훈련 데이터에 최적화 되어 있기 때문에
    테스트 데이터의 작은 변화에 민감하게 반응한다.

  • 유의수준 0.05와 p- value가 
    p-value값이 현저하게 작게 나타나
    귀무가설 기각 

  • 시계열 자료는 대부분이 비정상 자료이며
    이런 경우 비정상 자료를 정상성 조건을 만족시켜 
    정상 시계열로 만든 후 시계열 분석을 실시한다

  • 시계열 분석을 하기 위해서는 다음과 같은 순서로 진행한다
    그래프 그리기
    모델을 확인하고 비정상시계열이면 추세와 계절성을 제거한다
    잔차를 예측한다
    잔차에 대한 모델을 정한다
    예측된 잔차에 추세와 계절성을 더해 미래 값을 예측한다

  • 정분류율은 전체 관측치 중 실제값과 예측치가 일치한 정도이다.

  • 오분류율은 1- accuracy

  • 순서척도
    측정대상의 서열관계를 관측하는 척도
    만족도
    선호도
    학년 
    신용등급 

  • 활성화  함수
    입력신호의 총합을 출력신호로 변환하는 함수
    종류로는 
    계단
    시그모이드
    ReLU
    softmax등이 있다 

    시그모이드는 인공신경망에서 활성화함수로 쓰인다.
    시그모이드 함수를 단층신경망에서 활성화함수로 사용하면 
    로지스틱 회귀모형과 작동원리가 유사하다.

  • 상관계수의 범위가 -1과 1 사이에서 나타나며
    공분산은 -1과 1보다 더 큰 값이 나타날 수 있다.

  • 회귀분석
    종속변수에 미치는 영향력의 크기를 파악하여
    독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법

    회귀분석의 가정

    선형성
    독립성
    등분산성
    비상관성이 있다.

    산점도가 나팔모양이며
    오차의 분산이 예측치가 커짐에 따라 커지거나 작아지고 있음을 의미하여
    등부산 가정이 무너지고
    오차항의 이분산성을 가진다 

  • Tree 변수는 범주형 변수이다

  • 동일한 확률분포를 가진 독립 확률 변수의 분포는 
    n이 적당히 크다면 (n은 30이상) 정규분포에 가까워진다

  • 지니 지수 값이 클수록 
    이질적이며 순수도가 낮다고 할 수 있다

  • 이상값을 활용하여 이상 징후 감지등을 할 수 있다.

  • 신경망 모형
    인간의 뇌를 형상화한 기법
    딥러닝에 기반을 두고 있는 모형

  • 부스팅
    예측력이 약한 모형들을 결합하여 
    강한 예측모형을 만드는 방법 

  • 지수평활법 
    일정 기간의 평균을 이용하는 이동평균법과 달리 
    모든 시계열 자료를 사용하여 
    평균을 구하며
    시간의 흐름에 따라 
    최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법 

  • 쌍체 t-검정(대응표본 t-검정)
    실험 이전의 집단과 실험 이후의 집단이 동일한 집단인 경우 사용하는 검정
    한 개인이 서로 다른 두 조건에서 짝을 지어
    한 쌍이 연구대상이 되는 경우의 분석 방법

  • 와드 연결법
    군집내 편차들의 제곱합을 고려한 방법
    군집 간 정보의 손실을 최소화하기 위해 군집화를 진행한다 

  • 지지도는 전체 거래 품목 A와 품목 B를 동시에 포함하는 거래의 비율로 정의

  • precision
    True로 예측된 것중 실제 True인 것들의 비율 

  • 향상도
    A가 구매하지 않았을때 품목 B의 구매확률에 비해
    A가 구매했을때 품목 B의 구매 확률의 증가비로

    향상도는 1보다 큰값 나오면 연관성이 높다 

  • 재현율 TP/(TP+FP)
    실제 True인 것중에서
    모델이 True라고 예측한 것의 비율

  • 특이도 TN/(TN+FP) 

  • 일반적으로 정상성을 만족하지 않을 때는 
    log, root를 취하여 정규분포를 취하도록 만든다.

  • 다중공선성은 회귀계수의 분산을 증가시켜
    불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.

  • FP- Growth 알고리즘
    후보 빈발항목집합을 생성하지 않고

    FP-Tree를 만든 후 
    분할정복 방식을 통해
    Apriori알고리즘 보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법 

  • min-max  정규화
    원데이터의 분포를 유지하면서
    [0,1]의 값을 가지도록 정규화하는 방법 

  1. 플랫폼
    용도에 따라 다양한 형태로 활용될 수 있는 공간
    4차 산업혁명 시대의 소프트웨어, 서비스로 확장되어 활용되는 개념

  2. 정보
    데이터의 가공, 처리와 데이터간 연간관계 속에서 의미가 도출된 것

  3. 메타데이터
    데이터의 데이터로
    데이터에 관한 구조화된 데이터로
    다른 데이터를 설명해주는 데이터

    데이터에 대한 데이터로써 하위레벨의 데이터를 설명/기술하려는 것

  4. 데이터 거버넌스
    전사 차원의 모든 데이터에 대하여 
    정책 및 지침, 표준화, 운영조직 및 책임등의
    표준화된 관리체계를 수립하고
    운영을 위한 프레임워크 및 저장소를 구축하는 것

    데이터 거버넌스는 독자적으로 수행될 수도 있지만
    전사 차원의 IT 거버넌스나
    EA 의 구성요소로써 구축되는 경우도 있다. 

    데이터 거버넌스 체계 > 데이터 관리 체계
    메타데이터관리
    데이터사전관리 
    데이터 생명주기 관리 

    데이터 거버넌스 체계 중 데이터 관리 체계는 
    데이터 정합성 및 활용의 효율성을 위하여
    표준데이터를 포함한 메타데이터
    데이터 사전의 관리 원칙을 수립한다.

    빅데이터의 경우 데이터 양의 급증으로
    데이터의 생명 주기 관리 방안을 수립하지 않으면 
    데이터 가용성 및 관리 비용 증대 문제에 직면하게 될 수 있다. 

    단순히 대용량 데이터를 수집 축적하는 것보다는 
    어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인가가 더욱 중요하다

    빅데이터 거버넌스는 
    산업분야별 
    데이터유형별
    정보 거버넌스 요소별로 구분하여 작성한다.

    데이터 거버넌스 체계에서 
    데이터 저장소 repository 관리
    메타데이터 및 표준 데이터를 관리하기 위한 전사차원의 저장소로 구성된다.

    저장소는 데이터 관리 체계 지원을 위한 
    워크플로우 관리용 응용소프트웨어를 지원하고
    관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야한다.

    또한 데이터 구조변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능하다.

  5. 랜덤 포레스트
    의가결정나무의 특징인 분산이 크다는 점을 고려하여
    배깅과 부스팅보다 더 많은 무작위성을 주어
    약한 학습기들을 생성한 후 
    이를 선형 결합하여 최종학습기를 만드는 방법

    데이터마이닝 방법론의 앙상블 기법중 하나
    분류분석문제를 해결하기 위한 의사결정나무와 같은 방법론이지만
    의사결정나무에서 나타나는 과대적합/과소적합의 문제를 해결할 수 있다

  6. 코사인 유사도  cosine similarity 
    내적공간의 두 벡터간 각도의 코사인값을 이용하여
    측정된 벡터간의 유사한 정도

    두 개체 간의 거리에 기반하여 
    군집을 형성해가는 계층적 군집방법에서 사용하는 측도중 
    두 개체의 벡터 내적을 기반하여 계산할 수 있는 유사성 측도 

  7. SOM 자기조직화지도(self- organizing map 비지도학습
    코호넨에 의해 제시, 개발
    비지도 신경망으로 
    고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여
    지도의 형태로 형상화

    비지도 신경망
    고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 
    지도의 형태로 형상화한다.

    역전파 알고리즘 등을 이용하는 인공신경망과 달리 
    단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다
    따라서 실시간 학습처리를 할 수 있는 모형이다 

    경쟁학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 
    연결 강도를 반복적으로 재조정하여 학습한다.
    이 과정을 거치면서 연결강도는 입력패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

    승자 독식 구조로 인해 
    경쟁층에는 승자 뉴런만이 나타나며 
    승자와 유사한 연결강도를 갖는 입력패턴이 동일한 경쟁 뉴런으로 배열된다.

    각 학습 단계마다 입력층의 데이터 집합으로부터
    하나의 표본 벡터를 임의로 선택하고
    경쟁층의 프로토타입 벡터와의 거리를 계산하고
    가장 가까운 프로토타입 벡터를 선택하는데
    이때 선택된 프로타입 벡터를 나타내는 용어 ->BMU Best-Matching Unit

  8. ROC curve
    가로축을 FPR(1-특이도) 값으로 두고
    세로축을 TPR(민감도)값으로 두어 시각화한 그래프 

  9. AR 모형 
    P 시점 전의 자료가 현재 자료에 영향을 주는 모형

  10. 인과관계는 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고
    상과관계는 어떤 두 현상이 관계가 있음을 말하지만, 원인은 알 수 없다.

  11. 문제정의단계 
    식별된 비즈니스 문제를 
    데이터의 문제로 변환하여 정의하는 단계 

  12. 모델링 
    훈련용 데이터를 활용하여
    분류
    예측
    군집등의 모델을 만든다

  13. 소프트맥스 함수 softmax 
    분류해야 하는 정답지(클래스)의 총 개수를 k라고 할 때 
    k차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정한다

    신경망 모형, 표준화 지수 함수로 불리며
    출력값 z가 여러개로 주어지며

    목표치가 다범주인 경우
    각 범주에 속할 사후 확률을 제공하여
    출력노드에 주로 사용되는 함수

  14. 최소제곱법
    근사적으로 구하려는 해와
    실제 해의 오차의 제곱의 합이 
    최소가 되는 해를 구하는 방법 

  15. 로짓변환 
    y를 log(y/1-y)로 만드는 함수적 변환을 말하며
    이 함수를 시그모이드 함수라고 한다.

    종속변수 y 대신 로짓 logit이라 불리는 상수를 사용하는 것이 아니라
    y의 값 범위를 [0,1]로 조정하기 위하여 
    로짓 logit 변환을 사용한다

  16. BI Business Intelligence 
    데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
    기업이 보유하고 있는 수많은 데이터를 정리하고 분석해
    기업의 의사결정에 활용하는 일련의 프로세스 

  17. 데이터 사이언티스트가 갖춰야할 역량은
    빅데이터 처리 및 분석에 필요한 이론적 지식과 기술적 숙련과 관련이 있는 하드스킬
    데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 소프트스킬 로 나뉜다 

    데이터 사이언티스트의 소프트 스킬

    통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판) 
    설득력 있는 전달(스토리텔링, 비주얼라이제이션)
    다분야간 협력 (커뮤니케이션) 

  18. 비즈니스 모델 캔버스는 9가지 블록을 단순화 하여 
    업무
    제품
    고객단위로 문제를 발굴하고 이를 관리하는 규제와 감사 
    지원인프라로 나눠
    분석기회를 도출한다 

  19. 능력 성숙도 통합 모델 CMMI
    소프트웨어와 시스템 공학의 역량 성숙도를 측정하기 위한 모델

    소프트웨어 품질보증과 
    시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로 
    1-5 단계로 구성된 성숙도 모델이다 

  20. 계절요인
    요인, 월, 사계절 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변하는 경우를 말한다 
    시계열 분석에서 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요인

  21. 결정계수
    결정계수는 SSR (sum of square regression) / SST(sum of square total)을 통해 산출이 가능하며
    Sum sq(sum of square)이 SSR
    Residual의 Sum Sq(sum of square)이 SSE
    SSR과 SSE를 합치면 SST가 된다 

  22. 정지규칙
    의사결정나무에서 더 이상 분기, 분리가 되지 않고 
    현재의 마디가 끝마디가 되도록 하는 규칙

  23. 층화추출법 (표본추출방법중 하나) 
    한 모집단을 동질적인 소집단들로 층화시키고
    그 집잔의 크기에 따라
    단순무작위 표본추출방법을 사용하여
    표본을 추출하는 방법이다.

    상당히 이질적인 원소로 구성된 모집단에서 
    각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법

    질적인 모집단의 원소들로 서로 유사한 것 끼리 
    몇개의 층을 나눈 후
    각 계층에서 표본을 랜덤하게 추출한다.

  24. 비모수 모형
    의사결정 나무와 같이 
    선형성
    정규성
    등분산성등의 가정을 필요로 하지 않는 모형 

    통계학에서 모수에 대한 가정을 전제로 하지 않고
    모집단의 형태에 관계없이
    주어진 데이터에서 직접 확률을 계산하여
    통계학적 검정을 하는 분석법이다.

    비모수적 검정은 
    관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 
    두 관측값 차이의 부호등을 이용해 검정한다
반응형