ENFJ 비전공자 개발스터디
데이터분석 준전문가 ADsP 2과목 데이터 분석 기획 본문
반응형
- 복잡하고 정교한 모형은
분석 기획 고려사항 중 장애요소에 해당되지 않는다 - 폭포수 모델 waterfull
순차적으로 진행되면서
이전 단계가 완료된 후 다음 단계로 진행하는 하향식 top down으로 진행되는 특징을 가지고 있는 모델.
문제가 발견되면 피드백 과정이 수행되기도 한다 - 빅데이터 분석 방법론에서 단계간 피드백이 반복적으로 많이 발생할 수 있는 단계
데이터 준비 단계 -> 데이터 분석 단계
데이터 분석 단계를 수행하는 과정에서
추가적인 데이터 확보가 필요한 경우
데이터 준비 단계로 피드백하여 단계를 반복하여 진행한다. - 기업에서 데이터에 기반한 의사결정을 방해하는 요소는
고정관념
편향된 생각
프레이밍 효과 - 데이터 타당성에 대해서는
데이터 존재 여부
분석 시스템 환경
분석영량에 대한 검토가 필요하다 - 하향식 데이터 분석기획 > 문제 탐색 단계에서
현재의 비즈니스 모델 및 유사 동종 사례 탐색을 통해서 도출한 분석 기회들을
구체적인 과제로 만들기 전에
분석 유즈케이스로 표기하는 것이 필요하다 - 분석과제 정의서
분석별로 필요한 소스데이터
분석방법
데이터 입수 및 분석의 난이도
분석 수행주기
분석 결과에 대한 검증 오너십
상세 분석 과정등을 정의한다 - 데이터 분석 프로젝트에서는 분석 범위가 빈번하게 변경되므로
분석 프로젝트 관리에서의 일정계획보다 더 많은 시간이 소요될 수 있다.
따라서 Time Boxing 기법 과 같은 방법으로 일정관리를 진행하는 것이 필요하다. - 분석 프로젝트 관리방안에서 시간관리는
프로젝트의 활동일정을 수립하고 일정 통제의 진척사항을 관찰하는데 요구되는 프로세스이다. - 투자 비용 요소 또는 난이도를 평가하는 요소는 크기, 다양성, 속도
Volume
Variety
Velocity - 데이터 거버넌스 체계 > 데이터 관리 체계
메타데이터관리
데이터사전관리
데이터 생명주기 관리
데이터 거버넌스 체계 중 데이터 관리 체계는
데이터 정합성 및 활용의 효율성을 위하여
표준데이터를 포함한 메타데이터와 데이터 사전의 관리 원칙을 수립한다.
빅데이터의 경우 데이터 양의 급증으로
데이터의 생명 주기 관리 방안을 수립하지 않으면
데이터 가용성 및 관리 비용 증대 문제에 직면하게 될 수 있다.
단순히 대용량 데이터를 수집 축적하는 것보다는
어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인가가 더욱 중요하다 - 가치는 비즈니스 효과에 해당하며
크기, 다양성, 속도 Volume Variety Velocity가 투자비용요소에 해당된다. - 분석 과제 로드맵은
과제의 우선순위를 고려하여 작성하되
과제별 선후관계를 감안하여
단계별 추진 내용을 정렬한다> - Servitization
제품과 서비스의 결합 product Servitization
서비스의 상품화 service Servitization
기존 서비스와 신규서비스의 결합현상을 포괄하는 개념이다 - 프로타이핑 접근법
신속하게 해결책이나 모형을 제시함으로써
문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여
구체화할 수 있게 하는 유용한 상향식 접근 방법이다 - 하향식 접근법
문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재하는 경우 효과적이다
문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다
문제 정의가 불명확하거나 이전에 접하지 못한 새로운 문제일 경우에는 적용하기 어렵다
Recheck
- 분석 대상은 명확하지만
분석 방식이 명확하지 않은 경우 수행하는 주제 유형 -> Solution - 분석은 분석대상 (what) 및 분석방법 (How)에 따라서 분석의 주제는 4가지로 나눌 수 있다.
분석 대상이 명확하게 무엇인지 모를 경우에는 기존 분석 방식을 활용하여 통찰을 도출 해냄으로써 문제의 도출 및 해결에 기여하거나 발견 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다. - 분석 기획시 고려사항
분석의 기본이 되는 데이터에 대한 고려가 필요하다
분석을 통해서 가치가 창출할 수 있는 적절한 활용방안과 활용 가능한 유즈케이스의 탐색이 필요하다
분석을 수행함에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다 - 정형 데이터의 유형은 ERP CRM SCM 등 정보시스템
반정형 데이터의 유형은 로그데이터, 모바일 데이터, 센싱 데이터
비정형 데이터의 유형은 영상, 음성 문자 - CRISP - DM 방법론의 단계에서 수행하는 태스크 task는
모델링 기법 선택
모델 테스트 계획과 설계
모델 작성
모델 평가가 있다 - 빅데이터 분석 방법론의 분석기획 단계 순서
프로젝트 범위 설정
-> 데이터 분석 프로젝트 정의
-> 프로젝트 수행 계획 수립
-> 데이터 분석 위험 식별 - 비즈니스 모델 캔버스의 채널 channel
채널은 기업이 고객세그먼트에게 가치를 제안하기 위해
커뮤니케이션을 하고
상품이나 서비스를 전달하는 방법을 의미한다
커뮤니케이션, 물류, 판매채널 등 기업과 고객의 인터페이스 전반이 바로 채널이다 - 기업 내 외부 환경을 포괄하고 있는 비즈니스 모델이라는 특을 활용하여
비즈니스 모델 캔버스의 9가지 블록을 단순화하여
업무, 제품, 고객 단위로 문제를 발굴하고 이를 관리하는 2가지 영역인
규제, 감사, 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업을 수행한다
키워드 업무, 제품, 고객, 규제&감사, 지원인프라 - 세부이행 계획수립에서
데이터 분석 체계의 특성을 고려하여 세부적인 일정계획을 수립해야 한다의 내용처럼
프로젝트의 세부 일정계획도 데이터 분석 체계를 고려하여 작성해야한다. - 분석 준비도의 분석 데이터의 진단 항목은
분석을 위한 데이터 충분성
신뢰성
적시성
비구조적 데이터 관리
외부 데이터 활용 체계
기준 데이터 관리 MDM이 있다. - 난이도와 시급성을 고려하였을 때 우선적으로 추진해야 하는 분석과제
난이도 쉬움 easy 시급성 현재 - 과제 중심적인 접근 방식의 특징에는
Speed & Test
Quick & Win
Problem Solving이 해당되며
Accuracy & Deploy는 장기적인 마스터 플랜 방식에 해당되는 내용이다 - 데이터 분석 준비 프레임 워크에서 분석 업무 파악 영역에는
발생한 사실 분석 업무
예측 분석 업무
시뮬레이션 분석 업무
최적화 분석 업무
분석 업무
정기적 개선이 있다 - 데이터 분석을 위한 조직구조 > 집중구조
전사 분석 업무를 별도의 분석 전담 조직에서 담당
전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행가능
현업 업무 부서의 분석업무와 이중화 이원화 가능성 높음 - 경쟁자 확대 관점에서는
현재 수행하고 있는 사업영역의 직접 경쟁사 및 제품 서비스뿐만 아니라
대체재와 신규진입자등으로 관점을 확대하여
위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다 - 빅데이터 등장으로 비즈니스 영역에서는
분석 조직 및 인력에 대한 지속적인 교육과 훈련을 실시하고
사실 기반 fact based 의사결정을 할 수 있는 문화를 정착시키고자 했다.
분석 교육의 목표는 단순한 툴 교육이 아닌 분석 역량을 확보하고 강화하는 것에 초점을 맞추어 진행되어야 한다. - ERD는 운영중인 데이터 베이스와 일치하기 위하여 철저한 변경관리가 필요하다
- 빅데이터 거버넌스는
산업분야별
데이터유형별
정보 거버넌스 요소별로 구분하여 작성한다. - 분석 과제 중에 발생된 시사점과 분석결과물이
풀 pool 로 관리하고 공유된다
확정된 분석과제는 풀 pool로 관리하지 않는다. - 고급분석기법은 기존예 행해졌던 데이터 분석에서도 활용되었다 (주의!)
- 빅데이터 분석의 특징
분석 대상 데이터를 모든 형태 및 내외부 데이터로 확대한다
데이터의 생산시점에서부터 실시간에 가까운 분석이 가능하다
데이터 마트에 정형데이터를 적재하고
데이터분석을 통하여 모델을 만들 수 있다. - Self Service Anaytics에서는 분산 처리는 지원하지 않는다
- 분석방법론 기획단계에서
프로젝트 위험 대응 계획을 수립할 때 예상되는 위험에 대해
회피 avoid
전이 transfer
완화 mitigate
수용 accept 으로 구분하여 위험관리 계획서를 작성한다.
주관식
- 시스템
분석 방법론의 시스템 구현 단계에서
시스템으로 구현된 모델은
검증 verification을 위하여
단위테스트, 통합테스트, 시스템 테스트등을 실시한다.
시스템 테스트는 품질관리 차원에서 진행함으로써
적용된 시스템의 객관성과 안전성을 확보한다. - 워크플로우 / 사전영향평가
데이터 거버넌스 체계에서
데이터 저장소 repository 관리란
메타데이터 및 표준 데이터를 관리하기 위한 전사차원의 저장소로 구성된다.
저장소는 데이터 관리 체계 지원을 위한
워크플로우 및 관리용 응용소프트웨어를 지원하고
관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야한다.
또한 데이터 구조변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능하다. - 문제 정의
문제 탐색을 통해서
식별된 비즈니스 문제를 변환하는 단계로써
문제 탐색 단계가 무엇을 어떤 목적으로 수행해야 하는 가에 대한 관점이었다면,
문제 정의 단계는 이를 달성하기 위한 필요한 데이터 및 기법 how를 도출하기 위한
데이터분석의 문제로의 변환을 수행하게 된다. - 의사코드
분석모델을 가동중인 운영시스템에 적용하기 위해서는
모델에 대한 상세한 알고리즘 설명서 작성이 필요하다.
알고리즘 설명서는 시스템 구현 단계에서
중요한 입력자료로 활용되므로
의사코드 수준의 상세한 작성이 필요하다 - 과제수행 / 팀구성, 분석과제 실행, 분석과제 진행관리
분석 과제 관리 프로세스는 크게 과제 발굴과 과제 수행으로 나누어진다.
조직이나 개인이 도출한 분석 아이디어를 발굴하고
이를 과제화하여
분석 과제 풀 pool로 관리하면서
분석과제가 확정되면
팀구성, 분석과제 실행, 분석과제 진행관리, 분석과제 결과 공유/개선의 분석과제 관리 프로세스를 수행하게 된다. - 업무 /제품 /지원인프라
비즈니스 모델 캔버스는 9가지 블록을 단순화하여
업무, 제품, 고객단위로 문제를 발굴하고
이를 관리하는 규제와 감사, 지원 인프라 영역으로 나눠
분석기회를 도출한다 - 데이터준비
KDD 분석 방법론에서
잡음, 이상치, 결측치를 식별하여
분석용 데이터셋을 선택하고
분석에 필요한 변수 등을 선정하는 단계와 유사한 CRISP - DM 방법론의 단계 - 프레이밍효과
합리적 의사결정을 방해하는 요소로써
표현 방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상 - 하향식 접근 방식
문제가 주어지고 이에 대한 해법을 찾기 위하여
각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식 - 모델링
빅데이터 분석 프로세스에서 데이터 분석단계 중 하나
분석용 데이터를 이용한 가설 설정을 통하여
통계모델을 만들거나
기계 학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정 - 나선형 모델
반복을 통하여 점증적으로 개발하는 방법으로
처음 시도하는 프로젝트에 적용이 용이하지만
반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우
복잡도가 상승하여 프로젝트 진행이 어려울 수 있다. - 능력 성숙도 통합모델 capability maturity model integration CMMI
소프트웨어와 시스템 공학의 역량 숙성도를 측정하기 위한 모델로
소프트웨어 품질보증과 시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로
1- 5 단계로 구성된 성숙도 모델 - ISP information strategy planning
기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ISP information strategy planning를 수행한다.
ISP information strategy planning는 정보 기술 또는 정보시스템을 전략적으로 활용하기 위하여
조직 내 외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 및 우선순의를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.
반응형
'ADsP' 카테고리의 다른 글
데이터분석 준전문가 ADsP 3과목 통계분석 (0) | 2022.02.16 |
---|---|
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터마트 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터분석 개요 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 1과목 데이터의 이해 (0) | 2022.01.25 |