ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 1과목 데이터의 이해 본문

ADsP

데이터분석 준전문가 ADsP 1과목 데이터의 이해

madb 2022. 1. 25. 22:46
반응형
  • 정량적 데이터의 행태는 수치, 도형, 기호 등으로 기술이 되며
    정성 데이터의 행태는 언어, 문자등으로 기술된다.

  • 데이터 마스킹은 식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술이다. 

  • 반정형 데이터 - 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일형태로 저장되는 것 

  • Cinematch 시스템은 넷플릭스 Netflix에서 개발한 영화 추천 알고리즘 

  • 메타 데이터 - 데이터에 대한 데이터로써 하위레벨의 데이터를 설명/기술하려는 것.
    인덱스는 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라
    레코드 접근과 관련 효율적인 순서 매김 동작에 대한 기초를 제공.

  • ERP - 인사 재무 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을
    하나의 통합 시스템으로 재구축함으로써
    생산성을 극대화하려는 경영혁신기법을 의미한다. 

  • 사회기반 구조로서의 데이터베이스
    물류, 지리/교통, 의료, 교육 등 부문에서 구축되었으며 활용이 되고 있다. 

  • 빅데이터 출현 배경에는 고객데이터의 축적과 거대 데이터의 활용이 늘어남으로
    필요한 기술 아키텍처 및 통계 도구들의 발전,
    모바일 혁명 등의 관련 기술의 발달을 들 수 있다. 

  • 빅데이터의 수집, 구축, 분석의 최종 목적
    기존 방식으로 얻을 수 없었던 통찰 및 가치 창출, 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도이다. 

  • 플렛폼이란 비즈니스 측면에서는 일반적으로  '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미하며
    빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용됨면서 플랫폼 역할을 할 것으로 전망된다. 

  • 데이터 난수화를 사용하면 고객의 과거 구매기록이나 나이, 수입, 건강정보와 같은
    데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송된다.

  •  소셜네트워크 분석 - 사용자간의 소셜 관계를 알아내고자 할때 이용하는 분석 

  •  유형분석 - 문서를 분류하거나, 조직을 그룹으로 나눌떄,
    온라인 수강생들을 특성에 따라 분류할때 사용하는 기법으로
    용자가 어떤 특성을 가진 집단에 속하는 지 알아볼 때 사용한다. 

  • 연관성분석 - 기업의 데이터베이스에서 상품의 구매, 서비스 등
    이련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석으로
    흔히 장바구니 분석등이 있다. 

  • 빅데이터 시대에 발생할 수 있는 위기 요인은 사생활 침해, 원칙 훼손, 데이터 오용이 있다.

  • 개인정보 사용자의 정보사용에 대한 무한책임의 한계로 개인정보 사용 동의제보다 개인정보책임체로 더욱 강화시켜야한다.
    민주주의 국가의 형사처벌과 같이 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻기 떄문에 빅데이터 사전 성향 분석을 실시한다면 책임 원칙을 훼손한다.

  • 객체지향 DB는 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 
    정보를 '객체'형태로 표현하는 데이터베이스 모델, 멀티미디어등 복잡한 데이터구조를 관리하는 DBMS 

  • 컨버전스에서 디버전스로의 변화,
    생산에서 서비스로의 변화,
    생산에서 시장창조로의 변화가 인문학 열풍을 가져오게한 외부환경 요소이다. 

  • 데이터사이언티스트에 요구되는 역량으로는
    빅데이터에 대한 이론적 지식,
    분석 기술에 대한 숙련,
    통찰력 있는 분석,
    설득력 있는 전달,
    다분야간 협력이 있다. 

 


recheck 

 

 

  • 암묵지와 형식지의 상호작용 관계공통화 -> 표출화 -> 연결화 -> 내면화이다.

    표출화 : 형식지 요소중 하나로 개인에게 내재된 경험을
    객관적 데이터로 문서나 매체에 저장, 가공, 분석하는 과정이다. 


  • SQL 집계 함수중 어떠한 타입에도 사용이 가능한 것 - > COUNT (수치형, 문자형) 

    수치형 -> AVG, COUNT, SUM, STDDEV (지정한 열의 분산을 반환) , MIN, MAX 

  • DIKW 피라미드에서 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실에서
    데이터를 가공 및 처리하여 정보, 지식, 지혜를 얻을 수 있다. 


  • 지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

  • 데이터웨어하우스의 4가지 특성 
    데이터의 주제지향성
    데이터 통합
    데이터의 시계열성
    데이터의 비휘발성 

  • 데이터마이닝  - 대용량 데이터에서 의미있는 정보를 추출하여 의사결정에 활용하는 기술 

  • 딥러닝 - 다층구조 형태의 신경망을 바탕으로 하는 머신러닝의 한 분야 

  • 산업별 분석 애플리케이션에서 분석사례중에서
    에너지는 트레이딩, 공급/수요 예측등이 있다 


  • CRM - 데이터베이스를 기초로
    고객을 세부적으로 분류하여
    효과적이고 효율적인 마케팅 전략을 개발한다. 


  • 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다.

    하둡은 빅데이터 플랫폼 환경 구축을 위해 사용할 뿐 빅데이터가 하둡을 기반으로 하는 것은 아니다.


  • 빅데이터 활요의 기본 3 요소데이터, 기술, 인력이다 

  • 빅데이터의 등장으로
    데이터 수집비용의 감소와
    클라우드 컴퓨팅 기술의 발전으로
    데이터 처리비용이 감소하게 되었다.

    이로 인해 표본을 조사하는 기존의 지식발견 방식에서
    전수조사를 통해 샘플링 주지 못하는 패턴이나 정보를 발견하는 데이터 활용방법이 변화되었다. 


  • 플랫폼형 비즈니스 모델서비스, 기술 등의 기반 위에
    다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 모델이다.


  • 데이터 가치를 측정하기 어려운 이유 
    데이터 활용방식 - 재사용, 재조합(매시업), 다목적용 개발 
    새로운 가치 창출
    분석기술 발전 

  • 신용평가 credit rating 
    투자자 보호를 위하여 금융상품 및 신용공여 등에 대하여
    그 원리금이 상환될 가능성과
    기업법인 및 간접투자기구등의 신용도를 평가하는 행위이며
    핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있다. 


  • SVM은 분류분석 기법중 하나이다 (딥러닝과는 관련없는 분석기법) 

  • 아나콘다 anaconda파이썬 프로그램의 머신러닝 기능을 강화해주는 소프트웨어 

    caffee, tensorflow, theano딥러닝 소프트웨어

  • 사물인터넷 IoT - 인터넷 기반으로 모든 사물을 연결해
    사람과 사물, 사물과 사물간의 정보를 상호 소통하는 지능형 기술 및 서비스이며
    사물에서 생성되는 데이터를 활용한 분석을 통해 마케팅 등에 활용할 수 있다. 

  • 데이터시각화는 비즈니스 컨설팅 영역이며,
    나머지 3개는 데이터 처리와 관련된 IT 영역이다 


  • 데이터 사이언스는 통찰력 있는 분석에 초점을 두고 진행한다 


주관식 

 

  1.  SELECT NAME, GENDER, SALARY
    FROM CUSTOMERS
    WHERE AGE ( FROM ) 20 AND 39

  2. 하드 스킬 , 소프트 스킬
    데이터 사이언티스트가 갖춰야할 역량은
    빅데이터의 처리 및 분석에 필요한 이론적 지식
    기술적 숙련에 관련된 능력인 하드스킬
    데이터속에 숨겨진 가치를 발견하고 새로운 발견 기회를 만들어 내기 위한 능력인 소프트 스킬로 나누어진다


  3. 정보 
    정보는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고
    그 의미를 부여한 것이며
    지식을 도출하기 위한 재료가 된다.


  4. 데이터웨어하우스 
    기업의 의사결정 과정을 지원하기 위한
    주제중심적으로 통합적이며
    시간성을 가지는 비휘발성 데이터의 집합 


  5. 데이터레이크
    별도로 정제되지 않은 자연스로운 상태의 아주 큰 데이터 세트인 데이터레이크를~~

  6. 정량적 데이터
    정량적 데이터는 지역별 매출액, 영업이익률, 판매량과 같이
    수치로 명확하게 표현되는 데이터로
    그 양이 크게 증가하더라도
    이를 DBMS에 저장, 검색, 분석하여 활용하기가 용이하다.


  7. SCM
    SCM은 기업이 외부공급업체 또는 제휴업체와 통합된 정보시스템으로
    연계하여 시간과 비용을 최적화시키기 위한 것으로
    자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성된다.


  8. 플랫폼

  9. 유전자 알고리즘
    생명의 진화를  모방하여 최적해 (옵티멀 솔루션 optimal solution)를 구하는 알고리즘
    존 홀랜드 john holland가 1975년 개발
    '최대의 시청률을 얻으려먼 어떤 시간대에 방송해야하는 가?"와 같은 문제를 해결할때 사용된다
    어떤 미지의 함수 Y = f(x)를 최적화하는 해 x를 찾기 위해, 
    진화를 모방한(Simulated evolution) 탐색 알고리즘이라고 말할 수 있다

 

 

반응형