목록전체 글 (65)
ENFJ 비전공자 개발스터디
데이터 양이 늘어난다고 해서 더 많은 분석이 필요한 것은 아니다 데이터 양이 늘수록 데이터를 처리하는 저장장치가 더 필요하다 데이터의 크기는 작은것부터 큰것까지 순서대로 테라바이트 (TB) 페타바이트(PB) 엑사바이트(EB) 제타바이트(ZB) 요타바이트(YB) 책임 원칙 훼손은 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다 민주주의 국가에서는 잠재적인 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다 개인정보 사용자의 정보사용에 대한 무한책임의 한계로 개인정보 사용 동의제보다 개인정보책임체로 더욱 강화시켜야한다. 민주주의 국가의 형사처벌과 같이 잠재적 위협이 아닌 명확하게 행동한..
데이터마이닝 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 반응변수가 범주형인 경우 예측모형의 주목적은 분류이다 군집분석 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석방법 랜덤포레스트 분석기법 데이터마이닝 방법론의 앙상블 기법중 하나 분류분석문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 나타나는 과대적합/과소적합의 문제를 해결할 수 있다 데이터 가공단계 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계 자기조직화지도(self- organizing map) SOM - 비지도학습 비지도 ..
히스토그램의 각 막대의 높이는 빈도를 나타낸다. 표본추출방법은 단순랜덤추출법 계통추출법 집락추출법 층화추출법 구간추정은 모수의 참값이 포함되어있다고 추정되는 구간을 결정하는 것이지만 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다. 비표본오차는 표본오차를 제외한 모든 오차 조사과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커진다 표본편의 sampling bias는 확률화 randomization에 의해 최소화하거나 없앨수 있다. 구간척도 등간척도는 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료이다 순서뿐만 아니라 그 간격도 의미가 있으며 0이 절대적인 의미를 가지는 것은 비율척도..
reshape 패키지 데이터를 원하는 형태로 바꿔주는 melt 함수와 데이터를 재구성하는 함수 원하는 부분만을 선택하는 cast함수로 구성되어 있다. 모양을 만드는 함수 cast 함수 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지 휴면 고객 기업에서 평균 거래 주기를 3~4배 이상 초과하거나 다음달에 거래가 없을 것으로 예상되는 고객 이상값을 겁색하여 한 집단에서 매우 크거나 매우 작으면 의심되는 대상이므로 부정사용방지 시스템에 활용이 가능하다 부정사용방지 시스템이나 부도예측 시스템에서는 이상값이라도 의미가 있으므로 제거하지 않는다. Recheck 데이터 마트란 데이터 웨어 하우스와 사용자 사이의 중..
데이터프레임은 표 형태의 데이터 구조 각 열은 서로 다른 데이터 형식을 가질 수 있다. R의 데이터 구조중 2차원 목록 데이터 구조이면서 각 열이 서로 다른 데이터 타입을 가질 수 있는 데이터 구조 Inf는 무한대, NaN은 Not a Number dim은 행렬의 차원을 나타낸다. 리스트 List 타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조이다. 결측값을 가르키는 것 - NA Recheck 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로 한 벡터의 모든 원소는 같은 자료형 (숫자 또는 문자)로 구성된다 벡터는 행렬 구조로 나타나지 않는다. xy는 문자형 벡터 문자형은 서로 연산을 할 수 없으므로 출력결과에는 에러가 나타난다 R에서 summar..
EDA (탐색적 자료분석) 다양한 차원과 값을 조합해 가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해가는 과정 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포등을 시각화하여 분석하는 분석방식 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고 충분히 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정한 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 해야 한다. 신규 시스템이나 스테이징 영역의 데이터는 정제되지 않았기 때문에 정제하고 DW 나 DM과 결합해야 한다. 엑셀의 그래프는 최근 시각화 기술의 발전된 형태가 아니라 기존에 기술이다. 대용량 데이터에서 패턴을 파악해서 예측하는 분석 방법은 데이터마이닝 방법이다. 추론통계 추측통계는 모집단으로부터 추출된..
복잡하고 정교한 모형은 분석 기획 고려사항 중 장애요소에 해당되지 않는다 폭포수 모델 waterfull 순차적으로 진행되면서 이전 단계가 완료된 후 다음 단계로 진행하는 하향식 top down으로 진행되는 특징을 가지고 있는 모델. 문제가 발견되면 피드백 과정이 수행되기도 한다 빅데이터 분석 방법론에서 단계간 피드백이 반복적으로 많이 발생할 수 있는 단계 데이터 준비 단계 -> 데이터 분석 단계 데이터 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 단계를 반복하여 진행한다. 기업에서 데이터에 기반한 의사결정을 방해하는 요소는 고정관념 편향된 생각 프레이밍 효과 데이터 타당성에 대해서는 데이터 존재 여부 분석 시스템 환경 분석영량에 대한 검토가 필요하다 하..
input의 사용 : input은 입력되는 모든 것을 문자열로 취급한다 >>> a = input() Life is too short, you need python >>> a 'Life is too short, you need python' >>> 프롬프트를 띄워서 사용자 입력 받기 >>> number = input("숫자를 입력하세요: ") 숫자를 입력하세요: 3 >>> print(number) 3 >>> type(number)
파일 생성하기 f = open("새파일.txt", 'w') f.close() f = open("C:/doit/새파일.txt", 'w') f.close() 파일열기모드설명 r 읽기모드 - 파일을 읽기만 할 때 사용 w 쓰기모드 - 파일에 내용을 쓸 때 사용 a 추가모드 - 파일의 마지막에 새로운 내용을 추가 시킬 때 사용
정량적 데이터의 행태는 수치, 도형, 기호 등으로 기술이 되며 정성 데이터의 행태는 언어, 문자등으로 기술된다. 데이터 마스킹은 식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술이다. 반정형 데이터 - 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일형태로 저장되는 것 Cinematch 시스템은 넷플릭스 Netflix에서 개발한 영화 추천 알고리즘 메타 데이터 - 데이터에 대한 데이터로써 하위레벨의 데이터를 설명/기술하려는 것. 인덱스는 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라 레코드 접근과 관련 효율적인 순서 매김 동작에 대한 기초를 제공. ERP - 인사 재무 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합..