ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초 본문

ADsP

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초

madb 2022. 2. 6. 22:50
반응형
  • 데이터프레임은 표 형태의 데이터 구조
    각 열은 서로 다른 데이터 형식을 가질 수 있다. 

    R의 데이터 구조중 2차원 목록 데이터 구조이면서 
    각 열이 서로 다른 데이터 타입을 가질 수 있는 데이터 구조

  • Inf는 무한대,
    NaN은 Not a Number
    dim은 행렬의 차원을 나타낸다.

  • 리스트 List
     타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조이다.

  • 결측값을 가르키는 것  - NA 

Recheck 

  • 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로
    한 벡터의 모든 원소는 같은 자료형 (숫자 또는 문자)로 구성된다

    벡터는 행렬 구조로 나타나지 않는다.

  • xy는 문자형 벡터
    문자형은 서로 연산을 할 수 없으므로 
    출력결과에는 에러가 나타난다

  • R에서 summary 함수
    수치형 변수의 경우 
    최대값
    최소값
    평균
    1사분위수
    2사분위수(중앙값)
    3사분위수를 출력하며

    명복형 병수의 경우 명목값, 데이터 개수를 출력하는 함수이다. 

  • na.rm 은 결측치를 제외하느냐에 대한 물음
    T는 TRUE로서 결측치를 제외하겠다는 의미이다.

  • data.table 패키지
    큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다.

    ddply 는 plyr패키지에서 지원한다 

  • R에서 표준편차를 계산하기 위해 사용하는 함수가 아닌 것은 stdev()함수이다.
    표준편차 계산하려면 예시 

    sd(Carseats$Sales)
    sqrt(var(Carseats$Sales))
    var(Carseats$Sales)^(1/2)

  • 두 개의 테이블을 하나로 변경할때 merge함수를 사용한다. 
    merge(dfm1, dfm2, by ="T_name") 
    merger(A, B, by "class" )


  • install.packages("패키지명")로 패키지를 설치하고
    library(패키지명)으로 패키지를 불러와 사용할 수 있다. 

  • a<-c(3.14,pi, TRUE) 
    numeric 3.14, 3.14, 1임

  • 행렬을 as.vector 함수에 입력하면
    열방향으로 1열부터 차례로 원소를 나열하는 벡터가 생성된다.

  • mean (x, na.rm=T)
    결측치를 제외한 x의 평균 

  • "+"(2,3) -> 5 출력 

  • y = c(1,2,3,NA)
    3*y
    3  6  9 NA

  • s<-c("Monday","Tuesday","Wednesday")
    substr(s,1,2)
    "Mo" "Tu" "We"

  • calculate <-function(a) {
      y=1
      for (i in 1:a){
        y=y*i
      }
      print(y)
    }
    calculate(4)
    24

    1->1*1 =1
    2->1*2=2
    3->2*3=6
    4->6*4=24

  • x<-c(1:5)
    y<-seq(10,50,10)
    xy<-rbind(x,y)
    xy

         [,1] [,2] [,3] [,4] [,5]
    x    1     2     3      4        5
    y   10   20   30   40     50

    xy[1,]
    1 2 3 4 5

    xy[,1]  
    x  y   
    1 10 

    x
     1 2 3 4 5

     y
     10 20 30 40 50

  • mx = matrix(c(1,2,3,4,5,6),ncol=2,byrow=T)
    mx
         [,1] [,2]
    [1,]    1    2
    [2,]    3    4
    [3,]    5    6
  • as.Date("08/23/2019",'%m/%d/%Y')
    "2019-08-23"
    2019를 전체 표현하기 위해서는 %Y
    08과 23을 표현하기 위해서는 각각 %m, %d의 format을 가져야 한다.

  • A <- cbind(c(1,2,3),c(4,5,6),c(7,8,9))
    colnames(A) <- c("A","B","C")
    rownames(A) <-c("r1","r2","r3")

    A[,"A"]
    r1 r2 r3   
    1  2  3 

    A[-c(2,3),]
    A B C 
    1 4 7

    A[,1]
    r1 r2 r3   
    1  2  3 

    A[,-(2:3)]
    r1 r2 r3   
    1  2  3

  • f <-function(x,a) return((x-a)^2)
    f(1:2,3)

    4 1 

  • x <-c(1,2,3,NA)
    mean(x)
    NA 

  • x <-1:100
    sum(x>50)
    50
  • subset(test, subset=(학과=="경영학과))

  • sqldf()
    SQL을 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지 
반응형