ENFJ 비전공자 개발스터디
데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초 본문
반응형
- 데이터프레임은 표 형태의 데이터 구조
각 열은 서로 다른 데이터 형식을 가질 수 있다.
R의 데이터 구조중 2차원 목록 데이터 구조이면서
각 열이 서로 다른 데이터 타입을 가질 수 있는 데이터 구조 - Inf는 무한대,
NaN은 Not a Number
dim은 행렬의 차원을 나타낸다. - 리스트 List
타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조이다. - 결측값을 가르키는 것 - NA
Recheck
- 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로
한 벡터의 모든 원소는 같은 자료형 (숫자 또는 문자)로 구성된다
벡터는 행렬 구조로 나타나지 않는다. - xy는 문자형 벡터
문자형은 서로 연산을 할 수 없으므로
출력결과에는 에러가 나타난다 - R에서 summary 함수는
수치형 변수의 경우
최대값
최소값
평균
1사분위수
2사분위수(중앙값)
3사분위수를 출력하며
명복형 병수의 경우 명목값, 데이터 개수를 출력하는 함수이다. - na.rm 은 결측치를 제외하느냐에 대한 물음
T는 TRUE로서 결측치를 제외하겠다는 의미이다. - data.table 패키지
큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다.
ddply 는 plyr패키지에서 지원한다 - R에서 표준편차를 계산하기 위해 사용하는 함수가 아닌 것은 stdev()함수이다.
표준편차 계산하려면 예시
sd(Carseats$Sales)
sqrt(var(Carseats$Sales))
var(Carseats$Sales)^(1/2) - 두 개의 테이블을 하나로 변경할때 merge함수를 사용한다.
merge(dfm1, dfm2, by ="T_name")
merger(A, B, by "class" ) - install.packages("패키지명")로 패키지를 설치하고
library(패키지명)으로 패키지를 불러와 사용할 수 있다. - a<-c(3.14,pi, TRUE)
numeric 3.14, 3.14, 1임 - 행렬을 as.vector 함수에 입력하면
열방향으로 1열부터 차례로 원소를 나열하는 벡터가 생성된다. - mean (x, na.rm=T)
결측치를 제외한 x의 평균 - "+"(2,3) -> 5 출력
- y = c(1,2,3,NA)
3*y
3 6 9 NA - s<-c("Monday","Tuesday","Wednesday")
substr(s,1,2)
"Mo" "Tu" "We" - calculate <-function(a) {
y=1
for (i in 1:a){
y=y*i
}
print(y)
}
calculate(4)
24
1->1*1 =1
2->1*2=2
3->2*3=6
4->6*4=24 - x<-c(1:5)
y<-seq(10,50,10)
xy<-rbind(x,y)
xy
[,1] [,2] [,3] [,4] [,5]
x 1 2 3 4 5
y 10 20 30 40 50
xy[1,]
1 2 3 4 5
xy[,1]
x y
1 10
x
1 2 3 4 5
y
10 20 30 40 50 - mx = matrix(c(1,2,3,4,5,6),ncol=2,byrow=T)
mx
[,1] [,2]
[1,] 1 2
[2,] 3 4
[3,] 5 6 - as.Date("08/23/2019",'%m/%d/%Y')
"2019-08-23"
2019를 전체 표현하기 위해서는 %Y
08과 23을 표현하기 위해서는 각각 %m, %d의 format을 가져야 한다. - A <- cbind(c(1,2,3),c(4,5,6),c(7,8,9))
colnames(A) <- c("A","B","C")
rownames(A) <-c("r1","r2","r3")
A[,"A"]
r1 r2 r3
1 2 3
A[-c(2,3),]
A B C
1 4 7
A[,1]
r1 r2 r3
1 2 3
A[,-(2:3)]
r1 r2 r3
1 2 3 - f <-function(x,a) return((x-a)^2)
f(1:2,3)
4 1 - x <-c(1,2,3,NA)
mean(x)
NA - x <-1:100
sum(x>50)
50 - subset(test, subset=(학과=="경영학과))
- sqldf()
SQL을 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지
반응형
'ADsP' 카테고리의 다른 글
데이터분석 준전문가 ADsP 3과목 통계분석 (0) | 2022.02.16 |
---|---|
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터마트 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터분석 개요 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 2과목 데이터 분석 기획 (0) | 2022.02.06 |
데이터분석 준전문가 ADsP 1과목 데이터의 이해 (0) | 2022.01.25 |