데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초 본문

ADsP

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초

madb 2022. 2. 6. 22:50

데이터프레임은 표 형태의 데이터 구조
각 열은 서로 다른 데이터 형식을 가질 수 있다.

R의 데이터 구조중 2차원 목록 데이터 구조이면서
각 열이 서로 다른 데이터 타입을 가질 수 있는 데이터 구조
Inf는 무한대,
NaN은 Not a Number
dim은 행렬의 차원을 나타낸다.
리스트 List
타입이 같지 않은 객체들을 하나의 객체로 묶어놓을 수 있는 자료구조이다.
결측값을 가르키는 것 - NA

Recheck

벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합으로
한 벡터의 모든 원소는 같은 자료형 (숫자 또는 문자)로 구성된다

벡터는 행렬 구조로 나타나지 않는다.
xy는 문자형 벡터
문자형은 서로 연산을 할 수 없으므로
출력결과에는 에러가 나타난다
R에서 summary 함수는
수치형 변수의 경우
최대값
최소값
평균
1사분위수
2사분위수(중앙값)
3사분위수를 출력하며

명복형 병수의 경우 명목값, 데이터 개수를 출력하는 함수이다.
na.rm 은 결측치를 제외하느냐에 대한 물음
T는 TRUE로서 결측치를 제외하겠다는 의미이다.
data.table 패키지
큰 데이터를 탐색, 연산, 병합하는데 아주 유용하다.

ddply 는 plyr패키지에서 지원한다
R에서 표준편차를 계산하기 위해 사용하는 함수가 아닌 것은 stdev()함수이다.
표준편차 계산하려면 예시
sd(Carseats$Sales)
sqrt(var(Carseats$Sales))
var(Carseats$Sales)^(1/2)
두 개의 테이블을 하나로 변경할때 merge함수를 사용한다.
merge(dfm1, dfm2, by ="T_name")
merger(A, B, by "class" )
install.packages("패키지명")로 패키지를 설치하고
library(패키지명)으로 패키지를 불러와 사용할 수 있다.
a<-c(3.14,pi, TRUE)
numeric 3.14, 3.14, 1임
행렬을 as.vector 함수에 입력하면
열방향으로 1열부터 차례로 원소를 나열하는 벡터가 생성된다.
mean (x, na.rm=T)
결측치를 제외한 x의 평균
"+"(2,3) -> 5 출력
y = c(1,2,3,NA)
3*y
3 6 9 NA
s<-c("Monday","Tuesday","Wednesday")
substr(s,1,2)
"Mo" "Tu" "We"
calculate <-function(a) {
  y=1
  for (i in 1:a){
    y=y*i
  }
  print(y)
}
calculate(4)
24

1->1*1 =1
2->1*2=2
3->2*3=6
4->6*4=24
x<-c(1:5)
y<-seq(10,50,10)
xy<-rbind(x,y)
xy

[,1] [,2] [,3] [,4] [,5]
x    1 2 3 4 5
y   10   20   30   40 50

xy[1,]
1 2 3 4 5

xy[,1]
x  y
1 10

x
1 2 3 4 5

y
10 20 30 40 50
mx = matrix(c(1,2,3,4,5,6),ncol=2,byrow=T)
mx
     [,1] [,2]
[1,]    1    2
[2,]    3    4
[3,]    5    6
as.Date("08/23/2019",'%m/%d/%Y')
"2019-08-23"
2019를 전체 표현하기 위해서는 %Y
08과 23을 표현하기 위해서는 각각 %m, %d의 format을 가져야 한다.
A <- cbind(c(1,2,3),c(4,5,6),c(7,8,9))
colnames(A) <- c("A","B","C")
rownames(A) <-c("r1","r2","r3")

A[,"A"]
r1 r2 r3
1  2  3

A[-c(2,3),]
A B C
1 4 7

A[,1]
r1 r2 r3
1  2  3

A[,-(2:3)]
r1 r2 r3
1  2  3
f <-function(x,a) return((x-a)^2)
f(1:2,3)
4 1
x <-c(1,2,3,NA)
mean(x)
NA
x <-1:100
sum(x>50)
50
subset(test, subset=(학과=="경영학과))
sqldf()
SQL을 활용하거나 SAS에서 porc sql로 작업하던 사용자들에게 R프로그램에서 지원해주는 패키지

저작자표시 비영리 변경금지 (새창열림)

'ADsP' 카테고리의 다른 글

데이터분석 준전문가 ADsP 3과목 통계분석 (0)	2022.02.16
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터마트 (0)	2022.02.06
데이터분석 준전문가 ADsP 3과목 데이터분석 데이터분석 개요 (0)	2022.02.06
데이터분석 준전문가 ADsP 2과목 데이터 분석 기획 (0)	2022.02.06
데이터분석 준전문가 ADsP 1과목 데이터의 이해 (0)	2022.01.25

'ADsP' Related Articles

ENFJ 비전공자 개발스터디

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초 본문

데이터분석 준전문가 ADsP 3과목 데이터분석 R프로그래밍 기초

Recheck

'ADsP' 카테고리의 다른 글

티스토리툴바