본문 바로가기
Data Analysis/R

[R 프로그래밍 언어 활용 데이터 분석] 09 - 결측값

by olli2 2021. 7. 8.

R 프로그래밍 언어 활용 데이터 분석 과정 - 4회차

09 - 결측값

 

 

 

결측값

: 데이터 중 고의 또는 실수로 누락된 값

 

우리가 수집한 데이터에는 결측값이 존재할 수 있다

결측값을 그대로 놔둔 채 데이터 가공을 하면 결과값에 오류가 뜨거나 잘못된 연 산이 수행될 수 있으므로 정제과정에서 적절한 처리가 필요

 

결측값 처리 방법

 

결측값 처리 함수 활용 예제

[is.na 함수 활용 1]

[결측값 처리 함수 활용 - airquality 데이터셋 다루기]

airquality 데이터셋의 구조 확인
head 함수 활용하여 데이터셋의 앞부분 일부의 NA값 확인
airquality 데이터셋의 총 NA값 개수 확인

: NA값이 총 44개 존재함을 확인 가능

 

Temp와 Ozone 속성 별 NA값 존재 여부 확인
속성 별 NA값 존재 여부 확인 결과

: Temp에는 NA값이 없으며, Ozone에는 NA값이 37개 존재함을 확인 가능

 

Temp와 Ozone 속성 별 평균 구하기

: NA가 없는 Temp는 평균 산출 가능, NA가 있는 Ozone은 평균 산출 불가능 (=NA로 나타남)

 

Ozone 속성에서 NA가 없는 값만 추출 후 평균 산출

: 결측값이 제거된 데이터에서는 평균 산출 함수 mean이 정상적으로 동작하는 것 확인 가능

 

 

na.omit 함수를 활용한 결측값 제거
함수 속성인 na.rm 활용하여 결측값 제거