본문 바로가기
Data Analysis/R

[R 프로그래밍 언어 활용 데이터 분석] 07 - 데이터 가공 - 파일 읽기

by olli2 2021. 7. 8.

R 프로그래밍 언어 활용 데이터 분석 과정 - 4회차

07 - 데이터 가공 - 파일 읽기

 

 

데이터 수집과 정제

데이터 정제 : 데이터를 수집한 후, 데이터를 처리하기 위해 가장 먼저 하는 작업

데이터 분석 방법이 아무리 뛰어나더라도 분석에 사용되는 데이터의 품질이 좋지 않다면 분석 결과가 왜곡되거나 다른 결론이 나올 수 밖에 없음

 

 

파일 읽기와 쓰기 함수

R에서 제공하는 파일 읽고 쓰기 함수

[read.table() : 일반 텍스트 파일을 읽을 때 사용]

Usage 정보

옵션 - sep : 구분 기호 명시

       - na.strings : NA로 인식하고자 하는 문자열을 정의

       - strip.white : 빈칸을 제거

 

[read.csv() : CSV 파일을 읽을 때 사용]

Usage 정보

 

 

파일 읽기 - 1

파일을 읽어오기 위해 실습에 사용할 txt 파일 생성

실습을 위해 미리 만들어 준비한 txt 파일

[read.table() 함수로 파일 읽기]

NA값 때문에 math가 chr이 됨

 

파일 읽기 - 2

쉼표로 구분된 파일을 읽어오기

파일을 읽어오기 위해 실습에 사용할 txt 파일 생성

실습을 위해 미리 만들어 준비한 txt 파일
NA값 때문에 math가 chr이 됨

여전히 math가 chr로 인식된다.

 

파일 읽기 - 3. NA를 문자열이 아닌 NA로 인식시키기 1

위 2번 예제에서 math 속성의 값들을 살펴보면

위 사진처럼 " 100" " 80" " 90" " NA" 와 같이 각 값들의 앞쪽에 공백이 하나 추가되어 있음

문제 해결을 위해 na.string="NA"를 na.string=" NA"로 수정

math가 int로 나타남

 

파일 읽기 - 3. NA를 문자열이 아닌 NA로 인식시키기 2

각 값들의 앞에 입력되어 있는 빈칸을 제거하고 파일 읽어오기

math가 int로 나타남

 

read.table과 read.csv의 차이

- read.table에서 쉼표로 구분된 파일을 읽을 경우 sep 옵션으로 명시

- read.csv는 옵션 없이도 쉼표로 구분된 파일을 읽음

- read.table에서 header = F가 기본값이지만 read.csv는 header = T가 기본값이므로 첫 줄 제목을 원치 않을 경우만 header 옵션 명시