R 프로그래밍 언어 활용 데이터 분석 과정 - 4회차
07 - 데이터 가공 - 파일 읽기
데이터 수집과 정제
데이터 정제 : 데이터를 수집한 후, 데이터를 처리하기 위해 가장 먼저 하는 작업
데이터 분석 방법이 아무리 뛰어나더라도 분석에 사용되는 데이터의 품질이 좋지 않다면 분석 결과가 왜곡되거나 다른 결론이 나올 수 밖에 없음
파일 읽기와 쓰기 함수

[read.table() : 일반 텍스트 파일을 읽을 때 사용]
Usage 정보

옵션 - sep : 구분 기호 명시
- na.strings : NA로 인식하고자 하는 문자열을 정의
- strip.white : 빈칸을 제거
[read.csv() : CSV 파일을 읽을 때 사용]
Usage 정보

파일 읽기 - 1
파일을 읽어오기 위해 실습에 사용할 txt 파일 생성

[read.table() 함수로 파일 읽기]


파일 읽기 - 2
쉼표로 구분된 파일을 읽어오기
파일을 읽어오기 위해 실습에 사용할 txt 파일 생성



여전히 math가 chr로 인식된다.
파일 읽기 - 3. NA를 문자열이 아닌 NA로 인식시키기 1
위 2번 예제에서 math 속성의 값들을 살펴보면

위 사진처럼 " 100" " 80" " 90" " NA" 와 같이 각 값들의 앞쪽에 공백이 하나 추가되어 있음
문제 해결을 위해 na.string="NA"를 na.string=" NA"로 수정


파일 읽기 - 3. NA를 문자열이 아닌 NA로 인식시키기 2
각 값들의 앞에 입력되어 있는 빈칸을 제거하고 파일 읽어오기


read.table과 read.csv의 차이
- read.table에서 쉼표로 구분된 파일을 읽을 경우 sep 옵션으로 명시
- read.csv는 옵션 없이도 쉼표로 구분된 파일을 읽음
- read.table에서 header = F가 기본값이지만 read.csv는 header = T가 기본값이므로 첫 줄 제목을 원치 않을 경우만 header 옵션 명시
'Data Analysis > R' 카테고리의 다른 글
[R 프로그래밍 언어 활용 데이터 분석] 09 - 결측값 (0) | 2021.07.08 |
---|---|
[R 프로그래밍 언어 활용 데이터 분석] 08 - 데이터 가공 - 파일 쓰기 (0) | 2021.07.08 |
[R 프로그래밍 언어 활용 데이터 분석] 06 - 반복문 (0) | 2021.07.07 |
[R 프로그래밍 언어 활용 데이터 분석] 05 - 조건문 (0) | 2021.07.07 |
[R 프로그래밍 언어 활용 데이터 분석] 04 - R 언어 문법 익히기 2 (0) | 2021.07.07 |