1. Reading Data 함수
1) R에서 데이터 Reading에 쓰이는 함수
- read.table/read.csv: tabular data(Table 형태의 데이터)를 읽어 올 때 쓰는 함수. 주로 데이터 파일을 읽을 때 쓴다.
- readLines: 텍스트 파일에서 한 라인(한 줄) 읽어 올 때 쓰는 함수
- source: R code 파일의 데이터를 읽어 올 때 쓰는 함수 (inverse of dump)
- dget: R code 파일의 데이터를 읽어 올 때 쓰는 함수 (inverse of dput)
- load: 저장된 workspace에서 데이터를 읽어 올 때 쓰는 함수
- unserialize: 2진 형태의 단일 R object를 읽어 올 때 쓰는 함수
2. Writing Data 함수
1) R에서 데이터 Writing에 쓰이는 함수
- write.table, writeLines, dump, dput, save, serialize
3. read.table로 파일 읽기
1) 가장 많이 쓰이는 방식 중의 하나로 아래의 인수가 존재한다. 읽을 대상의 파일은 헤더와 각 데이터는 row로 구성되고 구분할 수 있는 문자열 등으로 구성되어 있다.
- file: 읽을 대상의 파일 이름
- header: 파일 처음에 각 데이터를 설명하는 헤더 라인이 있을 경우 지시 (데이터의 label 의미)
- sep: 파일에서 각 열을 어떻 방식으로 구분하는지 규칙을 표시하는 문자열(",","\t"," " 등)
- colClasses: Character vector로 각 column이 어떤 class 형태의 데이터를 가지는지 설명 (예: numeric, logical 등)
- nrows: 해당 데이터 파일 내 dataset의 행의 수
- comment.char: 해당 데이터 파일에서 주석을 사용할 경우 주석의 시작 문자열
- skip: 처음 시작 시에 읽지 않고 무시하는 라인의 수
- stringAsFactors: character 변수를 Fator 형태로 저장해야하는 지를 결정하는 지시
2) read.table에서 기본 파라미터 값
- 단순히 read.table("test.txt")로만 데이터 파일을 읽는 경우에는 (R의 규칙과 유사하게) 자동적으로 아래의 값을 구성한다.
- header: 헤더라인이 없다.
- sep: 기본은 ""로 설정된다.
- colClasses: NA
- nrows: 메모리에서 할당할 수 있는 rows를 파악한다.
- comment.char: "#" ("#"으로 시작하는 라인은 읽지 않고 무시한다.)
- skip: 없다.
- stringAsFactors: TRUE
- 각 column의 변수는 R에서 효율적으로 처리할 수 있는 것인지 type를 파악한다.
4. read.csv
- read.table과 동일한 기능을 수행한다.
- 기본 separator가 ","가 이다.
'IT | Computer > R' 카테고리의 다른 글
R 언어 통계 프로그래밍: 외부 입출력 (0) | 2016.01.26 |
---|---|
R 언어 통계 프로그래밍: 대용량 데이터 처리 (1) | 2016.01.09 |
R 통계 프로그래밍: Data Type (Factors, NA, NaN, Data Frames, Names) (0) | 2015.12.15 |
R 통계 프로그래밍: Data Type (R Objects, Attributes, Vectors, Lists) (0) | 2015.12.13 |
R언어 통계 프로그래밍: R 콘솔 입출력 (0) | 2015.12.13 |