IT | Computer/R

R 언어 통계 프로그래밍: Reading/Writing Data

바람난후제 2015. 12. 30. 02:18
반응형

1. Reading Data 함수

1) R에서 데이터 Reading에 쓰이는 함수

- read.table/read.csv: tabular data(Table 형태의 데이터)를 읽어 올 때 쓰는 함수. 주로 데이터 파일을 읽을 때 쓴다.

- readLines: 텍스트 파일에서 한 라인(한 줄) 읽어 올 때 쓰는 함수

- source: R code 파일의 데이터를 읽어 올 때 쓰는 함수 (inverse of dump)

- dget: R code 파일의 데이터를 읽어 올 때 쓰는 함수 (inverse of dput)

- load: 저장된 workspace에서 데이터를 읽어 올 때 쓰는 함수

- unserialize: 2진 형태의 단일 R object를 읽어 올 때 쓰는 함수

 

2. Writing Data 함수

1) R에서 데이터 Writing에 쓰이는 함수

- write.table, writeLines, dump, dput, save, serialize

 

3. read.table로 파일 읽기

1) 가장 많이 쓰이는 방식 중의 하나로 아래의 인수가 존재한다. 읽을 대상의 파일은 헤더와 각 데이터는 row로 구성되고 구분할 수 있는 문자열 등으로 구성되어 있다.

- file: 읽을 대상의 파일 이름

- header: 파일 처음에 각 데이터를 설명하는 헤더 라인이 있을 경우 지시 (데이터의 label 의미)

- sep: 파일에서 각 열을 어떻 방식으로 구분하는지 규칙을 표시하는 문자열(",","\t"," " 등)

- colClasses: Character vector로 각 column이 어떤 class 형태의 데이터를 가지는지 설명 (예: numeric, logical 등)

- nrows: 해당 데이터 파일 내 dataset의 행의 수

- comment.char: 해당 데이터 파일에서 주석을 사용할 경우 주석의 시작 문자열

- skip: 처음 시작 시에 읽지 않고 무시하는 라인의 수

- stringAsFactors: character 변수를 Fator 형태로 저장해야하는 지를 결정하는 지시

2) read.table에서 기본 파라미터 값

- 단순히 read.table("test.txt")로만 데이터 파일을 읽는 경우에는 (R의 규칙과 유사하게) 자동적으로 아래의 값을 구성한다.

- header: 헤더라인이 없다.

- sep: 기본은 ""로 설정된다.

- colClasses: NA

- nrows: 메모리에서 할당할 수 있는 rows를 파악한다.

- comment.char: "#" ("#"으로 시작하는 라인은 읽지 않고 무시한다.)

- skip: 없다.

- stringAsFactors: TRUE

- 각 column의 변수는 R에서 효율적으로 처리할 수 있는 것인지 type를 파악한다.

 

4. read.csv

- read.table과 동일한 기능을 수행한다.

- 기본 separator가 ","가 이다.

반응형