大數據研究筆記: R 語言的一些網路資料

Ref : R語言

存取dt 裡面的資料

dt$Science -> dt 裡面 Science 變數

dt[, 5] -> dt 裡面第五欄的資料

attach(dt) -> 可使dt裡面所有的資料傳到表層

dt[3,] -> 取得dt 裡面第三列的資料

dt[3(3,6),] -> 取得dt 裡面第三列和第六列的資料

subset(dt,Gender=="m") 取得 Gender 為 m 的資料

subset(dt,Science>=60) 取得 Science 大於等於60 的資料

讀取 excel 的檔案...使用 xlsx 的套件

排序資料 -> order() 和 sort()

描述性統計 :

length(變數) # 個數
mean (變數) # 平均數
sd(變數) # 標準差
quantile(變數) # 百分位數

例子:

mean(dt$Science) -> 70.77778

sd(dt$Literature) -> 19.7428

分組之描述性統計

tapply(變數, 分組因子, 運算函數,..)

tapply(dt$Science, dt$Gender, mean)

f m
64.40 78.75

或是用 subset 切出子集合

mean(subset(dt,Gender=="m")$Science)

mean(subset(dt,Gender=="f")$Science)

大數據研究筆記

2016年7月18日星期一

R 語言的一些網路資料

沒有留言:

張貼留言

2016年7月18日 星期一

R 語言的一些網路資料

沒有留言:

張貼留言

2016年7月18日星期一