第四單元(4D)：資料探索，連續變數

(4D)單元摘要： 使用台灣各級行政區的資料來練習

單一連續變數
- 資料摘要：summary()
- 統計量：mean(), mediam(), min(), max(), …
- 數值分佈： hist(), density(), boxplot()
連續變數的分類比較
- 分類統計：
- 分類分佈：
兩連續變數的關係
- 相關係數：
- 點狀圖+趨勢(回歸)線
- 聯合分佈：
兩連續變數關係的分類比較
互動式資料探索工具
- GGally::ggpair()

載入套件和資料

Sys.setlocale(category="LC_ALL", locale="cht")
pacman::p_load(dplyr,tibble,GGally,plotly,ggpubr)
rm(list=ls(all=T))
load("data/villages.rdata")

Town = filter(V,year=="108Y") %>% group_by(COUNTY, TOWN) %>% 
  summarise(`男性比` = sum(`性比例` * `人口數`)/sum(`人口數`), .groups='drop') %>% 
  left_join((Town))

Joining, by = c("COUNTY", "TOWN")

【A】數值變數的摘要與統計量

summary(Town)

    COUNTY              TOWN               男性比         人口總數     
 Length:368         Length:368         Min.   : 86.9   Min.   :   685  
 Class :character   Class :character   1st Qu.:100.0   1st Qu.: 14548  
 Mode  :character   Mode  :character   Median :105.5   Median : 30782  
                                       Mean   :106.2   Mean   : 64052  
                                       3rd Qu.:111.9   3rd Qu.: 77849  
                                       Max.   :157.2   Max.   :551480  
    老化指數      人均應稅所得     METRO     REGION  
 Min.   : 36.5   Min.   :  20.1   六都:158   北: 95  
 1st Qu.:100.6   1st Qu.: 123.6   縣市:210   中: 88  
 Median :144.6   Median : 189.6              南:128  
 Mean   :161.8   Mean   : 263.1              東: 41  
 3rd Qu.:205.1   3rd Qu.: 291.8              離: 16  
 Max.   :592.4   Max.   :3267.1

【B】數值變數的分佈

x = Town$老化指數
par(mfrow=c(3,1),cex=0.8)
boxplot(x,horizontal=T)   # 盒狀圖
hist(x)                   # 直方圖
plot(density(x))          # 密度函數
rug(x,col='blue')         # 刻度線

【C】連續變數分類的分類統計(分佈)

tapply(Town$`老化指數`, Town$`REGION`, median)

    北     中     南     東     離 
130.70 129.12 165.53 160.64 148.02

tapply(Town$`老化指數`, Town$`REGION`, summary)

$北
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   43.3    83.5   130.7   146.5   183.9   496.9 

$中
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   56.0    94.5   129.1   146.3   183.3   296.4 

$南
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   36.5   120.0   165.5   186.1   241.6   592.4 

$東
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   44.7   105.8   160.6   157.7   219.0   311.1 

$離
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   56.8   113.7   148.0   153.1   185.7   336.4

Town %>% group_by(REGION) %>% summarise(
  old = median(`老化指數`),
  pop = median(`人口總數`)
)

# A tibble: 5 x 3
  REGION   old    pop
* <fct>  <dbl>  <dbl>
1 北      131. 77444 
2 中      129. 39076.
3 南      166. 26725 
4 東      161. 11653 
5 離      148.  9112.

g = ggplot(Town, aes(x=`老化指數`,fill=REGION))
ggarrange(
  g + geom_density(alpha=0.5),
  g + geom_boxplot(),
  common.legend=T)

【D】兩連續變數之間的關係

x = log10(Town$`人口總數`)
# x = Town$`人口總數`
y = Town$`老化指數`
cor(x, y)

[1] -0.39509

ggplot(Town,aes(x,y)) + geom_point() + 
  # geom_smooth(se=F,color='blue') +
  geom_smooth(se=F,color='green',method='lm')

Town %>% group_by(REGION) %>% summarise(
  cor = cor(`老化指數`,log10(`人口總數`)))

# A tibble: 5 x 2
  REGION     cor
* <fct>    <dbl>
1 北     -0.628 
2 中     -0.669 
3 南     -0.315 
4 東      0.0758
5 離      0.0861

ggplot(Town,aes(x,y,col=REGION)) + geom_point(alpha=0.2) + 
  geom_smooth(se=F,method='lm')

【E】分類的統計量、分佈與相關性

老與窮：六都之間的比較

metro = c("臺北市","新北市","桃園市","臺中市","臺南市","高雄市")
df = Town %>% filter(COUNTY%in%metro) %>% 
  mutate_at(vars(人口總數:人均應稅所得),log10) %>% 
  mutate_at('COUNTY', factor, metro, substr(metro,1,2))

ggplot2::theme_set(ggplot2::theme_bw())
ggpairs(df, aes(color=COUNTY,label=TOWN), c(3,5,6,1))

highlight_key(df) %>% ggpairs(
    columns = c(3,5,6,1), mapping = aes(color=COUNTY,label=TOWN),
    # lower = list(continuous=wrap("smooth",size=0.5,se=F)), 
    diag = list(continuous=wrap("densityDiag", alpha = 0.7, col='gray')) 
  ) %>% ggplotly() %>% 
  highlight("plotly_selected")

# .rowNamesDF(df, T) <- df$TOWN
ggboxplot(
    df, x="COUNTY", y="老化指數", color="COUNTY", ids="TOWN", add="jitter") + 
    stat_compare_means()

# ggplotly(g)

老與窮：各區域之間的比較

df = Town %>% filter(REGION != "離") %>% 
  mutate_at(vars(`人口總數`:`人均應稅所得`),log10) %>% 
  mutate_at('REGION', factor, c('北','中','南','東','離'))

df =  as.data.frame(df)
rownames(df) = paste0(df$COUNTY,df$TOWN)
highlight_key(df) %>% ggpairs(
  columns = c(3,5,6,8),
  mapping = aes(color=REGION),
  lower = list(continuous = wrap("points", alpha = 0.85, size=1)),
  diag = list(continuous=wrap("densityDiag", alpha = 0.7, col='gray')) 
  ) %>% 
  ggplotly() %>% highlight("plotly_selected")

小組作業

請各組利用放在data/villages.rdata(V,Vill,Town)裡面的資料：

設定 研究單位 和 研究範圍 (unit & scope of analysis)
使用dplyr
- 選擇或製作三個 數量變數 (X1,X2,X3)
- 選擇或製作一個 類別變數 (C)
描述並討論各數量變數的 統計量
- X的整體統計量 (summary, median, mean)
- 在C之間，X的統計量有甚麼差異？ (差異顯著嗎？)
描述並討論各數量變數的分佈
- X的分佈 (hist, boxplot, plot(density()))
- 在C之間，X的分佈有甚麼差異？
描述並討論數量變數之間的關係
- X之間有甚麼關係？
- statistics: cor()
- visualization: geom_point + grom_smooth
- 在C之間，X之間的關係有甚麼變化？
列出你們的研究發現：
- 有意義(社會政策意涵)的現象

第四單元(4D)：資料探索，連續變數

中山大學管理學院卓雍然

2021-06-01 16:28:04

【A】數值變數的摘要與統計量

【B】數值變數的分佈

【C】連續變數分類的分類統計(分佈)

【D】兩連續變數之間的關係

【E】分類的統計量、分佈與相關性

老與窮：六都之間的比較

老與窮：各區域之間的比較

小組作業

第四單元(4D)：資料探索，連續變數

中山大學管理學院 卓雍然

2021-06-01 16:28:04

【A】 數值變數的摘要與統計量

【B】 數值變數的分佈

【C】 連續變數分類的分類統計(分佈)

【D】 兩連續變數之間的關係

【E】 分類的統計量、分佈與相關性

老與窮：六都之間的比較

老與窮：各區域之間的比較

小組作業

中山大學管理學院卓雍然

【A】數值變數的摘要與統計量

【B】數值變數的分佈

【C】連續變數分類的分類統計(分佈)

【D】兩連續變數之間的關係

【E】分類的統計量、分佈與相關性