(4D)單元摘要: 使用台灣各級行政區的資料來練習

資料來源社會經濟資訊服務平台


載入套件和資料

Sys.setlocale(category="LC_ALL", locale="cht")
pacman::p_load(dplyr,tibble,GGally,plotly,ggpubr)
rm(list=ls(all=T))
load("data/villages.rdata")


Town = filter(V,year=="108Y") %>% group_by(COUNTY, TOWN) %>% 
  summarise(`男性比` = sum(`性比例` * `人口數`)/sum(`人口數`), .groups='drop') %>% 
  left_join((Town))
Joining, by = c("COUNTY", "TOWN")

【A】 數值變數的摘要與統計量

    COUNTY              TOWN               男性比         人口總數     
 Length:368         Length:368         Min.   : 86.9   Min.   :   685  
 Class :character   Class :character   1st Qu.:100.0   1st Qu.: 14548  
 Mode  :character   Mode  :character   Median :105.5   Median : 30782  
                                       Mean   :106.2   Mean   : 64052  
                                       3rd Qu.:111.9   3rd Qu.: 77849  
                                       Max.   :157.2   Max.   :551480  
    老化指數      人均應稅所得     METRO     REGION  
 Min.   : 36.5   Min.   :  20.1   六都:158   北: 95  
 1st Qu.:100.6   1st Qu.: 123.6   縣市:210   中: 88  
 Median :144.6   Median : 189.6              南:128  
 Mean   :161.8   Mean   : 263.1              東: 41  
 3rd Qu.:205.1   3rd Qu.: 291.8              離: 16  
 Max.   :592.4   Max.   :3267.1                      



【B】 數值變數的分佈




【C】 連續變數分類的分類統計(分佈)

    北     中     南     東     離 
130.70 129.12 165.53 160.64 148.02 
$北
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   43.3    83.5   130.7   146.5   183.9   496.9 

$中
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   56.0    94.5   129.1   146.3   183.3   296.4 

$南
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   36.5   120.0   165.5   186.1   241.6   592.4 

$東
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   44.7   105.8   160.6   157.7   219.0   311.1 

$離
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   56.8   113.7   148.0   153.1   185.7   336.4 
# A tibble: 5 x 3
  REGION   old    pop
* <fct>  <dbl>  <dbl>
1 北      131. 77444 
2 中      129. 39076.
3 南      166. 26725 
4 東      161. 11653 
5 離      148.  9112.



【D】 兩連續變數之間的關係

[1] -0.39509

# A tibble: 5 x 2
  REGION     cor
* <fct>    <dbl>
1 北     -0.628 
2 中     -0.669 
3 南     -0.315 
4 東      0.0758
5 離      0.0861



【E】 分類的統計量、分佈與相關性

老與窮:六都之間的比較

老與窮:各區域之間的比較




小組作業

請各組利用放在data/villages.rdata(V,Vill,Town)裡面的資料:

  1. 設定 研究單位研究範圍 (unit & scope of analysis)
  2. 使用dplyr
    • 選擇或製作三個 數量變數 (X1,X2,X3)
    • 選擇或製作一個 類別變數 (C)
  3. 描述並討論各數量變數的 統計量
    • X的整體統計量 (summary, median, mean)
    • 在C之間,X的統計量有甚麼差異? (差異顯著嗎?)
  4. 描述並討論各數量變數的 分佈
    • X的分佈 (hist, boxplot, plot(density()))
    • 在C之間,X的分佈有甚麼差異?
  5. 描述並討論數量變數之間的 關係
    • X之間有甚麼關係?
    • statistics: cor()
    • visualization: geom_point + grom_smooth
    • 在C之間,X之間的關係有甚麼變化?
  6. 列出你們的研究發現:
    • 有意義(社會政策意涵)的現象