研究問題與動機描述
研究動機:由於近期威力彩連槓47期,導致頭獎金額上看至31億,也吸引許多消費者前來試試手氣。因此,我們希望能夠結合當下時事,探討各縣市薪資所得與中獎金額所得的相關性(假設每個人中獎機率相等)
資料處理
#整理資料
data1 <- df %>%
dplyr::select(year,縣市名稱,各類所得金額薪資所得,各類所得金額機會中獎所得,戶長男性人數,戶長女性人數) %>%
group_by(year,縣市名稱) %>%
summarise(薪資=sum(各類所得金額薪資所得),中獎=sum(各類所得金額機會中獎所得),戶數=sum(戶長男性人數+戶長女性人數))
## `summarise()` regrouping output by 'year' (override with `.groups` argument)
整理說明 :
我們為了瞭解是否地區薪資所得越高,樂透中獎金額越高,先做出了各地區的總薪資和總戶數,並進進一步求出每戶的平均薪資與平均中獎金額,額外建立資料框儲存資料,下一步將更深入去透過視覺化工具呈現出資料的結果。
資料視覺化
data1 %>% group_by(縣市名稱) %>%
summarize(平均薪資=mean(薪資),平均中獎=mean(中獎)) %>%
ggplot(aes(平均薪資,平均中獎,colour=縣市名稱))+
geom_point()
## `summarise()` ungrouping output (override with `.groups` argument)
圖一:由此圖可得知中獎金額與各縣市所得呈現正相關。中獎金額較高的地區主要分布於雙北地區,且其中獎金額遠高於其他縣市;中獎金額較低的城市則以離島地區居多。
data1 %>% filter(薪資<200000000)%>%
group_by(縣市名稱) %>%
summarize(平均薪資=mean(薪資),平均中獎=mean(中獎)) %>%
ggplot(aes(平均薪資,平均中獎,colour=縣市名稱))+
geom_point()
## `summarise()` ungrouping output (override with `.groups` argument)
圖二:為了清楚比較中獎所得排名中間的城市,我們另作一圖表,且將縣市薪資所得限制在200000000元以內,以利我們進行比較、分析。
data1 %>% group_by(縣市名稱) %>%
summarize(平均薪資=mean(薪資/戶數),平均中獎=mean(中獎/戶數)) %>%
ggplot(aes(平均薪資,平均中獎,colour=縣市名稱))+
geom_point()
## `summarise()` ungrouping output (override with `.groups` argument)
圖三:由於前述的資料中我們並未考慮到各縣市人口數不同所造成的誤差,因此我們將各縣市的平均中獎金額除以戶數,求得各縣市每戶平均薪資與平均中獎金額圖。我們發現各縣市每戶平均薪資與其平均中獎金額之相關性非常,且我們發現各縣市每戶平均薪資與其平均中獎金額之相關性非常高。
data1 %>% filter(縣市名稱%in% c("高雄市","基隆市","連江縣","新北市","金門縣","澎湖縣")) %>%
group_by(縣市名稱) %>%
summarize(平均薪資=mean(薪資/戶數),平均中獎=mean(中獎/戶數)) %>%
ggplot(aes(平均薪資,平均中獎,colour=縣市名稱))+
geom_point()
## `summarise()` ungrouping output (override with `.groups` argument)
圖四:因為圖三中的高雄市、基隆市與連江縣顏色過於相近,導致無法分辨,因此將上述三個縣市獨立出來,卻發現連江縣每戶的平均薪資與平均中獎金額十分高,所以我們把同為離島的金門和作為對照的新北市加入圖中,發現金門縣雖然和連江縣一樣具有高平均中獎金額,但依然與其他縣市具有高相關性,所以我們推論:連江縣戶數特別小,以至於期平均薪資遠高於其他縣市。