主題:從國家食物供給下,(去探討國家GDP發展),以及國家富裕程度,牽連顯現出得總數 ## 研究問題與動機描述

找出在三個最多比賽人數/項目中,不同年份、不同項目的金牌、銅牌得主之年齡變化 ## 只找3個,才不會輸出太多

讀取套件及資料

library(readr)
## Warning: package 'readr' was built under R version 3.6.2
athlete<-read_csv("../asset/athlete_all.csv")
## Warning: Missing column names filled in: 'X1' [1]
## Parsed with column specification:
## cols(
##   .default = col_double(),
##   country = col_character(),
##   Name = col_character(),
##   Sex = col_character(),
##   NOC = col_character(),
##   Games = col_character(),
##   Season = col_character(),
##   City = col_character(),
##   Sport = col_character(),
##   Event = col_character(),
##   Medal = col_character()
## )
## See spec(...) for full column specifications.
## Warning: 42 parsing failures.
##  row           col               expected actual                       file
## 1166 female_school no trailing characters      r '../asset/athlete_all.csv'
## 1167 female_school no trailing characters      r '../asset/athlete_all.csv'
## 1168 female_school no trailing characters      r '../asset/athlete_all.csv'
## 1169 female_school no trailing characters      r '../asset/athlete_all.csv'
## 1170 female_school no trailing characters      r '../asset/athlete_all.csv'
## .... ............. ...................... ...... ..........................
## See problems(...) for more details.
pacman::p_load(devtools,dplyr, ggplot2, readr, plotly, googleVis,ggthemes,d3heatmap,magrittr)

資料視覺化

GDP 與獎牌總得獎數的關係

a1<-athlete %>% filter(!is.na(athlete$Medal),!is.na(athlete$income_GDP)) %>% #先訂出工作區 athlete ,再篩選出非空值的Medal(獎總數)與GDP尚無資料的
  group_by(country) %>% #依照 country 的做分類,將 country 的所有資料併在一起
  summarise( #這裡訂出所有獎牌數與平均GDP的變數項
    totalMedal = n(),
    income_GDP = mean(income_GDP)
  )
  
a1%>%ggplot(aes(income_GDP,totalMedal)) + geom_text(aes(label = country)) #輸出文字項目圖,可以較清楚了解到哪些國家較突出

#各國 GDP 是否會影響得獎數

美國居然不是最富裕的!

平均gdp與各類獎牌得獎數的關係

#篩選GDP,Medal不為NA且項目為奧運男子一百公尺田徑項目
a5<-athlete%>% filter(!is.na(income_GDP),!is.na(Medal) , Event == "Athletics Men's 100 metres") %>% ggplot(aes(income_GDP,Medal))+geom_point(col="#007799")+
  theme_economist() + scale_color_economist()
ggplotly(a5)

我們發現gdp低的國家得獎數高,不管金牌銀牌銅牌都是。我們推測可能是因為像非洲如肯亞、衣索比亞等國家因人種天生上的運動優勢,且交通不便利,時常需靠步行和跑步到達目的地,把跑步融入生活,造就許多優秀的跑者,實力不輸生活優越的高GDP國家

臺灣的GDP

a1%>% filter(country == "Chinese Taipei") %>% ggplot(aes(income_GDP,totalMedal)) + geom_text(aes(label = country)) +scale_y_log10() #突發奇想想來看臺灣的GDP是多少,結果尚未被評分

利用盒狀圖觀察男女的總得獎數的差距

這張圖依據國家與男女作區分,就可以看出有的國家女生選手組共得到1000個獎,但卻有的國家全部女生只得1個獎 女生差距較大,但男生就比較密集。 從盒狀圖可以看到女生得獎的變異數很大,但男生就顯得比較集中

a2<-athlete %>% filter(!is.na(athlete$Medal)) %>%  #篩選出不為空值的 Medal 資料
  group_by(country,Sex) %>%  #以 country, Sex 整理資料
  summarise( 
    totalMedal = n() #所有獎牌數

  )
  
a2%>% ggplot(aes(Sex,totalMedal)) + geom_boxplot() + scale_y_log10() #輸出圖,以盒狀圖來呈現差距,*****最後加上 y_log10 來拉大間距,較清楚呈現之間的差距

總得獎數與民主分數的關係

a3<-athlete %>% filter(!is.na(athlete$Medal),!is.na(athlete$democracy_score)) %>%  #篩選出不是空值的Medal、民主分數資料
  group_by(country) %>% 
  summarise(
    totalMedal = n(),
    democracy_score = mean(democracy_score) #這邊因為民主資料每年都會有變動,所以求出平均值
  )
  
a3%>%ggplot(aes(democracy_score,totalMedal)) + geom_text(aes(label = country)) #一樣也是用文字圖來呈現出比較突出的國家名稱(資料)

想表現使用log將y的差距拉大,方便比較各國之間的差異

取耳熟國家美國、中國、北韓、新加坡,四個國家相較下,民主分數較高的美國得獎率最高,但是民主分數較低的北韓、中國相較下得到的獎項卻少美國一大截,至於新加坡因為不完全民主,所以民主分數居中,且可能因人口少而得獎數

a3%>%ggplot(aes(democracy_score,totalMedal)) + geom_text(aes(label = country)) +scale_y_log10() #在這裡將 y_log10 間距拉大,就可以比較清楚看上一張圖下面都擠在一起的國家,更能清楚比較各國之間在民主與得獎數之間的關係

這是臺灣的民主分數,想不到吧~

我們生活中常常被新聞報導很民主很自由,但沒想到臺灣的民主居然沒被國際評分!!!

a3%>% filter(country == "Chinese Taipei") %>% ggplot(aes(democracy_score,totalMedal)) + geom_text(aes(label = country)) +scale_y_log10() #突發奇想想來看臺灣的民主分數是多少,結果尚未被評分

結論與洞察

我們利用GDP條件、民主分數、男女關係,來探討得獎數是否會因為這些因素而有差異,發現沒有絕對影響也有絕對例外的 所有國家都有機會獲得成名的機會,不一定是經濟優秀的,運動這件事不分財富能力,而是靠努力而來,像是民主國家,付出努力比付出財力,更能帶來結果。