(11) 大數據運算平台

第十一單元:大數據運算平台


內容大綱:
◆ 大數據運算平台是什麼?
◆ Hadoop 與 Spark 簡介
◆ 中山管院大數據運算與商業數據分析平台
◆ 大數據運算示範案例
。 Demo-1 Acquire: A Very Large Data Frame
。 Demo-2: Yelp Reviews: The Power of Parallel Computation
。 Demo-3: Baby Names: A Typical Data Pipeline
◆ 雲端資源
。 Google Could Platform (GCP) 帳號申請
。 程式模板:交叉驗證與參數調校
。 各類預測性模型
。 CART – Classification & Regression Tree
。 GLMNET – Elastic Linear Model
。 KNN – K-Nearest Neighbors
。 SVM – Support Vector Machine
。 NNET – Neural Network
。 RF – Random Forest
。 GBM – Gradient Boosting Machine
。 C5.0 – Rule based model
。 XGBOOST – Extreme Gradient Boosting
◆ The Yelp Data Set 簡介

案例分析:
◆ 課堂筆記 :
。Acquire – 巨大資料框 (AS11-Acquire)
。Baby Names – 資料管線 (AS11-Babynames)

內容下載:
◆ 第十一單元 雲端資料夾
◆ 第十一單元 課程投影片 (PPT)
◆ 第十一單元 課程投影片2 (PPT)
◆ 第十一單元 資料、程式 A (ZIP)
◆ 第十一單元 資料、程式 B (ZIP)
◆ 第十一單元 GCP示範程式 (ZIP)

線上模擬:
模擬預測機率分佈 與 模型準性指標

參考連結:
Harvard Data Science
Data Science: Visualization
Data Science: Wrangling
MIT Analytics Edge
DataCamp
課程社群連結
中山管院大數據平台入口網站
R:資料分析與基礎統計 線上自學地圖

上課錄影:
◆ 第十一單元 上課錄影 08/17 (YouTube)
◆ 第十一單元 上課錄影 08/21 (YouTube)