基本的程式筆記設定,安裝、載入一些基本的套件

rm(list=ls(all=T))
knitr::opts_chunk$set(comment = NA)
knitr::opts_knit$set(global.par = TRUE)
par(cex=0.8); options(scipen=20, digits=4, width=90)
if(!require(pacman)) install.packages("pacman")
pacman::p_load(magrittr)
這個區段主要是設定筆記網頁的格式和載入(安裝)一些基本的套件,請大家不要改動

【A】一個最簡單的R程式

Given a strategy which may lead to \(n\) different outcomes …

\[\pi = \sum_{i=1}^{n} p_i \times v_i \qquad(1)\]

1. 定義資料物件: 分別把報酬(\(v_i\))和機率(\(p_i\))放在vp這兩個數值向量之中

2. 執行運算式sum(p * v)這一個運算式算出\(\pi\)的值,放在pi這個物件裡面,

3. 印出結果 並且把它列印出來

[1] 5


【B】『值』的種類 Types of Automic Values



【C】基本資料結構 - 向量 Vector

(基本值的)向量物件

字串向量

類別向量

💡 學習重點:
  ■ 向量是R的基本資料結構
  ■ 單值(如noTimemyWeightisAsianmyNamedate1)其實都是長度為1的向量物件
  ■ 在物件導向的語言裡面,資料結構又稱為Class
  ■ 我們可以用str()class()這兩個內建功能來查看物件的結構和種類

[1] "logical"
[1] "factor"
 Factor w/ 2 levels "F","M": 1 2 1 2 2


【D】運算符號 (Operator)

  ■ 早期的R,其最主要的目的就是要簡化向量運算
  ■ 四則運算和內建功能大多都可以直接作用在向量上面

[1]    1   20  300 4000

連續的整數

[1] -1 -2 -3 -4 -5 -6

次方運算和科學記號

[1]    0.01    0.10    1.00   10.00  100.00 1000.00

當向量不一樣長時 …

[1] 10 10 30 20

單值:長度為1的向量

[1] 10 20 30 40
Warning in c(10, 20, 30, 40, 50, 60, 70, 80) + c(1, 2, 3): longer object length is not a
multiple of shorter object length
[1] 11 22 33 41 52 63 71 82

指定物件的名稱: =<- Assignment Operator

[1]  12  20 -15 -24

邏輯運算 Logic Operator

[1]  TRUE FALSE FALSE FALSE
[1]  TRUE  TRUE FALSE FALSE
[1] FALSE FALSE  TRUE FALSE
[1] FALSE FALSE  TRUE  TRUE

💡 學習重點:
  ■ 『指定(=, <-)』與『測試相等(==)』是兩個不同的運算符號
  ■ 邏輯運算的結果通常是一個邏輯向量



【E】功能(函數)與參數 Function & Argument

The Expected Payoff is: \(\sum p \times v\)

[1] -7

內建功能通常第一個參數都是向量物件

[1] 1.000 1.414 1.732 2.000 2.236 2.449 2.646 2.828 3.000

💡 學習重點: R的功能通常都有很多個參數,我們需要注意參數的:
    ■ 名稱
    ■ 位置
    ■ 預設值

[1] 2
[1] 3
[1] 3

連續呼叫功能

[1] 1.00 1.41 1.73 2.00 2.24 2.45 2.65 2.83 3.00

管線運算符號: %>%

[1] 1.00 1.41 1.73 2.00 2.24 2.45 2.65 2.83 3.00


【F】向量索引 Vector Indexing

我們用索引來選擇資料結構中的子元件,索引本身也是向量,常用的索引方式包括:

位置索引:整數向量

[1] 3 3
[1] 168 180 181
[1] FALSE  TRUE FALSE  TRUE

名稱索引:字串向量 資料結構的子元件有名稱的時候

[1] 175 168 180 181 169
   Amy    Bob  Cindy  Danny Edward 
   175    168    180    181    169 

我們可以用子元件的名稱來做索引

  Bob Danny 
  168   181 

條件索引:邏輯向量
條件索引基本上是和原向量一樣長的一個邏輯向量

[1] 3 5 3
   Amy    Bob Edward 
   175    168    169 

💡: 條件索引讓我們可以使用邏輯運算式的結果當索引、使用條件來挑選資料結構子中的子元件

[1] "Amy"   "Cindy" "Danny"

🗿 練習:
請使用這些預先定義好的向量回答以下問題 …

🗿: 請列出 所有男生的名字

[1] "Bob"    "Danny"  "Edward"

🗿: 請列出 身高大於180cm的人的名字

🗿: 請列出 身高大於180cm的黃種人的名字

🗿: 請算出 男生的平均身高

[1] 172.7

🗿: 請算出 女生總共買了多少次

🗿: 請算出 白種女生總共有多少人



【G】資料框 DataFrame

通常資料框中的每一筆記錄代表一個分析單位,每個欄位值代表分析單位之中的某一種屬性

  noBuy height isMale   name gender skin_color
1     3    175  FALSE    Amy      F      black
2     5    168   TRUE    Bob      M      black
3     1    180  FALSE  Cindy      F      white
4     1    181   TRUE  Danny      M     yellow
5     3    169   TRUE Edward      M      white

方便篩選

  noBuy height isMale name gender skin_color
2     5    168   TRUE  Bob      M      black

方便統計

[1] 174.6

分類運算

    F     M 
177.5 172.7 


【H】資料框索引 DataFrame Indexing

資料框有非常多種索引方式,光是靠這一些索引方式,就可以做很精緻的探索性資料分析:

  height isMale
1    175  FALSE
2    168   TRUE
  noBuy height isMale name gender skin_color
1     3    175  FALSE  Amy      F      black
2     5    168   TRUE  Bob      M      black
  noBuy height isMale   name gender skin_color
2     5    168   TRUE    Bob      M      black
5     3    169   TRUE Edward      M      white
[1] "Bob"    "Edward"
[1] "Bob"    "Edward"
  noBuy height isMale   name gender skin_color
2     5    168   TRUE    Bob      M      black
5     3    169   TRUE Edward      M      white
    name
2    Bob
5 Edward
[1] "Bob"    "Edward"
    name noBuy
2    Bob     5
5 Edward     3

🗿 練習:
以下的運算式分別代表什麼意思 …

[1] "Bob"    "Danny"  "Edward"
[1] "Danny"
[1] "Amy"   "Cindy"
[1] 172.7
[1] 177.5
[1] 4
[1] 1
[1] 1


📝 UNIT2A 學習重點:
  ■ 程式:使用『運算式』定義或變更『資料物件』的過程
  ■ 資料物件(object)的屬性:
    § 名稱(name)
    § 值(value)
    § 種類(data type): int, num, chr, logi, Date, …
    § 結構(class): 向量(vector), 矩陣(matrix), 資料框(data_frame), 序列(list), …
    § 大小(dim)
  ■ 運算式(expression)的組成:
    § 物件(object)
    § 運算符號(operator): {+, -, *, /}, {>, >=, ==}, {&, |}, …
    § 功能函數(function): 名稱, 參數, 參數次序, 預設值 …
  ■ 索引(Index):
    § 位置索引
    § 邏輯索引與條件選擇
    § 名稱索引
  ■ 資料框(data.frame):
    § 每一筆紀錄都有固定的欄位
    § 每一個欄位都有固定的格式
    § 每一筆紀錄和欄位都可以有名稱