線性回歸(linear regression)

在統計學中,線性回歸是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸係數的模型參數的線性組合。只有一個自變數的情況稱為簡單回歸,大於一個自變數情況的叫做多元回歸。
在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件機率分布,而不是X和y的聯合機率分布(多元分析領域)。

一、理論模型

給一個隨機樣本 (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n ,一個線性回歸模型假設回歸子 Y_i 和回歸量 X_{i1}, \ldots, X_{ip} 之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項 \varepsilon_i (也是一個隨機變量)來捕獲除了X_{i1}, \ldots, X_{ip} 之外任何對 Y_i 的影響。所以一個多變量線性回歸模型表示為以下的形式:
 Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n
其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變量的線性函數。線性在這裡表示 Y_i 的條件均值在參數\beta裡是線性的。例如:模型 Y_i = \beta_1 X_i + \beta_2 X_i^2 + \varepsilon_i  \beta_1  \beta_2 裡是線性的,但在 X_i^2 裡是非線性的,它是 X_i 的非線性函數。

二、數據和估計

區分隨機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n .
我們有 p + 1 個參數 \beta_0, \ldots, \beta_p 需要決定,為了估計這些參數,使用矩陣表記是很有用的。
 Y = X \beta + \varepsilon \,
其中Y是一個包括了觀測值 Y_1, \ldots, Y_n 的列向量, \varepsilon 包括了未觀測的隨機成份 \varepsilon_1, \ldots, \varepsilon_n 以及回歸量的觀測值矩陣 X
 X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{np} \end{pmatrix}
X通常包括一個常數項。
如果X列之間存在線性相關,那麼參數向量\beta就不能以最小平方法估計除非\beta被限制,比如要求它的一些元素之和為0。

三、古典假設

  • 樣本是在母體之中隨機抽取出來的。
  • 因變量Y在實直線上是連續的
  • 殘差項是獨立相同分佈的(iid),也就是說,殘差是獨立隨機的,且服從高斯分佈
這些假設意味著殘差項不依賴自變量的值,所以 \varepsilon_i 和自變量X(預測變量)之間是相互獨立的。
在這些假設下,建立一個顯示線性回歸作為條件預期模型的簡單線性回歸,可以表示為:
 \mbox{E}(Y_i \mid X_i = x_i) = \alpha + \beta x_i \,

四、最小平方法分析

1.最小平方法估計

回歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小平方法是非常優越的。這種估計可以表示為:
 \hat\beta = (X^T X)^{-1}X^T y \,

2.回歸推論

對於每一個 i=1,\ldots,n ,我們用 \sigma^2 代表誤差項 \varepsilon 的變異數。一個無偏誤的估計是:
\hat \sigma^2  = \frac {S} {n-p} ,
其中 S := \sum_{i=1}^n \hat{\varepsilon}_i^2 是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
\hat\sigma^2 \cdot \frac{n-p}{\sigma^2} \sim  \chi_{n-p}^2
其中 \chi_{n-p}^2 服從卡方分佈,自由度是n-p
對普通方程的解可以冩為:
\hat{\boldsymbol\beta}=(\mathbf{X^TX)^{-1}X^Ty}.
這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
 \hat\beta \sim N ( \beta, \sigma^2 (X^TX)^{-1} )
其中N(\cdot)表示多變量正態分佈
參數估計值的標準差是:
\hat\sigma_j=\sqrt{ \frac{S}{n-p}\left[\mathbf{(X^TX)}^{-1}\right]_{jj}}.
參數\beta_j 100(1-\alpha)% 置信區間可以用以下式子來計算:
\hat \beta_j  \pm t_{\frac{\alpha }{2},n - p} \hat \sigma_j.
誤差項可以表示為:
\mathbf{\hat r =  y-X \hat{\boldsymbol{\beta}}= y-X(X^TX)^{-1}X^Ty}.\,

3.單變量線性回歸

單變量線性回歸,又稱簡單線性回歸(simple linear regression, SLR),是最簡單但用途很廣的回歸模型。其回歸式為:
 Y = \alpha + \beta X + \varepsilon
為了估計 \alpha  \beta ,我們有一個樣本 (y_i, x_i), \, i = 1, \ldots, n
最小平方法就是將未知量殘差平方和最小化:
 \sum_{i = 1}^n \varepsilon_i^2 = \sum_{i = 1}^n (y_i - \alpha - \beta x_i)^2
分別對 \alpha  \beta 求導得到正規方程:
\begin{array}{lcl}
n\  \alpha + \sum_{i = 1}^n x_i\  \beta = \sum_{i = 1}^n y_i \\
\sum_{i = 1}^n x_i\  \alpha + \sum_{i = 1}^n x_i^2\  \beta = \sum_{i = 1}^n x_i y_i
\end{array}
此線性方程組可以用克萊姆法則來求解:
\hat\beta = \frac {n \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
=\frac{\sum_{i = 1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i = 1}^n(x_i-\bar{x})^2}
\,
\hat\alpha = \frac {\sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_iy_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}= \bar y-\bar x \hat\beta
S = \sum_{i = 1}^n (y_i - \hat{y}_i)^2 
= \sum_{i = 1}^n y_i^2 - \frac {n (\sum_{i = 1}^n x_i y_i)^2 + (\sum_{i = 1}^n y_i)^2 \sum_{i = 1}^n x_i^2 - 2 \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i \sum_{i = 1}^n x_i y_i } {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
\hat \sigma^2  = \frac {S} {n-2}.
協變異數矩陣是:
\frac{1}{n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}\begin{pmatrix}
  \sum x_i^2 & -\sum x_i \\
  -\sum x_i & n   
\end{pmatrix}
平均響應置信區間為:
y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}
預報響應置信區間為:
y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {1+\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

3.變異數分析(Analysis of variance, ANOVA)

在變異數分析(ANOVA)中,總平方和分解為兩個或更多部分。
總平方和SST (sum of squares for total) 是:
 \text{SST} = \sum_{i=1}^n (y_i - \bar y)^2 ,其中:  \bar y = \frac{1}{n} \sum_i y_i
同等地:
 \text{SST}  = \sum_{i=1}^n y_i^2 - \frac{1}{n}\left(\sum_i y_i\right)^2
回歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:
\text{SSReg} = \sum \left( \hat y_i  - \bar y  \right)^2
= \hat{\boldsymbol\beta}^T \mathbf{X}^T
\mathbf y - \frac{1}{n}\left( \mathbf {y^T u u^T y} \right),
殘差平方和SSE (sum of squares for error) 是:
\text{SSE} = \sum_i {\left( {y_i  - \hat y_i} \right)^2 }
= \mathbf{ y^T y - \hat{\boldsymbol\beta}^T X^T y}.
總平方和SST又可寫做SSReg和SSE的和:
\text{SST} = \sum_i \left( y_i-\bar y \right)^2 = \mathbf{ y^T y}-\frac{1}{n}\left( \mathbf{y^Tuu^Ty}\right)=\text{SSReg}+ \text{SSE}.
回歸係數R2是:
R^2  = \frac{\text{SSReg}}{{\text{SST}}}
= 1 - \frac{\text{SSE}}{\text{SST}}.
資料來源:維基百科

▼生物統計學(Biostatistics) 顯示/隱藏(show/hide)

0 意見:

張貼留言

 
TOP