在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件機率分布,而不是X和y的聯合機率分布(多元分析領域)。
一、理論模型
給一個隨機樣本,一個線性回歸模型假設回歸子和回歸量之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項(也是一個隨機變量)來捕獲除了之外任何對的影響。所以一個多變量線性回歸模型表示為以下的形式:
其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變量的線性函數。線性在這裡表示的條件均值在參數裡是線性的。例如:模型在和裡是線性的,但在裡是非線性的,它是的非線性函數。
二、數據和估計
區分隨機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值 .
我們有個參數需要決定,為了估計這些參數,使用矩陣表記是很有用的。
其中Y是一個包括了觀測值的列向量,包括了未觀測的隨機成份以及回歸量的觀測值矩陣:
X通常包括一個常數項。
如果X列之間存在線性相關,那麼參數向量就不能以最小平方法估計除非被限制,比如要求它的一些元素之和為0。
三、古典假設
- 樣本是在母體之中隨機抽取出來的。
- 因變量Y在實直線上是連續的,
- 殘差項是獨立且相同分佈的(iid),也就是說,殘差是獨立隨機的,且服從高斯分佈。
這些假設意味著殘差項不依賴自變量的值,所以和自變量X(預測變量)之間是相互獨立的。
在這些假設下,建立一個顯示線性回歸作為條件預期模型的簡單線性回歸,可以表示為:
四、最小平方法分析
1.最小平方法估計
回歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小平方法是非常優越的。這種估計可以表示為:
2.回歸推論
對於每一個,我們用代表誤差項的變異數。一個無偏誤的估計是:
其中是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
其中服從卡方分佈,自由度是
對普通方程的解可以冩為:
這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
其中表示多變量正態分佈。
參數估計值的標準差是:
參數的置信區間可以用以下式子來計算:
誤差項可以表示為:
3.單變量線性回歸
單變量線性回歸,又稱簡單線性回歸(simple linear regression, SLR),是最簡單但用途很廣的回歸模型。其回歸式為:
為了估計和,我們有一個樣本
最小平方法就是將未知量殘差平方和最小化:
分別對和求導得到正規方程:
此線性方程組可以用克萊姆法則來求解:
協變異數矩陣是:
平均響應置信區間為:
預報響應置信區間為:
3.變異數分析(Analysis of variance, ANOVA)
在變異數分析(ANOVA)中,總平方和分解為兩個或更多部分。
總平方和SST (sum of squares for total) 是:
- ,其中:
同等地:
回歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:
殘差平方和SSE (sum of squares for error) 是:
總平方和SST又可寫做SSReg和SSE的和:
回歸係數R2是:
▼生物統計學(Biostatistics)
顯示/隱藏(show/hide)
0 意見:
張貼留言