關於likelihood和probability的差別

Maximum likelihood和Bayesian inference是目前譜系分析(phylogenetic analyses)常用的兩種方法。但是由於兩者使用的觀念或多或少都牽涉到機率與統計的範疇,應用這兩種方法的人常常會把兩者相互混淆。

雖然一般教學上都會提到,Maximum likelihood用的是統計方法計算譜系樹的likelihood,搜尋最佳譜系樹;Bayesian inference則是應用Bayes’ theorem來計算譜系樹為真的機率(probability)。但是機率和統計其實只是使用不同的角度探討同一件事而已——甚至在一般英文的定義中,likelihood和probability還是同義字:

Likelihood as a solitary term is a shorthand for likelihood function. In non-technical usage, “likelihood” is a synonym for “probability”, but throughout this article only the technical definition is used. Informally, if “probability” allows us to predict unknown outcomes based on known parameters, then “likelihood” allows us to determine unknown parameters based on known outcomes.

(節錄Wikipedia對likelihood function的定義

http://en.wikipedia.org/wiki/Likelihood_function)

所以事實上,如果要簡單的區分likelihood和probability,只要看這個方法是用什麼去求什麼就可以了:

Likelihood用已知的(實驗)資料作出(影響實驗結果的)參數的函數,藉以求取參數的數值。

Probability:用已知的(影響實驗結果的)參數作出(能夠預測實驗結果的)函數,藉以預測實驗的結果。

若從「參數←→函數曲線」的角度看,我們可以藉由函數圖形的性質差異來區分這兩者。

如果我們用已知參數作機率分佈曲線,那麼這個曲線和X軸(參數)所包含的面積不會因為這個參數的變換而改變。

例如:

f(x): exponential with mean = 1,令y = 1/x,得f(y): inverse gamma

Pr(1<2) = Pr(1/2<1)

但是如果我們用已知參數作最大似然曲線,這時參數的變換將不會改變函數的值,也就是曲線到X軸的距離不會改變。

例如:

l(p;x) = 10log(p) +90log(1-p),令a = p^2,得l(a;x) = 10log(√a) +90log(1-√a)

在p = 0.1和a = 0.01時,l(log likelihood)值相等

爲什麼會有這樣的差異?其實只要看到這兩個例子,就能知道原因了。

以Bayesian inference所觀察的後驗機率(posterior probability)來看,它其實是機率分佈函數對參數變數所作的積分。從函數圖形的角度看,這就是圖形所包含的面積。而Maximum likelihood觀察的則是函數的log likelihood,以參數變數對log likelihood所作的最大似然曲線,圖形面積並沒有意義。

因此雖然在邏輯上,likelihood和probability關注的是同樣的東西,可是在操作上使用的角度不同,得出的結果也不會一樣。

原出處來自於這裡

Tags: , , ,

Leave a Reply