Maximum likelihood和Bayesian inference是目前譜系分析(phylogenetic analyses)常用的兩種方法。但是由於兩者使用的觀念或多或少都牽涉到機率與統計的範疇,應用這兩種方法的人常常會把兩者相互混淆。
雖然一般教學上都會提到,Maximum likelihood用的是統計方法計算譜系樹的likelihood,搜尋最佳譜系樹;Bayesian inference則是應用Bayes’ theorem來計算譜系樹為真的機率(probability)。但是機率和統計其實只是使用不同的角度探討同一件事而已——甚至在一般英文的定義中,likelihood和probability還是同義字:
Likelihood as a solitary term is a shorthand for likelihood function. In non-technical usage, “likelihood” is a synonym for “probability”, but throughout this article only the technical definition is used. Informally, if “probability” allows us to predict unknown outcomes based on known parameters, then “likelihood” allows us to determine unknown parameters based on known outcomes.
(節錄Wikipedia對likelihood function的定義
http://en.wikipedia.org/wiki/Likelihood_function) 繼續閱讀 »
Tags: Bayesian inference, Likelihood, Probability, 貝氏機率
Posted in 學術分享 | No Comments »
看完了tsz.an分享的Precision and Recall-Informaiton Retreival這篇文章,也許是有一些共鳴,我決定再繼續多加一些個人的闡述。
如果今天我們設計了一個自動判斷是否為男生照片的系統,通常我們會想知道這個系統的效果如何,最直覺的評估方式(evaluation)可能我們會放入幾張照片,然後測試到底成功機率(成功的數目/總樣本數)是多少,這個我們就稱它準確度(Accuracy)。接著往下看:
Positive Negative
系統(是) TP FN
系統(不是) FP TN 繼續閱讀 »
Posted in Data Mining, 學術分享 | No Comments »
在資訊檢索或資料探勘的領域中,一個最基本的問題就是要如何衡量一個系統的效能?這裡指的系統效能是說:當我們進行一個Query時,在一個檢索或搜尋系統中,到底回傳回來的結果,是不是使用者想要的?回傳的效率有多好?
這裡介紹兩個用來評估檢索結果的方法,叫做【查準率(Precision)】和【查全率(Recall)】 。 繼續閱讀 »
Posted in Data Mining | No Comments »
文件相似度量測(Text Similarity Measure)
文件之間的相關性是透過量測文件之語意向量的相似度做評估,與影像處理概念一樣,在實行量測之前我們會先將文件向量化,即是將文件的特徵利用向量表達出來,使的這個向量能足夠代表這個文件的特徵(Figure 1)。而向量空間中的詞是從所有量測文件中出現的詞做聯集而成,此時就可以建構出一個二維語意空間,每篇量測文章都可以得到一個特徵向量,在特徵向量中又可以分為Binary與Frequence兩種,Binary是以True/False代表詞是否有出現在此篇文章,而Frequence則是根據詞出現在文章中的頻率。利用這個特徵向量,以下我用JAVA實驗了InnerProduct、Cosin、Dice、Jaccard這四種基礎量測方法,其中以Cosin最常被使用,另外有一個Distance(A, B)的方法我對他的公式有些疑惑,也尋不著當初paper的出處,若改天解決我會再做更新。 繼續閱讀 »
Posted in Data Mining | No Comments »
Linear Associatoin (線性關聯)
購物籃分析(Market-Basket Analysis)是機器學習的應用之一,主要是幫助零售業者瞭解客戶的消費行為,假設發現通常購買x產品的人也會購買y產品,若今天有一客戶只有買x沒有買y,那麼他就是一個y的淺在客戶(Potencial Customer)。當我們找到這些客戶時,我們就可以利用同類產品做聯合推銷(Cross-selling)。
為了找出這些關聯規則(Association Rule),我們使用條件機率(Conditional Probability)的形式P(y|x),代表購買x產品狀況下,也會順道購買y的機率。假使我們經過統計後,得知P(Chips|Beer)=0.7,則代表:
70 percent of customers who buy beer also buy chips.
另外我們還可以將整個關聯,對於客戶的部份做細分,P(y|x, d),d代表客戶的屬性,例如年齡、性別與職業等等。 繼續閱讀 »
Posted in Machine Learning | No Comments »
隨著電腦科技的進步,我們有能力去儲存與處理大量資料,甚至彙整來自不同地方的資料,例如像是世界連鎖企業,販售數以千記的商品給百萬客戶,每天將這些交易紀錄儲存下來。然而對於這些沒有經過分析的資料(Data),如何轉換成有意義的資訊(Information),是一件很有趣的事情,例如像是預測(Prediction)。
雖然我們不曉得哪些人會喜歡哪些特定的商品,但是我們可以透過資料的萃取(Abstration),將我們有興趣的資訊,從隱含的資料中找出來。例如說,當人們到超級市場,買啤酒的人會順便買洋芋片,但是買洋芋片的不一定會買啤酒,而大部分的人夏天會買冰淇淋,冬天會買麻辣火鍋,這似乎有一個樣本(Pattern)存在其中。
當然我們無法做完全的預測,但可以找到一個比較好且近似的法則,這個近似法則沒辦法符合所有現實狀況,但至少他可以代表部份的資料,像是一些樣本或者規律,那這些樣本或規律性,就可以當作我們預測的基準,對未來預測(Future Prediction)。這個就是機器學習(Machine Learning)的雛型。 繼續閱讀 »
Posted in Machine Learning | No Comments »
關於論文補充說明的部份
針對兩個角度來說明為什麼新模型(扇形分層)較好
1. 傳統型分群法 V.S. 扇形分群法?
以Figure 1來說,紅色傳送路徑為採用傳統型分類法,假設某節點p21到CH再經由p21到BS,
因此此過程之電量消耗可表示為:(pxy)表示第x種分群法之第y步路徑距離
====================================
energy(path2) 與 (p21)*(p21)+(p22)*(p22) 成正比
====================================
而綠色路徑則是採用扇形分層法,此時電量消耗
====================================
energy(path1) 與 (p11)*(p11)+(p12)*(p12) 成正比
====================================
繼續閱讀 »
Tags: wsn
Posted in Wireless | No Comments »
《孫子算經》的下卷第26題:「今有物不知其數,三三數之剩二;五五數之剩三;七七數之剩二。問物幾何?」
翻成白話文:
x為一整數且x º 2 mod 3,x º 3 mod 5,x º 2 mod 7,求x 等於多少?
令 n1 = 3, n2 = 5, n3 = 7 ;
令 n = n1 n2 n3 = 105 ;
令 r1 = 2, r2 = 3, r3 = 2;
令 N1 = n/n1 = 35, N2 = n/n2 = 21, N3 =n/n3 = 15;
若 M1N1º 1 mod n1,則 M1 = -1
若 M2N2º 1 mod n2,則 M2 = 1
若 M3N3º 1 mod n3,則 M3 = 1
因此 x = (r1M1N1 + r2M2N2 + r3M3N3) mod n
x = (2*-1*35 + 3*1*21 + 2*1*15 ) mod 105
x = 23
《孫子算經》作者及年代不詳,推測約在西元4、5百年左右。
中國餘數定理在計算機科學中應用相當多,尤其是密碼學及資料壓縮。
是混資訊界的人不得不懂的數學基本知識。
Posted in Discrete Mathematics | No Comments »
Space-time wireless communications (Spring 2009) in ISU
Date: 2009/03/12
參考書籍、教材(Textbooks or References):
1.Space-time coding for broadband wireless communications, by Georgios B. Giannakis, Z. Liu, X. Ma and S. Zhou, John Wiley & Sons,Inc. 2007.
2.Introduction to space-time wireless communications, by Arogyaswami Paulraj, Rohit Nabar and Dhananjay Gore, Cambridge university press,2003.
授課進度與大綱(Outline/Schedule of Course):
第 一週:Introduction (XIXO, array gain, diversity gain, spatial multiplexing,etc)
繼續閱讀 »
Tags: SDMA, smart antenna, wireless
Posted in Wireless | No Comments »