Archive for 八月, 2009

文件相似度量測(Text Similarity Measure)

文件相似度量測(Text Similarity Measure)

文件之間的相關性是透過量測文件之語意向量的相似度做評估,與影像處理概念一樣,在實行量測之前我們會先將文件向量化,即是將文件的特徵利用向量表達出來,使的這個向量能足夠代表這個文件的特徵(Figure 1)。而向量空間中的詞是從所有量測文件中出現的詞做聯集而成,此時就可以建構出一個二維語意空間,每篇量測文章都可以得到一個特徵向量,在特徵向量中又可以分為Binary與Frequence兩種,Binary是以True/False代表詞是否有出現在此篇文章,而Frequence則是根據詞出現在文章中的頻率。利用這個特徵向量,以下我用JAVA實驗了InnerProduct、Cosin、Dice、Jaccard這四種基礎量測方法,其中以Cosin最常被使用,另外有一個Distance(A, B)的方法我對他的公式有些疑惑,也尋不著當初paper的出處,若改天解決我會再做更新。 繼續閱讀 »

機器學習的應用(Examples of Machine Learning Applications)

Linear Associatoin (線性關聯)

購物籃分析(Market-Basket Analysis)是機器學習的應用之一,主要是幫助零售業者瞭解客戶的消費行為,假設發現通常購買x產品的人也會購買y產品,若今天有一客戶只有買x沒有買y,那麼他就是一個y的淺在客戶(Potencial Customer)。當我們找到這些客戶時,我們就可以利用同類產品做聯合推銷(Cross-selling)。

為了找出這些關聯規則(Association Rule),我們使用條件機率(Conditional Probability)的形式P(y|x),代表購買x產品狀況下,也會順道購買y的機率。假使我們經過統計後,得知P(Chips|Beer)=0.7,則代表:

70 percent of customers who buy beer also buy chips.

另外我們還可以將整個關聯,對於客戶的部份做細分,P(y|x, d),d代表客戶的屬性,例如年齡、性別與職業等等。 繼續閱讀 »

什麼是機器學習(Machine Learning)?

隨著電腦科技的進步,我們有能力去儲存與處理大量資料,甚至彙整來自不同地方的資料,例如像是世界連鎖企業,販售數以千記的商品給百萬客戶,每天將這些交易紀錄儲存下來。然而對於這些沒有經過分析的資料(Data),如何轉換成有意義的資訊(Information),是一件很有趣的事情,例如像是預測(Prediction)。

雖然我們不曉得哪些人會喜歡哪些特定的商品,但是我們可以透過資料的萃取(Abstration),將我們有興趣的資訊,從隱含的資料中找出來。例如說,當人們到超級市場,買啤酒的人會順便買洋芋片,但是買洋芋片的不一定會買啤酒,而大部分的人夏天會買冰淇淋,冬天會買麻辣火鍋,這似乎有一個樣本(Pattern)存在其中。

當然我們無法做完全的預測,但可以找到一個比較好且近似的法則,這個近似法則沒辦法符合所有現實狀況,但至少他可以代表部份的資料,像是一些樣本或者規律,那這些樣本或規律性,就可以當作我們預測的基準,對未來預測(Future Prediction)。這個就是機器學習(Machine Learning)的雛型。 繼續閱讀 »