看完了tsz.an分享的Precision and Recall-Informaiton Retreival這篇文章,也許是有一些共鳴,我決定再繼續多加一些個人的闡述。
如果今天我們設計了一個自動判斷是否為男生照片的系統,通常我們會想知道這個系統的效果如何,最直覺的評估方式(evaluation)可能我們會放入幾張照片,然後測試到底成功機率(成功的數目/總樣本數)是多少,這個我們就稱它準確度(Accuracy)。接著往下看:
Positive Negative
系統(是) TP FN
系統(不是) FP TN 繼續閱讀 »
Posted in Data Mining, 學術分享 | No Comments »
在資訊檢索或資料探勘的領域中,一個最基本的問題就是要如何衡量一個系統的效能?這裡指的系統效能是說:當我們進行一個Query時,在一個檢索或搜尋系統中,到底回傳回來的結果,是不是使用者想要的?回傳的效率有多好?
這裡介紹兩個用來評估檢索結果的方法,叫做【查準率(Precision)】和【查全率(Recall)】 。 繼續閱讀 »
Posted in Data Mining | No Comments »
文件相似度量測(Text Similarity Measure)
文件之間的相關性是透過量測文件之語意向量的相似度做評估,與影像處理概念一樣,在實行量測之前我們會先將文件向量化,即是將文件的特徵利用向量表達出來,使的這個向量能足夠代表這個文件的特徵(Figure 1)。而向量空間中的詞是從所有量測文件中出現的詞做聯集而成,此時就可以建構出一個二維語意空間,每篇量測文章都可以得到一個特徵向量,在特徵向量中又可以分為Binary與Frequence兩種,Binary是以True/False代表詞是否有出現在此篇文章,而Frequence則是根據詞出現在文章中的頻率。利用這個特徵向量,以下我用JAVA實驗了InnerProduct、Cosin、Dice、Jaccard這四種基礎量測方法,其中以Cosin最常被使用,另外有一個Distance(A, B)的方法我對他的公式有些疑惑,也尋不著當初paper的出處,若改天解決我會再做更新。 繼續閱讀 »
Posted in Data Mining | No Comments »