這篇主要介紹Weka的專有名詞和簡單的操作,我們打開Weka後,點選最上面的Explorer,打開 weather .nominal .arff
我們先來介紹Preprocess(數據分析)變成Visualize(可視化面版)
A. Attribute: 性質、特性,一個數據可能具有一個或一個以上的性質,以上性質可以展現出樣本的全貌
B. Instance: 樣本,蒐集到的數據

以上圖表是為了藉由天氣、溫度、濕度和是否颳風來預測適不適合出去玩所蒐集的數據,所以我們有14個instances,5個attributes
|
因為class的地方選擇的是play,所以下面的三條柱狀圖代表的是attribute的數值: sunny, rainy, overcast,顏色則是attribute play的數值:yes/no |

點開outlook來看,我們可以看到被分在outlook底下的數值(現象),分別是sunny, rainy, overcast,後面的count告訴我們出現這種現象的次數,所以總共14次,跟我們的樣本數是一樣的,也可以藉由edit來修改數值的次數
因為最後一項的attribute是play,所以class的默認是最後一項attribute
1.3
supervised learning:用每個發生機率都獨立且已分類好、數值也皆已知的instance來進行分析,來預測未來新的實例的模型(program),一個instance具有一種獲一種以上的attribute,而這些attribute可以用數值來表示,這些數值代表我們用來描述真實情況

用weather .nominal .arff為例
前面的outlook, temp, humidity, windy這些attributes用來描述instance的狀況,並先用這些數據來用人工判斷是否適合出去玩,也就是play這格attribute,我們可以利用weka來藉前面已知play的instance來進行supervised learning、建立一個program,訓練完之後我們就可以利用這個program,輸入新的instance,判斷這個新的instance是否適合出去玩
額外對於數據性的data,weka會自動計算選取的attribute中instance的最大值、最小值、標準差這些有關統計數。
簡單的名詞介紹就到這邊,下一章節會介紹分類器---J48
參考資料:
WekaMOOC:https://www.youtube.com/channel/UCXYXSGq6Oz21b43hpW2DCvw


請先 登入 以發表留言。