Reference: | 決策樹(Decision Tree)在Quinlan, J. R. 的著作"Simplifying decision trees"當中提出,是一個用來輔助決策的工具,他用樹狀圖或是決策模型把所有可能的結果都寫出來,然後在其中加入機率、成本和效用,是屬於演算法的一種。決策樹通常用在研究分析,特別是決策分析,用來找出最可能達到目標的策略,它也是機器學習常用的工具或是用來描述條件機率的手段之一。Karimi, K. and Hamilton, H.J. 在2011年的"Generation and Interpretation of Temporal Decision Rules"提出將所有事件線性化,並且包含前因後果關係,不同的事件做出不同的決定,就會產生不同的結果,就好像樹的枝葉,每個節點都有機率性質在內,並包含時間先後概念。 隨機森林(Random Forests)的演算法最早是由Ho, Tin Kam在(1995)"Random Decision Forests"和1998年"The Random Subspace Method for Constructing Decision Forests"當中所提出的隨機子空間所構思,他將Eugene Kleinberg提出的"Stochastic Modeling Method"得到了實現。隨機森林將多棵決策樹合成一個森林,之後此森林輸出的類別是由個別樹輸出的類別的眾數而定。此演算法的改進和擴充是由Breiman , Leo和 Cutler, Adele共同開發,"Random Forests"是他們的商標,此擴展的演算法包含了隨機選擇的特徵,此特徵是由Ho, Tin Kam率先提出,之後再由Amit 和Geman建立了可以控制決策樹集合的變異數的方法。在Hastie, Trevor、Tibshirani, Robert和Friedman, Jerome (2008)共同著作的書籍"The Elements of Statistical Learning (2nd ed.) "中指出隨機森林修正了決策樹經常會過度配適的缺點。 最近鄰居法(K Nearest Neighbor)簡稱KNN,是最簡單和基本的分類法之一,當我們的資料筆數很少或是很難獲得正確或是可靠的母體參數,KNN會是研究資料分類的最佳選擇之一。它的原理很簡單,先將訓練資料的每個變數定義成向量特徵空間,每筆資料在特徵空間中會有其對應的位置,如果當新的資料加入時,看它周圍的資料屬於哪一類別的最多,就將它判定為此類別。後來在1967年Cover, T.M.和Hart, P.E.在著作"Nearest neighbor pattern classification"當中制定了KNN的一些正式屬性,列如:當K=1且數據趨近於無限大,它的分類誤差不會超過兩倍的貝氏錯誤率。在基本的數學模型被確定之後,很多不同的演算法開始出現,例如考量兩筆資料點之間的距離,較鄰近的資料點分類有較高的權重比例,並且距離的算法也有很多種,像是Dudani, S.A的"The distance-weighted k-nearest-neighbor rule"和Bailey, T., Jain, A.的"A note on distance-weighted k-nearest neighbor rules"都有提到距離和權重的計算方法可供參考。 羅吉斯回歸(Logistic Regression)在Freedman, David A.(2009)的"Statistical Models: Theory and Practice"書當中也稱作羅吉回歸(logit regression)或是羅吉模型(logit model)。 羅吉回歸由統計學家Cox, David在1958年的著作"The regression analysis of binary sequences (with discussion)"中提出,另外在Walker, S.H.; Duncan, D.B. (1967) "Estimation of the probability of an event as a function of several independent variables"也有提到,廣義線性模型(GLM)主要在探討兩個變數之間的關係,分別是反應變數(依變數)與解釋變數(自變數),而羅吉斯回歸(logistic regression, LR)模型是GLM中重要的模型,用於反應變數只有兩種結果且為離散型資料。 樸素貝葉斯分類器(Naive Bayes Classifier)又稱作簡單貝葉斯(simple Bayes)或是獨立貝葉斯(independence Bayes)在Russell, Stuart和Norvig, Peter (2003)的著作書籍當中,但在Hand, D. J.和 Yu, K. (2001)的著作"Idiot`s Bayes — not so stupid after all?"當中稱它不一定使用到貝氏機率(Bayesian probability),所以將它叫做傻瓜貝葉斯模型。這個分類器的主要假設為各個變數之間為強獨立,再運用貝氏定理作為基礎,是一個演算法簡單的機率分類器,自20世紀50年代已廣泛研究,Rennie, J.和 Shih, L.提出經由適當的處理後,它可以與現代更先進的分類器演算法相競爭。Rish, Irina於2001年發表的論文中,將它應用在自動醫療診斷上。 人工神經網路(artificial neural network)也稱作類神經網路,簡稱ANN,模仿生物神經網路結構的演算法,特別是生物的大腦,擁有自我學習的能力。McCulloch, Warren和 Pitts,Walter在1943年用數學基礎和一種稱為閾值邏輯的演算法創造了神經網路的計算模型,接著在1940年代末期,心理學家Donald Hebb根據神經可塑性的機制創造了一種對學習的假說,稱作赫布型學習,屬於非監督式學習,並將此模型運用在圖靈機上。 Farley, B.G.和 Clark, W.A.在1954年首次用電腦模擬了赫布網路,接著Frank Rosenblatt設計了感知器加入模型中,他用簡單的加減法實現了兩層的電腦學習網路,並用數學符號描述了迴路,但是其中的異或迴路一直無法被神經網路處理直到Werbos, Paul(1975)創造了反向傳播演算法。再之後的30年,由於大型神經網路所需要的很長的計算時間,導致研究進展緩慢,直到最近人工智慧與深度學習重新激發了人們對神經網路的興趣。 支援向量機(Support Vector Machine)簡稱SVM,此分類模型的任務是找出一個適當的超平面並將資料分成兩類。最初的演算法是由Vapnik, Vladimir N.和Chervonenkis, Alexey Ya.在1963年發明的,到了1992年Boser, Bernhard E.、 Guyon, Isabelle M.和Vapnik, Vladimir N.在著作"A training algorithm for optimal margin classifiers"中提到將核技巧應用於最大間隔超平面來建立非線性分類器的方法,隨後Cortes, Corinna和Vapnik又提出線性SVM分為硬間隔和軟間隔兩種。SVM目前已被廣泛的運用在文字與超文字的分類、圖像或是手寫字型的辨識,另外在醫學影像分析的"Spatial regularization of SVM for the detection of diffusion alterations associated with stroke outcome"著作中用SVM來分類蛋白質,辨識成功率超過九成,是在生物科學中具有特殊意義且相對較新的研究領域。 |