资料采掘方法规划导论.ppt
《资料采掘方法规划导论.ppt》由会员分享,可在线阅读,更多相关《资料采掘方法规划导论.ppt(27页珍藏版)》请在三一办公上搜索。
1、第二章 資料採掘方法規劃導論,1-2-1 資料採掘(Data Mining)運算技術應用分析,資料採掘技術可使得電腦不再限於被動地蒐集、儲存資料,它是可以主動協助使用者在龐大的資料堆中找出所需要的重點資料,並加以分析、預測。這種資料過濾分析的處理過程即稱為資料採掘(Data Mining)或資料探勘。也就是說資料採掘(Data Mining)演算技術是一種多用途的資訊軟體技術,此種技術可應用在各種主從式架構(Client/Server Structure)與網際Web 三層式或多層式(3-Tiers/N-Tiers)架構系統的商業邏輯程式規劃及設計上,然而,資料採掘(Data Mining)卻
2、是一種深奧的軟體技術,此種技術並不容易瞭解。且由於要運用資料採掘演算技術來處理各種資料分析,更要使用到很多艱澀的數學運算,因此,目前運用到資料採掘演算技術時,都是使用資料採掘專門軟體來設計或處理。,資料採掘軟體運算技術擁有非常多的演算法則與數學公式,但這些演算法則與公式最重要的目的只有兩個:(1)、使用資料採掘運算技術,利用快速的統計、分析、萃取各種異質大量資料來塑造及模擬真實世界中的模型(Model),利用這些模型來描述資料中的特徵(Patterns)及關係(Relations)。藉由瞭解資料的特徵與關係進而提供企業做決策所需要的資訊。(2)、使用資料採掘運算技術,分析及分類各種大量的歷史資
3、料,藉由歷史資料分析出的結論、及分析出歷史資料的特徵,來協助企業執行各種預測,如:銷售預測、毛利預測、成本預測等企業營運息息相關的各種預測。,1-2-2 資料採掘(DM,Data Mining)實作技術類型分析,資料採掘(DM,Data Mining)最大的用途是能在極大量的資料中,透過精密的分析運算、統計篩選及分層過濾,找出符合複雜查詢條件的有效資訊。此種經過分析、統計、篩選及過濾的運算邏輯,一般統稱為知識的採掘。而此種知識採掘的方法,在資料採掘(DM)中,稱為資料採掘方法(Data Mining Method)。目前最常用的資料採掘運算方法有下列幾種:(1)、關聯規則採掘方法(Associ
4、ation Rule Method)。(2)、群集分析採掘方法(Clustering Method)。(3)、決策樹採掘分析方法(Decision Trees Method)。(4)、預測查詢採掘(Prediction)分析方法。(5)、遺傳演算分析方法。(6)、回歸預測採掘分析方法。,6種常用的資料採掘方法(Data Mining Method)中,最常應用到商業應用系統的企業邏輯設計上的有3種,分別為:(1)、決策樹採掘(Decision Trees)分析方法。(2)、關聯規則採掘(Association Rule)方法。(3)、預測查詢採掘(Prediction)分析方法。此三種資料採掘
5、技術最重要的設計觀念在於決策與分析,與企業邏輯運算最終目的是一致的,所以非常適合用於規劃商用企業邏輯程式設計。,1-2-3 關聯規則採掘(Association Rule)方法概說,關聯規則(Association Rule)採掘方法是由 Agrawal 與 Srikant 於1994年提出的一種高效率的資料採掘方法,且關聯規則更是知識探索資料庫系統(KDD,Knowledge Discovery Database System)研究及探索的重要內容。所謂關聯規則(Association Rule)的採掘技術是指從交易資料庫中、挖掘及尋找具有特定關聯的規則。關聯規則採掘技術(Associati
6、on Rule)主要用途為用來描述資料庫中所有資料與資料間的關聯性。關聯規則最主要的採掘實作方法為:描述消費者在購買某些商品時,同時也會購買其他特定商品的機率。若使用程式分析角度來說明關聯規則採掘(Association Rule)的話,則可定義為從客戶交易資料庫中擷取出所有滿足特定搜尋條件的依賴性關係。,在資料採掘的所有關聯採掘規則的演算法中,最有名及最常用的有演算法就是Apriori演算法。所謂Apriori演算法是一種不斷掃瞄交易資料庫,利用層次過濾及消除的方法找出資料項目間的所有關聯規則的演算法。Apriori演算法的規劃處理方式說明如下:(1)、假設一個包含N個項目的項目集被稱為N-
7、項目集(N-Item-Set)。(2)、符號L-N表示所有大型N-項目集(Large N-Item-Set)所成的集合。(3)、Apriori演算法最重要的設計觀念就是使用上一個階段所採掘出的大型項目集做為產生下一階段大型項目集的依據。簡單的說,就是先找出所有大型L-項目集 L1,再利用L1 找出L2,然後利用L2找出L3,依此類推下去,直到下一個階段無任何大型項目集產生為止。(4)、Apriori演算法在實作時,為了減少在建立大型項目集時,花費過多的計算時間,因此Apriori 使用一個重要的設計觀念來減少搜尋資料庫的時間。那就是一個大型項目集的任何子集合也必定是大型項目集。(5)、Apri
8、ori 演算法實作設計時,最重要的是運用兩個特性來從主交易資料庫中來建立大型項目集(此項目也稱為候選項目集(Candidate Item Sets),此兩個特性分別為:結合及刪除。(6)、從字義上來看,所謂結合(Join)是指將可相互結合的大型項目集相結合來產生候選項目集。其實際設計流程為:A、結合大型(K-1)-項目集來產生候選K-項目集(candidate K-Item Sets)。B、假設X1和X2是兩個大型(K-1)-項目集,且項目集中的所有子項目都已依遞增方式排序完成。C、X1j代表項目集X1中的第j個項目,若X1和X2的前K-2個項目皆相同,且X1K-1 X2K-1(X1K-1 X
9、2K-1 的目的是為了避免產生重複的候選K-項目集),則X1和X2將被結合成一個候選K-項目集,即 X11,X12,X1K-1,X2K-1。,(7),Apriori 演算法實作設計時另一項特性就是刪除。在Apriori 演算法中,所謂的刪除是指將無法滿足於Apriori 演算法特性的候選項目集刪除。,1-2-4 決策樹採掘(Decision Trees)分析方法概說,決策樹(Decision Trees)採掘技術可說是所有資料採掘(Data Mining)運算技術中,最獨特及非常有用的一種分析及決策技術。在資料採掘中,所說的決策樹(Decision Trees)資料採掘技術是一種使用分類模式(
10、Classification Models)做為主架構的規劃設計方式,對特定資料執行二元、三元或多元的歸納分類來建立決策分析的邏輯判斷依據,此種類似樹狀結構(Tree-Structure)的架構,即稱為決策樹(Decision Trees)。在決策樹採掘技術中,最重要的一個決策分析依據就是分類。決策樹(Decision Trees)資料採掘技術使用分類最大的目的有三個:(1)、藉由分類(Classification)來瞭解特定族群或群組的特徵,進而使用族群或群組的特徵做為決策判斷的依據。(2)、藉由分類來尋找影響特定重要變數的因素,而此重要變數的因素是可以使用判斷運算來處理的。(3)、藉由分類
11、來建立分類處理的規則,例如:企業訂定業務行銷策略時,通常會使用產品分類來設定市場區隔。,資料採掘(Data Mining)決策樹(Decision Trees)演算技術與企業邏輯程式規劃有著非常密切的相似之處,筆者認為決策樹(Decision Trees)演算技術可說是資料採掘技術的邏輯判斷指令。因為決策樹演算技術中,每一個節點(Node)都是一個運算準則,而物件導向程式語言中的邏輯判斷敘述同樣是已一個邏輯運算準則來判斷敘述需執行的流程方向:IF THEN ELSEEND IF,資料採掘的決策樹(Decision Trees)的類型可分為下列3種類型:二元決策樹(Binary Decision
12、 Tree)、三元決策樹(Ternary Decision Trees)以及多元決策樹(N-Way Decision Trees)。,1-2-5 預測查詢採掘(Prediction)分析方法概說,資料採掘(Data Mining)演算技術擁有非常多的演算法則與實作數學公式,但這些演算法則與公式運用在企業邏輯設計時,最重要的應用目的只有兩個:(1)、決策(Decision):使用資料採掘運算技術,利用快速的統計、分析、萃取各種異質大量資料來塑造及模擬真實世界中的模型(Model),利用這些模型來描述資料中的特徵(Patterns)及關係(Relations)。藉由瞭解資料的特徵與關係進而提供企業
13、做決策所需要的資訊。(2)、預測(Prediction):使用資料採掘運算技術,分析及分類各種大量的歷史資料,藉由歷史資料分析出的結論、及分析出歷史資料的特徵,來協助企業執行各種預測,如:銷售預測、毛利預測、成本預測等企業營運息息相關的各種預測。,所以可說預測(Prediction)與決策(Decision)可說是資料採掘(Data Mining)運算技術要做到的兩個最重要功能。預測(Prediction)與決策(Decision)可說是一體兩面,簡單的說所謂的預測(Prediction)是指對未來發展的方向或可能產生的狀況做可能的猜測與判斷,依據這些猜測與判斷,來做出決策(Decision)
14、。因此可以說預測(Prediction)是一種對尚未發生的狀況做可能的研判,決策(Decision)則是對這些可能發生的狀況做出應對與回應。資料採掘的預測查詢(Prediction&Decision Data Mining)就是使用查詢(Query)的採掘技術來執行預測(Prediction)與決策(Decision)的分析與設計。,在擁有資料採掘技術的商務資訊應用系統中,預測(Prediction)與決策(Decision)的設計功能,依軟體架構的不同而有所差異:(1)、決策(Decision)運算技術通常應用在主從架構式(Client/Server)軟體應用功能上。由於決策功能在企業應用軟
15、體中是一種輔助主管或決策者訂定企業方向的重要功能,並不是所有使用者都可使用或查看的高階應用功能,因此不適於使用在WEB資料採掘架構的應用系統中,因為WEB資料採掘應用是一種開放式設計架構,是讓所有有權限的使用者來使用,因此在開放設計與使用式資料採掘應用中、決策(Decision)功能的設計只是屬於輔助應用,而在主從架構式資料採掘應用中,決策(Decision)則為主設計應用功能。(2)、預測(Prediction)對於企業邏輯運算應用上,預測(Prediction)不僅是一項高階的應用設計、更是一種商用決策支援系統的必備應用功能。在WEB資料採掘設計技術中,預測設計更比決策設計應用廣。而預測(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 采掘 方法 规划 导论
链接地址:https://www.31ppt.com/p-5844060.html