《《企业智慧报告》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《企业智慧报告》PPT课件.ppt(31页珍藏版)》请在三一办公上搜索。
1、企業智慧報告,應用關聯規則探勘台灣地區果品批發市場行情資料庫之研究 作者:蔡佳純、范慧華、楊志平、彭克仲 報告者:林士群、韓佳軒、陳柏翰 班級:碩工管二甲 指導老師:葉榮懋Journal of the Agricultural Association of China 中華農學會報8(6):537-553,2007,前言(1/2),果品為我國重要農產品,近五年來台灣果品產值皆超過500億元,約佔農業總產值的20%上下,僅次於畜產類。又國內每人每年糧食可供消費量中果品類為各類農產品消費量之首,由此可知果品類在國人的食品消費上具有重要地位。果品市場行情資料庫中,包含大量的果品種類、平均價格及交易量
2、等批發交易資料,其中蘊藏著豐富、有用的資訊,若能深入處理與分析,可找出隱藏在資料庫中有用的資訊和知識,作為作業控制或經營決策參考。,前言(2/2),本文利用資料探勘處理大量資料的優點,並以關聯規則為研究工具,從果品批發市場行情資料庫中,尋找果品間價格、交易量及價與量之間變動的關聯。本研究之目的將以關聯規則尋找果品間的的相關性,且尋找果品批發市場中,共同存在的關聯規則,以暸解台灣果品批發市場存在共同現象,以供果菜批發市場經營管理者及農政單位之參考。,資料探勘,資料探勘起源與定義資料探勘流程資料探勘的功能資料探勘的應用技術,1.資料探勘起源與定義,資料探勘早在第二次世界大戰前,美國政府已經使用在人
3、口普查、軍事方面1991年Fayyad提出資料探勘的觀念,其目的為龐大的資料中找出規則資料探勘是一個可為企業增加競爭優勢的分析工具資料探勘乃是從儲存於資料倉儲中的大量資料探勘出有意義的新關聯、新型樣與新趨勢,2.資料探勘流程,資料探勘流程包括選取輸入資料、轉換資料、執行探勘功能及解釋結果四步驟,如圖1所示,3.資料探勘的功能,資料挖掘主要提供下列五項功能:分類:依據分析對象的屬性加以分類,並建立群組。推估:經由既有連續性數值之相關屬性資料,以獲致某一屬性未知之值。預測:根據對象屬性之過去觀察值來預測該屬性未來值。關聯分組:探討大型資料庫中,某些資料屬性項目會引起其他項目出現的關聯規則。群集化:
4、將許多不同的群組,分成一些更相似的子群組或群集。,4.資料探勘的應用技術(1/2),Simoudis(1996)將資料探勘的技術分為兩種:驗證導向:驗証之前的假設檢定,多用來預測未來的行為模式。發掘導向:經過一連串的資料或案例,以發現新的規則,多運用在發掘現存但未知的模式,並以容易了解的方式呈現。,資料探勘的應用技術(2/2),表1將數個常見的資料挖掘技術做一整理描述。,關聯規則與演算法,關聯規則Apriori演算法,關聯規則(1/3),關聯規則最早由Agrawal(1993)提出,主要是用來找出資料庫中項目間的關聯性。由於具備描述項目關聯性特點,因此常被用來發現不同商品間的銷售關聯性或客戶的
5、消費習慣。,關聯規則(2/3),關聯規則各項用詞及定義說明如下:項目集(itemset):欲討論項目組成的集合,通常以 來表示D:交易資料庫。TID:每一筆交易資料之單一識別交易序號X、Y為包含數個項目之項目集X T表示一交易資料T包含項目集X關聯規則形式如下:X=Y,表示XT,Y T且XY=;此關聯規則的含意是若購買X也可能會購買Y支持度:項目資料集在資料庫中所佔的比例,若佔比例最高,則此項集合稱為最大項目集信賴度:代表分析項目集在主要項目集中所佔有的條件比例程度。最小支持度:使用者自訂之支持度門檻值,以百分比表示,可視為關聯規則中特徵出現之比例最小信賴度:使用者自訂之支持度門檻值,以百分比
6、表示,可視為關聯規則之強度候選項目集:由LK中項目集兩兩結合組成長度為K+1之項目集,表示為Ck+1 高頻項目集:符合最小支持度之項目集。,關聯規則(3/3),數量規則關聯分析,可分為以下三類:簡單關聯規則:其形式如(X=a)(Y=b),其中X、Y為項目名稱,a、b為項目的購買數量。一般關聯規則:其形式如(X3)(Y2)。語意關聯規則:運用語詞的形式去表達規則,可能的形式如(X is of large quantity)(Y is of small quantity)。,Apriori演算法(1/2),在1994年首先由Agrawal提出為關聯規則最代表性的演算法之Apriori利用簡單且循序
7、漸進的方式,找出資料項目間的關聯規則。,Apriori演算法(2/2),Apriori演算法分為四個階段:發掘高頻項目集L1產生候選項目:高頻項目集組合刪減候選項目集掃描整個資料庫,根據刪減後之Ck+1進行比對,找出Lk+1。重複以上步驟,直到無法發掘出高頻項目集為止,並根據發掘之高頻項目集推導出關聯規則,資料庫簡述與選取(1/3),資料庫來源資料來源為行政院農委會農糧署農產品交易行情資料庫,有效資料共有11個水果批發市場之行情交易資料。資料庫選取範圍研究選取台北一市、台北二市、三重市、台中市、嘉義市、高雄市六個消費地果品批發市場。資料庫選取期間研究選取1996年元月至2004年2月之夏季、冬
8、季果品。資料類型由於月資料大多用於生產種植與投資決策,對於短期銷售決策助益不大,基於研究之目的,選取果品日交易資料作為資料類型。,資料庫簡述與選取(2/3),進行資料探勘前,需將資料庫進行前置處理,將無效、重複資料清除,並將資料轉為探勘之格式,已利探勘之進行與結果之解讀。下圖為資料探勘詳細流程:,資料庫簡述與選取(3/3),將原始資料匯入SQL Server農委會所提供資料庫格式為 Access 格式,須利用 SQL Server 所提供的 DTS 功能,將原始資料 Access 資料庫轉至 SQL Server 資料庫。為方便 SQL 查詢語法之使用,在資料轉換時將原始欄位由中文名稱轉為英文
9、代號,並將資料型態予以規定如下表。,資料分析,前言各果品資料庫之高頻項目果品資料庫之高信賴度關聯法則資料探勘結果與文獻之比較研究結果與文獻研究結果相似之處陳淑恩(1997)黃哲悠(1999)探勘結果不同於文獻的新發現,前言(1/2),本研究探勘果品之間的價、量間的關聯,但有些規則屬於直覺性、無意義的規則,需予以刪除,故本研究設置三條判別標準來過濾無意義的關聯規則。,前言(2/2),判別標準設定標準值,未達到指標值之規定,予以刪除刪除符合需求法則之規則若價格、交易量、價量變動呈現中等事件,予以刪除,資料分析,(一).各果品資料庫之高頻項目將初步探勘得到的關聯規則以判別標準過濾之後,得到有趣的關聯
10、規則。(二).果品資料庫之高信賴度關聯法則探討各果品資料庫中高信賴度之關聯規則,藉以了解果品間具有的強烈關聯。(三).資料探勘結果與文獻之比較高信賴度表示項目之間關係較密切,故本研究選取大於80%之高信賴度關聯規則與果品相關文獻進行比較。,資料探勘結果與文獻之比較,研究結果與文獻研究結果相似之處陳淑恩(1997)藉由問卷調查,發現鳳梨較具競爭性者有瓜類、荔枝、木瓜、芒果、國產梨。蓮霧較具競爭性者有椪柑、瓜類、棗子、番石榴、進口蘋果。木瓜較具競爭性者有鳳梨、瓜類、芒果、荔枝、國產梨。文獻結果相似之關聯規則如下表:,由上表說明:規則1、2可發現鳳梨、木瓜、芒果有所關聯。規則 3 6 可發現蓮霧與椪
11、柑、洋香瓜、番石榴有所關聯。規則 7 10 中,高信賴度之規則皆有木瓜和世紀梨同時出現,可看出木瓜和世紀梨有一定關聯。,黃哲悠(1999)以冬季果品為研究對象,發現互有互補果品為:(香蕉、柳橙),(柳橙、香瓜),(柳橙、椪柑),(香瓜、椪柑),(香蕉、番石榴),(香瓜、番石榴),(椪柑、番石榴);替代果品為:(柳橙、番石榴)。文獻結果相似之關聯規則如下表:,由上表說明:規則 1、2 可發現柳橙和番石榴有所關聯。規則 3、4 可發現洋香瓜和甜橙柳橙有所關聯。規則 4 6 可發現椪柑和柳橙所有關聯。,探勘結果不同於文獻的新發現,根據上述高信賴度之關聯規則,可發現部分果品同名不同種之間,容易發生相同
12、事件。較常發生此現象的果品為:番石榴中的水晶芭、世紀芭、珍珠芭芒果中的愛文、金煌鳳梨中的台農一號、金鑚推論應是生長環境和產季一致,若天候發生變動而影響其產量,其反應也一致。,結論(1/3),本研究針對台灣地區消費地果品批發市場交易行情資料庫進行資料探勘,先將果品每日價格、交易量及價、量變動的資料轉換成語意型式,再利用關聯規則尋找果品之間的相關性,探勘出大量的關聯規則之後,運用設立的判別標準進行刪除,以尋找果品間有趣的關聯規則。研究結果顯示如下:六個果品批發市場夏季共同主要高頻項目果品為:木瓜網室紅肉、番石榴珍珠芭、芒果金煌、黑葉荔枝、鳳梨台農一號、鳳梨金鑽、新興梨、美濃甜瓜、檸檬。六個果品批發
13、市場冬季共同主要高頻項目果品為:木瓜網室紅肉、軟枝蜜絲楊桃、柳橙、葡萄柚紅肉、紅蓮霧、椰子、釋迦。,結論(2/3),當季果品較四季皆產的果品更為敏感,較容易受到其他因素影響而產生變動。由各市場中,探勘出可能具有關聯性之果品如下:(1)台北一市果品批發市場:金鑽鳳梨和木瓜網室紅肉;世紀芭和 珍珠芭;柳橙和世紀芭。(2)台北二市果品批發市場:珍珠芭、芒果愛文海頓和芒果金煌;檸檬、酪梨和百香果改良種。(3)三重市果品批發市場:進口紅肉葡萄柚和甘蔗。(4)台中果品批發市場:酪梨和檸檬;小番茄、紅蓮霧洋香瓜;泰 國芭、柳橙和碰柑。(5)嘉義市果品批發市場:金煌芒果、鳳梨台農一號與香蕉;木瓜 網室紅肉和世紀梨;釋迦、洋香瓜和葡萄柚。(6)高雄市果品批發市場:新興梨和金煌芒果;檸檬和酪梨;紅肉 葡萄柚和柳橙。,結論(3/3),各果品資料庫所存在的高信賴度關聯規則中,雖不能明確指出果品之間的關係,但可藉由其高信賴度,判斷出其彼此間可能具有強烈相關性。應用資料探勘的關聯法則,可有效的尋找到果品批發市場中果品間的相關性及市場中共同存在的現象,可讓市場經營者在果品選項的搭配上求得最大利潤,在未來農政單位面對果品價格的波動上,可有預警的措施。與過去文獻比較後,發現並非所有同名異種果品皆會發生相同事件,且部分非直接食用之果品關係被忽略,例如:檸檬和酪梨。,
链接地址:https://www.31ppt.com/p-5460815.html