资讯检索与知识探勘.ppt
《资讯检索与知识探勘.ppt》由会员分享,可在线阅读,更多相关《资讯检索与知识探勘.ppt(99页珍藏版)》请在三一办公上搜索。
1、資訊檢索與知識探勘,簡介 主題檢索 關聯分析 自動分類 自動歸類 自動摘要 時間事件分析 系統展示 結語,曾元顯數位媒體中心國立台灣師範大學,文件資訊探勘,(text mining,knowledge discovery in text)意義:擷取隱晦、有用、未被發掘、有潛在價值的資訊或知識互動、反覆的過程來探索文件庫以發現新的、有趣的訊息或規律依賴人工解讀結果,使發現的訊息變成有用的資訊或知識具體項目(工具):資訊檢索、擷取、關聯、摘要、歸類、分類、時間事件分析應用:資訊搜尋、知識萃取、知識管理、犯罪分析、案例追蹤使用的技術:資料庫管理技術、統計、機器學習、人工智慧、資訊視覺化、資訊科學、圖
2、書館學、簡單的文字處理工具、處理流程的彈性串連考量的因素(面臨的挑戰):要能處理大量資料要能快速回應、提供互動性多面向、多維度的分析高階、視覺化的使用介面,主題檢索,意義:根據使用者的資訊需求,找出符合需求之文件或文字應用:前案檢索、相似案例檢索(技術專利、法院判例)案例比對案例關聯案例分類案例歸類案例時間事件分析使用技術:information retrieval、NLP、machine learning,自動索引,意義:對文件、詞彙進行分析、轉換、組織便於有效率的高階運用應用:檢索、關聯、分類、歸類、摘要、趨勢分析等工作的核心運算與結構使用的技術:Hash,trie,B-tree,fast
3、 sorting,data compression,Stemming,stopwords,ngrams,Authority control,thesaurus,topic map,ontology,Natural language processing,machine learning,File format parsing,language identification,Security control,user control,access control,robot,Support for different OSs,DBMS,platforms,資訊檢索的問題,字串不匹配(vocabu
4、lary mismatch):查詢詞與文件記載(或索引詞)不同同義:筆記型電腦vs筆記本電腦(形似),閣揆vs行政院長廣狹義:攜帶型vs掌上型,使用者需求差異大:同樣的檢索詞,但相關的文件會因人而異Known item search已知作者、人名;已知文件內的字串:嘿嘿嘿、這我不聽他的Unknown item search:無法精確表達查詢字串:人名、地名、機構名、專有名詞、特定領域名稱不知如何表達查詢字串:晶圓代工的發展前景、電視廣告對兒童的影響領域需求差異大:斷詞需求、查詢功能中醫工會:治虛寒,五香、加八角、加薑,加味米酒社文中心:Deng Xiaopings legacy 資料本身不一致
5、、不乾淨,檔案格式差異大民83年 vs 1994、年代日期格式不同異常標點符號、字碼、dash、single quote資料誤植、OCR 雜訊文字Data cleaning is required文件格式、資訊架構、作業環境需要解各種檔案格式:HTML、XML、Office、PDF、ZIP、EMAIL、BBS 資訊來源與權限控管:File systems、DBMS、Web、Notes,檢索系統的五個面向,可從這五點瞭解及預測核心檢索系統的表現(未考慮文件格式、權限控管、資訊架構)索引詞模式檢索模式權重模式索引檔結構查詢模式,索引詞模式,檢索系統建構索引詞所依據的方法關係系統比對查詢字串的能力以
6、詞彙為主(word-based)前組合詞庫更新不及、或涵蓋範圍不足,會有找不到資料的情形以字元為主(character-based)後組合中國會索引成中及國比對到含中國、國中或開發中的國家等文件N-gram索引法N-gram為文件中任意N個連續字元中國社會N=2時產生中國、國社、社會三個索引詞可排除或降低字元法中類似中國與國中的字串順序問題可省去詞彙法中維護詞庫的煩惱,檢索模式,系統比對檢索條件與相關文件的依據布林模式優點:速度快、檢索者可完全控制檢索過程,並預測檢索結果對需求明確的檢索(如明確的作者名、題名)非常有效缺點:結果沒照符合程度排序、一般使用者較難表達複雜查詢條件向量模式轉換文件及
7、查詢語句到向量空間後比對相似度,常用餘弦夾角(cosine)例:李遠哲院長、李院長遠哲兩詞,以(李,遠,哲,院,長,李遠,遠哲,哲院,院長,李院,長遠)為維度,得(1,1,1,1,1,1,1,1,1,0,0)與(1,1,1,1,1,0,1,0,1,1,1)兩向量餘弦夾角為7/9=0.78,在最高值為1的度量中,相似度為0.78可允許使用者輸入任意字串,查詢時不必受資料誤植、錯字、冗字的限制可概略稱為近似字串查詢、容錯查詢、或是模糊搜尋(fuzzy search)、近似自然語言查詢或自然語言查詢機率模式將查詢詞彙與相關文件的不確定性,以機率描述並加以運算亦可做到向量模式的查詢效果,兩者不同處在基
8、本假設與運算模式,向量權重模式,指定索引詞與查詢詞權重的方式權重因素:term frequency(TF)inverse document frequency(IDF)document length(normalization)positional informationNumber of hyperlinks(in-wards or out-wards)常用乘法原則將這些因素組合(不是很精確的作法)查詢詞:詞長、詞頻tf*(3w-1),where w is the length of the term文件詞:詞頻、文長、文件篇數TF*IDF=log(1+tf)*log(N/df)Docume
9、nt length normalization:byte size for document terms vs Cosine,索引檔結構,加快檢索的速度、影響檢索的成效反向索引檔(inverted file)記錄每個索引詞及其出現文件的編號,可直接取得包含某索引詞的所有文件特徵檔(signature file)將文件中編碼成0與1組成的特徵向量,檢索時,第一階段經特徵檔運算,過濾掉不可能的文件,第二階段把誤引(false drop)的文件剔除特色:可快速大量非相關文件的過濾索引建構速度快,漸進式索引(incremental indexing)製作容易隱含語意索引法(latent semanti
10、c indexing)運用向量空間運算縮減索引詞維度,並關連相關文件的方法文件、檢索條件都以此轉換矩陣轉換到縮減的向量空間,再運算相似度特色:轉換後,相關的詞彙會經由文件所包含的內容而產生關連特殊的搜尋樹B 樹:精確比對、後切截檢索、範圍查詢PAT樹後切截檢索、鄰近字串檢索、範圍查詢、最常出現的字串檢索,以及常規式檢索(regular expression search)等功能適合字典或辭典等較少更新的靜態資料庫,使用者查詢模式的進展,Boolean model/布林邏輯 Ranking/重要性排序 Fuzzy search/容錯式、近似字串、近似自然語言 Relevance feedback
11、/相關回饋、漸進式查詢、範例查詢 Information filtering/資訊過濾Query by dialog/個別化、對話式查詢 Query by voice/語音檢索 Query by natural language/自然語言檢索 Intelligent search agent/時空無礙、虛擬實境的檢索精靈,檢索的其他策略,相關詞提示(Term suggestion)相關詞回饋(Term relevance feedback)查詢詞擴展(Query expansion,relevance feedback),相關詞提示與相關詞回饋,檢索成效,非常倚賴檢索詞的品質從文件資料庫中擷取
12、統計上重要的詞彙,作為相關詞提示(term suggestion):由互動方式挑取檢索詞相關回饋(relevance feedback):檢出文件中挑取重要特徵回饋系統相關文件回饋(document relevance feedback)相關詞回饋(term relevance feedback)相關回饋的優點:免除使用者選擇檢索語彙與設計查詢條件的細節,允許建構有用的檢索條件而不用對檢索環境及資料庫有深入瞭解;拆解檢索過程成一步步較小的步驟,可以逐漸逼近所要檢索的主題;提供一個控制的查詢修改過程,終端使用者僅需最少的訓練就可有效而合理的進行檢索相關詞提示:Altavista(LiveTopi
13、c,1996,Java-based Interface)英文單字詞回饋 Excite:about 1997,keyword selling,關聯分析,詞彙關聯:索引典、標題表文件關聯:歸類概念關聯:分類,前言,檢索失敗的主要因素之一:字彙不匹配問題查詢詞與索引詞不相同的情況例:筆記型電腦與筆記本電腦,行政院長與閣揆改進方法:查詢擴展、權威檔、索引典查詢擴展(query expansion)加入更多與查詢主題相關的詞彙,或更改查詢詞的權重權威檔(authority file)記錄及解決同義異名詞的工具索引或檢索時,將各種同義異名詞對應起來,視為相同的詞彙處理,前言,索引典(thesaurus)除
14、同義詞外,還有紀錄廣義詞、狹義詞、反義詞、相關詞等列舉主題詞彙,將詞彙間的語意或主題關係標示出來的知識庫查詢時,可互相推薦,以擴展或縮小查詢範圍,或提示相關概念的不同查詢用語例攜帶型電腦:筆記型電腦、掌上型電腦使檢索從字串比對層次,提升到語意比對層次人工製作索引典,準確度高,但召回率低、成本大、建構速度慢、事先選用的詞彙可能與後續或其他新進的文件無關一般目的索引典運用在特定領域的文件檢索上,無法提升檢索效能針對每一種文獻領域製作索引典,耗時費力,前言,共現索引典(co-occurrence thesaurus)利用詞彙的共現性,自動建構詞彙關聯(term association)或稱關聯詞庫成
15、本低、建構速度快、召回率高、與館藏文件用詞一致,但準確率低詞彙關係:主題相關,不一定語意相關例:李登輝與康乃爾、中華電訊與ADSL,研究方法,文獻探討、技術瞭解、優缺點分析、適用範圍分析歸納重點提出改進方法實驗測試成效比較不同研究之間的比較同一研究內,對照組之比較提出適用情況與應用方向持續評估與改進,相關研究:Salton 89,Salton 曾提出建構共現索引典的架構:算出各個詞彙間的相似度相似度:詞彙在各文件之間,共同出現的情形(或主題相似度)重要的索引詞彙,任兩詞彙皆拿來比對相似度計算量至少 M2,M:所有重要詞彙的個數依此相似度將詞彙歸類成索引典類別(thesaurus classes
16、)(或主題類別),Tj=(d1j,d2j,dnj),n:所有文件的個數,相關研究:Salton 89,歸類方式,主要有:Complete-link:一開始,每個詞彙(元素),都單獨視為一類兩個類別之間的相似度,若超過某個門檻值,就結合並歸成同一類,如此重複歸類兩個類別之間的相似度,定義為跨類別元素之間相似度最低者易產生多數個索引典類別(thesaurus class),但每類僅有少數個詞彙Single-link:同上述作法,但兩個類別之間的相似度,定義為跨類別元素之間相似度最高者易產生少數個類別,但每類都有大量的詞彙透過共現索引典的查詢擴展,檢索成效的召回率,通常可提升 10%至 20%小結:
17、歸類運算量太大,運用在大量文件上,耗時長久,相關研究:Chen 96,相關研究:Chen(JASIS 95),定義非對稱的詞彙相似度詞彙 Tj 在文件 i 中的權重:詞彙 Tj 及 Tk 在文件 i 中的權重:Cluster_weight(Tj,Tk)Cluster_weight(Tk,Tj)若Tj=Artificial Intelligence,wj=2,相關研究:Chen(JASIS 95),從 4714 文件中(共 8 MB),產生了 1,708,551 個詞對(co-occurrence pairs)由於關聯詞對太多,每個詞,限制其關聯詞數最多100 個,如此刪除了 60%的詞對,剩下
18、 709,659 個詞對(由 7829 個不同的詞組成)產生上述的詞對,在 Sun Sparc 工作站上要花 9.2 CPU 小時、磁碟空間 12.3 MB 成效評估:6個受試者,16 個預選的詞,請每個受試者先就每個詞,聯想出相關的詞彙;再從系統提示的關聯詞,判斷哪些是相關或不相關兩種結果比較,召回率分別為 28.60%與 61.89%;精確率為 77.08%及 24.17%小結:人工聯想精確率高、召回率低;機器產生關聯詞較多、準確度較低,相關研究:Sanderson and Croft(SIGIR99),概念階層的範例:from Sanderson and Crofts paper,相關研
19、究:Sanderson and Croft(SIGIR99),目的:從檢出的文件中自動產生概念階層(concept hierarchies),便利使用者瞭解檢出文件的大致內容第一步:詞彙選擇(決定哪些詞彙要列在概念階層中):來源 1:檢索結果的前幾篇中比對程度較佳的段落裡,找出常常一起出現的詞彙來源 2:每一篇檢出文件的最相關段落裡,取符合下列條件的詞彙:(df_in_retrieved_set/df_in_collection)=0.1 者平均從 TREC 的每個查詢結果的前 500 篇文件中,擷取出 2430 個詞第二步:詞彙關聯分析:任意兩個詞都拿來做 包含 關係(subsumption
20、 relationship)比較:P(Tj|Tk)=1 and P(Tk|Tj)=0.8 and P(Tk|Tj)1,if Tj 包含 Tk平均每個查詢擷取出 200 包含對(subsumption pairs)由這些 包含對 產生 概念階層,即包含者為父節點,被包含者為其子節點,相關研究:Sanderson and Croft(SIGIR99),成效評估:測試包含者與被包含者的關聯程度(relatedness)由 8 個受試者判斷,67%包含對被判斷為相關(interesting for further exploring)比較:51%詞彙對(隨意配對,而非用包含關係配對者)被判斷為相關小結
21、:此方法在查詢時才進行,查詢反應時間會受影響提示的詞彙只限於檢索結果的前N篇,不是一個 全域索引典(global thesaurus)隨機配對,關聯度高,顯示詞彙選擇的重要性,關聯詞分析,先前的作法共現性的單位為文件兩個詞彙在文件中距離越大,關係密切的可能性越低 需要分析的詞對個數多,許多詞對的關聯分析徒勞無功計算量:M2n,M:所有詞彙個數,n:所有文件個數例:n=10,000,M=10,000(M=1000),計算量:1012(1010)新的作法共現性的單位縮小到段落或句子需要分析的詞對個數少計算量:K2Sn,K:文件關鍵詞數,S:文件句子數,n:同上例:n=10,000,K=30,S=2
22、0,計算量:6x106,關聯詞分析:新的方法:Tseng 2002,主要分二個步驟:擷取個別文件的關鍵詞關鍵詞的關聯分析與累積關鍵詞擷取關鍵詞:文件內有意義且具代表性的詞彙關鍵詞:呈現文件主題意義的最小單位各種文獻自動化處理的必要步驟。關鍵詞的認定是主觀的判斷,不利於電腦的自動處理重複性假設:如果文件探討某個主題,那麼應該會提到某些特定的字串好幾次具有客觀性、可自動處理假設簡單,可適用於不同領域,關聯詞分析:新的方法:Tseng 2002,第一步:詞彙選擇:每篇文件先用 詞庫(長詞優先法)斷詞再由關鍵詞擷取演算法 擷取關鍵詞(至少出現2次者)(包含新詞)以 停用詞 過濾擷取出的關鍵詞,並依詞頻
23、(term frequency)高低排序選 詞頻最高的 N 個詞作關聯分析第二步:詞彙關聯分析:每篇文件選出來的詞,以 DICE公式計算兩個詞彙的 權重wgt關聯詞 的權重超過門檻值(1.0)者,才依下面公式累積其權重關聯詞 的最後相似度定義為:原方法:僅單純累加每對關聯詞的權重新方法:加入 IDF(inverse document frequency)及 詞彙長度,關鍵詞自動擷取方法,比較:詞庫比對法:詞庫需持續維護更新統計分析法:容易遺漏統計特徵不足者 文法剖析法:需詞庫、詞性標記等資源與運算適合作為關鍵詞的名詞片語少於 50%Arppe 1995,關鍵詞自動擷取方法 Tseng 97,9
24、8,99,2000,找出最大重複出現字串(maximally repeated pattern)的演算法token:一個中文字(character)或英文字(word)n-token:輸入文字中,任意連續的 n tokens(與 n-gram 類似)演算法三步驟:步驟一:轉換輸入文字成 2-token 串列步驟二:依合併規則重複合併 n-tokens 成(n+1)-tokens,直到無法合併步驟三:依過濾規則,過濾不合法的詞彙,關鍵詞自動擷取過程範例,輸入文字:“BACDBCDABACD”,假設 門檻值=1步驟一:產生 L=(BA:2 AC:2 CD:3 DB:1 BC:1 CD:3 DA:1
25、 AB:1 BA:2 AC:2 CD:3)步驟二:token 合併:第一次:合併 L 成 L1=(BAC:2 ACD:2 BAC:2 ACD:2)丟掉:(BA:2 AC:2 CD:3 DB:1 BC:1 DA:1 AB:1 BA:2 AC:2 CD:3)留住:(CD:3)第二次:合併 L1 成 L2=(BACD:2 BACD:2)丟掉:(BAC:2 ACD:2 BAC:2 ACD:2)留住:(CD:3)第三次:合併 L2 成 L3=()丟掉:()留住:(CD:3 BACD:2)步驟三:無須過濾,關鍵詞自動擷取範例 Tseng 2000:英文範例,Web Document Clustering:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资讯 检索 知识 探勘
链接地址:https://www.31ppt.com/p-4947390.html