Ch3 語料庫:語言智識ê另外一種表達形式.ppt
1,計算語言學概論,Ch3 語料庫:語言智識另外一種表達形式楊允言,2,3.1 語料庫研究概況,Khng語言材料倉庫語料庫khng 是ti語言實際使用中真正出現過語言材料語料庫是khng ti電腦內底語言智識基礎資源真實語料愛經過分析、加工、處理,chiah會tng chin做有路用基礎資源,3,3.1 語料庫研究概況-2,中研院平衡語料庫企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na),都(D)已(D)因(Cbb)他們(Nh).London-Lund英語口語語料庫arent you.going to sit d/own#-/quite a nice.room to!sit in(actually)#/語料庫內底語言材料是真實書面語iah是口語,並且ti這個基礎頂面,做語言學加工kah分析,4,3.1 語料庫研究概況-3,語料庫分類書面語 vs 口語單語 vs 雙語 vs 多語為著無kng 應用目標,做無kng層次加工,5,3.1 語料庫研究概況-4,語料庫應用編辭典 Lexicography(專家 vs 語料)語言學研究歷時(台語ti無kng時代差異)共時(kang時陣 華語(台灣、中國、新加坡、香港、)/英語(美國、英國、澳洲、)語言教學文學/社會學研究,6,3.1 語料庫研究概況-5,語料庫發展簡史Chomsky反對語料庫研究自然語言本身會tng產生無限話句,語料庫koh-khah大,ma kan-na是一小部分真實語料一般無包括錯誤話句,ma無包含無禮貌話句研究者個人語言直覺ti語言研究中重要性,7,3.1 語料庫研究概況-6,第一代:1970年代1980年代Brown Corpus美國Brown大學ti 60年代初期,建立世界第一個根據系統性原則採集樣本標準語料庫,規模是100萬word tokens,代表當時美國英語。70年代,利用規則方法建立詞性標記系統TAGGIT,正確率大約77%,8,3.1 語料庫研究概況-7,第一代:1970年代1980年代LOB Corpus70年代初期,英國Lancaster大學語言學家Leech提議,Norway Oslo大學主持,最後khng ti Norway Bergen大學Norway人文科學計算中心80年代Leech領導 UCREL(Univ.Centre for Corpus Research on Language)研究小組替LOB設計133個標記,用統計方法開發CLAWS詞性標記系統,正確率有96%,9,3.1 語料庫研究概況-8,第一代:1970年代1980年代London-Lund Corpus(LLC)60年代初期,錄2000點鐘 講話kah廣播語料,整理做書面資料後來瑞典 Lund 大學ka轉做電子檔案,1975年建立 London-Lund 英語口語語料庫以上三個語料庫lng khng ti Norway Bergen大學 ICAME(International Computer Archive of Modern English)資料庫內底,10,3.1 語料庫研究概況-9,第二代:1980年代1990年代COBUILD語料庫第一個為著編辭典建立語料庫。英國Birmingham大學kah Collins出版社合作,規模是2,000萬詞1987年出版英語辭典,詞條選擇、用法說明、解說、例句lng 根據語料庫,11,3.1 語料庫研究概況-10,第二代:1980年代1990年代Longman語料庫80年代開始建立,包括(1)Longman/Lancaster英語語料庫(2)Longman口語語料庫(3)Longman英語學習語料庫目標:編英語學習辭典,服務學習英語外國人規模:5,000萬詞第二代i純學術研究行向編辭典應用,而且商業上得著成功,12,3.1 語料庫研究概況-11,第三代:1990年代ACL/DCI 語料庫美國計算語言學會(ACL)提議發起收集範圍包括Wall Street Journal、Collins英語辭典、Brown Corpus、Upenn tree bank、部分雙語/多語文本包括tagged corpus kah untagged corpus(raw corpus)採用SGML(Structured Generalized Markup Language),Tagging遵照 TEI(Text Encoding Initiative)標準,13,3.1 語料庫研究概況-12,第三代:1990年代UPenn Tree Bank80年代尾開始,對語料進行句法結構標注1993年,完成將近300萬英語詞話句句法結構標注2000年,LDC(Linguistic Data Consortium)發行UPenn 簡體中文tree bank,10萬詞/4,185個話句。,14,3.2 語料收集kah加工,建立語料庫牽涉三個方面語料收集規模:百萬/千萬/億/詞級領域:政治/經濟/體育/心理學/體裁:文學/應用文/新聞/時代:共時/歷時語體:書面語/口語語種:單語/雙語(平行/比較 語料庫)/多語語言層次:語音/語法,15,3.2 語料收集kah加工-2,建立語料庫牽涉三個方面語料加工資料形式:TEXT/HTML/資料庫/編碼系統:TEI標準/自訂/加工層次:詞性/句法/語意/語篇/雙語 句對齊/詞對齊/加工方式:自動/半自動/人工語料應用:應用領域:通用/編辭典/機器翻譯/輔助軟體:檢索工具/User Interface/,16,3.2 語料收集kah加工-3,收集語料愛注意版權編碼問題文件大細(siun大文件是m是beh做sampling)語料選取標準(精品、有影響力、隨機揀選、流通、經典、容易得著、有統計樣本意義、符合語言規範、)各文類語料比例,17,3.2 語料收集kah加工-4,TEI下面 CES(Corpus Encoding Standard)語料庫 標記 應該 有 規範,18,3.2 語料收集kah加工-5,語料庫加工層次詞性標記(Part-of-speech tagging)句法標記(Grammatical parsing)詞義標記(Word sense tagging)篇章指代標記(Anaphoric annotation)韻律標記(Prosodic annotation)加工過語言材料,對相關研究提供訓練資料,ma chin做評估演算法客觀標準,19,3.2 語料收集kah加工-6,短語(chunk)分析因為句法分析khah困難根據詞性標記基礎,繼續做短語標記egS 文化/n 建設/v P 是/v O 一/m 個/q chin/d 闊/a 而且/c koh/d 複雜/a/e 概念/n。S:主語短語 P:述語短語 O:賓語短語,20,3.2 語料收集kah加工-7,語料庫加工工具通用工具文本過濾:ka無kang格式轉做pure text文本分類:自動判別文類校對/標記檢查專用工具斷詞/詞性標記詞義標記短語標記句法標記雙語語料對齊(alignment),21,3.2 語料收集kah加工-8,Alignment利用話句長度(length-based)利用語詞(word-based)Length-based alignment基本假設source language(L1)vs target language(L2)長對長、短對短前對前、後對後,22,3.2 語料收集kah加工-9,Length-based alignment假設L1 一個語詞對應L2 語詞數量C是常態分佈N(c,s2),定義=(l2 l1c)/sqrt(l1s2),l1,l2是話句長度(字元數/語詞數)定義距離是 log P(match|),23,3.2 語料收集kah加工-10,對齊情形1 1d(x1,y1;0,0)1 0 d(x1,0;0,0)0 1d(0,y1;0,0)2 1d(x1,y1;x2,0)1 2d(x1,y1;0,y2)2 2d(x1,y1;x2,y2),24,3.2 語料收集kah加工-11,D(i,j)=min D(i,j-1)+d(0,tj;0,0),D(i-1,j)+d(si,0;0,0),D(i-1,j-1)+d(si,tj;0,0),D(i-1,j-2)+d(si,tj;0,tj-1),D(i-2,j-1)+d(si,tj;si-1,0),D(i-2,j-2)+d(si,tj;si-1,tj-1)其中,i=1,2,I,j=1,2,J(Source Language有 I個話句,Target Language 有J個話句,25,3.3 語料庫應用,語音辨識,26,3.3 語料庫應用-2,漢字拼音輸入xue xi dian nao ji shu候選字 xue 雪 學 血 薛 xi 系 喜 洗 西 dian 電 點 顛 典 nao 腦 鬧 撓 惱 ji 技 幾 及 機 季 shu 數 書 術 屬(14*98*14*15*167*68=9.5G+)候選詞 學習/血洗 電腦 級數/技術/基數/(2*1*7=14)正確:學習電腦技術(利用N-gram),27,3.3 語料庫應用-3,斷詞Mutual ImformationCorrelation,28,3.3 語料庫應用-4,句法分析(bottom-up)假設語法單位界線,會tng利用N-gram模型,計算詞性順序互訊息(MI)來判定eg:He directed the cortege of autos to the dunes near Santa Monica.pron v det n prep n prep det n prep n(He)(directed)(the cortege)(of autos)(to)(the dunes)(near Santa Monica)(He(directed(the cortege)(of autos)(to(the dunes)(near Santa Monica),29,3.3 語料庫應用-5,句法分析(top-down)切分率(Cuttability Measure)CM(ti,ti+1)=FE(ti)+BE(ti+1)MI(ti,ti+1)FE(ti)=-P(tj|ti)log P(tj|ti)BE(ti)=-P(ti|tj)log P(ti|tj)eg Jack 6.0Young 7.8is 7.4also 8.6a 3.9doubtful 4.9starter 10.8next 5.2year.,30,3.3 語料庫應用-6,平行語料庫翻譯詞對(word pair)eg 任何b存款n在p5m年q內f無v人n認領v,可d視g之u為p收v受v作v政府n用途n的u款項n,A/DT deposit/NN which/WDT is/VBZ unclaimed/JJ for/IN 5/CD years/NNS may/MD be/VB treated/VBN as/IN moneys/NNS received/VBN for/IN the/DT purposes/NNS of/IN the/DT Government/NP and/CC,31,3.3 語料庫應用-7,平行語料庫翻譯詞對(word pair)假設:已經有訓練資料(word pair candidates)方法:利用統計(MI/DICE/2/)Heuristic:詞類boe-tng siun離經(eg:n 對 prep)實驗結果:漢英翻譯用2會得著khah好結果(附註 remark 496.471/款 subsection 496.237 廢除 repeal 495.814/命令 order 493.915 詞句 expression 492.192/豁免exemption 490.829 附表 schedule 489.946/許可證 licence 488.87),