Ch3 語料庫:語言智識ê另外一種表達形式.ppt
《Ch3 語料庫:語言智識ê另外一種表達形式.ppt》由会员分享,可在线阅读,更多相关《Ch3 語料庫:語言智識ê另外一種表達形式.ppt(31页珍藏版)》请在三一办公上搜索。
1、1,計算語言學概論,Ch3 語料庫:語言智識另外一種表達形式楊允言,2,3.1 語料庫研究概況,Khng語言材料倉庫語料庫khng 是ti語言實際使用中真正出現過語言材料語料庫是khng ti電腦內底語言智識基礎資源真實語料愛經過分析、加工、處理,chiah會tng chin做有路用基礎資源,3,3.1 語料庫研究概況-2,中研院平衡語料庫企業(Na)競爭(VA)的(DE)遊戲(Na)規則(Na),都(D)已(D)因(Cbb)他們(Nh).London-Lund英語口語語料庫arent you.going to sit d/own#-/quite a nice.room to!sit in(a
2、ctually)#/語料庫內底語言材料是真實書面語iah是口語,並且ti這個基礎頂面,做語言學加工kah分析,4,3.1 語料庫研究概況-3,語料庫分類書面語 vs 口語單語 vs 雙語 vs 多語為著無kng 應用目標,做無kng層次加工,5,3.1 語料庫研究概況-4,語料庫應用編辭典 Lexicography(專家 vs 語料)語言學研究歷時(台語ti無kng時代差異)共時(kang時陣 華語(台灣、中國、新加坡、香港、)/英語(美國、英國、澳洲、)語言教學文學/社會學研究,6,3.1 語料庫研究概況-5,語料庫發展簡史Chomsky反對語料庫研究自然語言本身會tng產生無限話句,語料庫
3、koh-khah大,ma kan-na是一小部分真實語料一般無包括錯誤話句,ma無包含無禮貌話句研究者個人語言直覺ti語言研究中重要性,7,3.1 語料庫研究概況-6,第一代:1970年代1980年代Brown Corpus美國Brown大學ti 60年代初期,建立世界第一個根據系統性原則採集樣本標準語料庫,規模是100萬word tokens,代表當時美國英語。70年代,利用規則方法建立詞性標記系統TAGGIT,正確率大約77%,8,3.1 語料庫研究概況-7,第一代:1970年代1980年代LOB Corpus70年代初期,英國Lancaster大學語言學家Leech提議,Norway O
4、slo大學主持,最後khng ti Norway Bergen大學Norway人文科學計算中心80年代Leech領導 UCREL(Univ.Centre for Corpus Research on Language)研究小組替LOB設計133個標記,用統計方法開發CLAWS詞性標記系統,正確率有96%,9,3.1 語料庫研究概況-8,第一代:1970年代1980年代London-Lund Corpus(LLC)60年代初期,錄2000點鐘 講話kah廣播語料,整理做書面資料後來瑞典 Lund 大學ka轉做電子檔案,1975年建立 London-Lund 英語口語語料庫以上三個語料庫lng k
5、hng ti Norway Bergen大學 ICAME(International Computer Archive of Modern English)資料庫內底,10,3.1 語料庫研究概況-9,第二代:1980年代1990年代COBUILD語料庫第一個為著編辭典建立語料庫。英國Birmingham大學kah Collins出版社合作,規模是2,000萬詞1987年出版英語辭典,詞條選擇、用法說明、解說、例句lng 根據語料庫,11,3.1 語料庫研究概況-10,第二代:1980年代1990年代Longman語料庫80年代開始建立,包括(1)Longman/Lancaster英語語料庫(
6、2)Longman口語語料庫(3)Longman英語學習語料庫目標:編英語學習辭典,服務學習英語外國人規模:5,000萬詞第二代i純學術研究行向編辭典應用,而且商業上得著成功,12,3.1 語料庫研究概況-11,第三代:1990年代ACL/DCI 語料庫美國計算語言學會(ACL)提議發起收集範圍包括Wall Street Journal、Collins英語辭典、Brown Corpus、Upenn tree bank、部分雙語/多語文本包括tagged corpus kah untagged corpus(raw corpus)採用SGML(Structured Generalized Mar
7、kup Language),Tagging遵照 TEI(Text Encoding Initiative)標準,13,3.1 語料庫研究概況-12,第三代:1990年代UPenn Tree Bank80年代尾開始,對語料進行句法結構標注1993年,完成將近300萬英語詞話句句法結構標注2000年,LDC(Linguistic Data Consortium)發行UPenn 簡體中文tree bank,10萬詞/4,185個話句。,14,3.2 語料收集kah加工,建立語料庫牽涉三個方面語料收集規模:百萬/千萬/億/詞級領域:政治/經濟/體育/心理學/體裁:文學/應用文/新聞/時代:共時/歷時語
8、體:書面語/口語語種:單語/雙語(平行/比較 語料庫)/多語語言層次:語音/語法,15,3.2 語料收集kah加工-2,建立語料庫牽涉三個方面語料加工資料形式:TEXT/HTML/資料庫/編碼系統:TEI標準/自訂/加工層次:詞性/句法/語意/語篇/雙語 句對齊/詞對齊/加工方式:自動/半自動/人工語料應用:應用領域:通用/編辭典/機器翻譯/輔助軟體:檢索工具/User Interface/,16,3.2 語料收集kah加工-3,收集語料愛注意版權編碼問題文件大細(siun大文件是m是beh做sampling)語料選取標準(精品、有影響力、隨機揀選、流通、經典、容易得著、有統計樣本意義、符合語
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ch3 語料庫:語言智識ê另外一種表達形式 語料庫 語言智識 另外 一種表達 形式
链接地址:https://www.31ppt.com/p-2865993.html