欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    中文文本自动分词与标注汉语词义自动标注技术课件.ppt

    • 资源ID:3723422       资源大小:802.50KB        全文页数:16页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    中文文本自动分词与标注汉语词义自动标注技术课件.ppt

    中文文本自動分詞與標注 第8章漢語詞義自動標註技術,報告人:劉謦儀(J94922018),2023/3/17,2,綱要,詞義標注詞義排歧詞義自動標注 與 詞義自動排歧 語言的編碼漢字字義組合結構基於字義排歧的模型自組織的漢語詞義排歧方法結語,2023/3/17,3,詞義標注,對文本中的每個詞根據其所屬之上下文給出它的語義編碼指用非文字的東西來表示文字消息的內容,用圖畫、樂譜等都可以進行語義編碼。詞典釋義文本中的某個義項號義類詞典中相映的義類編碼,2023/3/17,4,詞義排歧,處理一詞多義現象例:大學是教育機構是一本古書,博士既是官名,又是博學多才的人,又是師傅,還是一種學位的名稱。使用詞義標注文本可提高檢索時的查全率和查準率。有利於選擇可以恰當表達語句中詞的目標詞,以提高翻譯的準確性。建立基於語義類的語言模型,為語音識別、手寫體識別和音字轉換提供幫助。,2023/3/17,5,詞義自動標注(Word Sense Tagging),也稱為詞義自動排歧(Word Sense Disambiguation)計算機運用邏輯運算與推理機制,對出現在一定上下文中詞語的語義進行正確的判斷,自動確定其正確的義項並加以標注的過程。多義詞排歧主要依據該多義詞出現的上下文,排歧的過程就是建立他們之間的聯繫過程,這種聯繫則是詞語間的語義聯繫。常見方法人工智能法、基於詞典的方法、基於語料庫的方法,2023/3/17,6,語言的編碼,分為語音編碼和語義編碼兩大類語音編碼:用符號代表語音,一種語言區別於其他語言的根本區別就是其不同的語音音素編碼。就英語而言有英音,美音,澳音,新西蘭音等。語義編碼:是用符號代表語義,關注的是語言所能表達的意義,每種語言都有自己的語義系統。漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。,2023/3/17,7,語言的編碼,漢語語義編碼的基本符號是“字”漢語的語義主要附著在“字”上。字義排歧是詞義標注之突破點。濃縮形音義,多為形聲字,表音亦表意,望文生義,如:吠。大量同音字、同音詞語,化成書面多可消除歧義。單字多義項者占53.6%(如打字之義項數為26);詞組/合成詞多義項者僅占0.46%。,2023/3/17,8,漢字字義組合結構,向心性字組 Vs.離心性字組冰山,青山,火山,高山(核心字在後)Vs.山峰,山城,山溝,山村(核心字在前)並列字組 Vs.主從字組關閉,左右,上下,陰陽(二字相同相近相反)Vs.火車,汽車,黑板,白版(前字從,後字主)合義(國+務國務)33%、加義(景+物可供觀賞的景緻和事務)56.7%、同義(聲+音聲;音)、偏義(厚+度厚度;容+易易容)、轉義(目+光=眼睛+光線 見識)少量字義推大量詞義成為可能!,2023/3/17,9,基於字義排歧的模型,資源:三台機器+兩部詞典MRD-1讀入現代漢語通用字典MRD-2讀入同義詞詞林MTD由MDR-1透過機器自動生成以字義定詞義的語義標注方式準確率在80%以上遭遇困難處二字詞之多義詞排歧單字本身意義抽象、廣泛、模糊,成詞時描述也困難如何將詞義間之關係建構成完整的意念表達仍須努力,2023/3/17,10,基於字義排歧的模型MRD1說明,MRD-1讀入現代漢語通用辭典,用來作為標注每個漢字的義項號。“打(da3)”在MRD-1中有25個義項,分別為打-B01:毆打,攻打;打-B02:用手或器具撞擊物體;打-B03:做,從事;打-B04:表示身體上的某些動作;打-B25:器皿,蛋類因撞擊而破碎。“打(da2)”在MRD-1中記為打-A01:量詞,12個叫一打。,2023/3/17,11,基於字義排歧的模型MRD2說明,MRD-2讀入同義詞詞林,編排方式以詞義為主兼顧詞類詞,多義詞則分別收入不同詞群以12個語義場(人,物,時間,空間,抽象事物,性質,動作,心理,活動狀態,關聯,助詞)之不同層次與大小來分類。各語義場間互相有著同義(好看Vs.華麗)、反義(善良Vs.凶惡)、類義(大雨Vs.暴雨)、聯義(同情Vs.同情心;哭Vs.淚人兒)等語義關係。同一個語義場包含”1.同義;2.反義;3.類義”三種語義關係跨語義場就是聯義,2023/3/17,12,基於字義排歧的模型MTD說明,MTD由MDR-1透過機器自動生成詞組之義項代碼,如”打-B02 鼓-A01”打-B01:毆打,攻打打倒打擊打架 打手打-B02:用手或器具撞擊物體打鼓打火 敲鑼打鼓鼓-A01:打擊樂器鼓板鼓槌打鼓重振旗鼓鼓-A02:發動,激起鼓動鼓舞 鼓足幹勁,2023/3/17,13,自組織的漢語詞義排歧方法步驟1,以現代漢語辭海提供的搭配實例作為多義詞的初始搭配知識庫,無需人工標注初始語料,用適當的統計和自組織方法做訓練並自動擴大搭配集。在初始搭配知識庫中,每個條目的包含訊息可描述為,2023/3/17,14,自組織的漢語詞義排歧方法步驟2,在學習過程中逐漸增大上下文窗口長度來保證高可靠性。選擇上下文的訊息時應儘量選取與當前詞存在語法有關係的那些詞,濾掉上下文中多數與其不存在語法關係的詞。在給定的多義詞上下文內,尋找與初始搭配庫匹配的搭配實例,若匹配成功則標上對應的義項標記。初始標注時限定上下文窗口長度為2,表選擇該詞的前後兩個詞。,2023/3/17,15,自組織的漢語詞義排歧方法步驟3,透過建立搭配統計表來實現多元詞義歧義的排歧按一定原則從與料庫中取得排歧過程中需要的各種可能搭配和統計數據。每個條目包含的訊息可描述為:註:頻次表示在本次標注語料中該搭配出現的次數,根據統計數據自動調整學習進度,逐漸增加上下窗口長度來學到儘可能多的搭配。,2023/3/17,16,結語,任何詞義消歧系統都離不開詞義消歧時所用知識的資料源,詞義消歧知識庫的質量已成為詞義消歧系統成敗的關鍵。由於詞典和語料庫中不可能包括每個詞的所有搭配實例。而有些低頻詞,在語料中出現次數也不多,很難搜集到它們的上下文環境,因而知識獲取中普遍存在著資料稀疏以及自動學習演算法的參數空間太大等問題。,

    注意事项

    本文(中文文本自动分词与标注汉语词义自动标注技术课件.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开