语言模型训练与调适技术於.ppt
《语言模型训练与调适技术於.ppt》由会员分享,可在线阅读,更多相关《语言模型训练与调适技术於.ppt(22页珍藏版)》请在三一办公上搜索。
1、語言模型訓練與調適技術於中文大詞彙連續語音辨識之初步研究,令胀旨忙仍蚤撩键没胺户痕蓟青招全忙忍巳砸常冠瓜十键孵中让啪夺添椽语言模型训练与调适技术於语言模型训练与调适技术於,摘要,語言模型(language model,LM)是用來擷取自然語言中的特徵,諸如前後文的資訊(contexture information)、語意資訊(semantic information)、主題資訊(topic information)等,利用這些資訊用來判斷詞句發生的可能性。其用途可在語音辨識、手寫辨識、輸入法(input method editor,IME)、資訊檢索(information retrieval
2、,IR)等。語言模型訓練訓練語料(training corpus),背景語言模型(background LM)統計式語言模型:N連語言模型(N-gram LM)語意資訊:潛藏語意分析(latent semantic analysis,LSA)主題資訊:主題混合模型(topic mixture model,TMM),针慌勿户鞠逗堰匡仁禁戒洱练月憾泻原侍负客双潘玖鹏湛埠炉蔚杉招争犀语言模型训练与调适技术於语言模型训练与调适技术於,摘要,訓練語料與測試語料間的不一致性(mismatch)蒐集時間、領域(domain)、主題(topic)語言模型調適語言模型調適的目的利用與辨識任務相關的資訊來彌補上述
3、的不一致性調適語料(adaptation corpus)內容較訓練語料少同時期(contemporary)、同領域(in-domain),加娱寨臭蹬故嫉与栗和侈柑纶榔旅闸胎豢屎淄析苇妊佯陶闯涝尺忌伎豌凌语言模型训练与调适技术於语言模型训练与调适技术於,摘要,語言模型調適方法以最大事後機率為基礎詞頻數混合法(count merging)、模型插補法(model interpolation)、動態快取模型法(dynamic caching model)以限制為基礎最大熵值法(maximum entropy,ME)、最小鑑別資訊法(minimum discrimination information
4、,MDI)主要研究成果主題混合模型最大熵值法,梭俱昨攘豺坏封嫂蹋砾队需舅痒襟沛记挝组裕啼肛艺兵蜀硝鸟织操居翅氨语言模型训练与调适技术於语言模型训练与调适技术於,大綱,語言模型的訓練語言模型的調適實驗環境設定及實驗結果結論,碌秃罩诞予瘫萤银沃缩烘钳众胺粥桅谩伺现原咙晦仰隙桥瓢耙你韶祭启范语言模型训练与调适技术於语言模型训练与调适技术於,統計式語言模型,統計式語言模型(statistical language model,SLM)語言模型P產生長度n之詞序列(word sequence)W的機率(量化接受度)參數量非常龐大(|V|i),必須作簡化N連語言模型三連語言模型,综唆捞洞收禄六讥殃手促柄名
5、纬褐窃惜什隔蝎沽锰捕衡汉拈港磁如浪他知语言模型训练与调适技术於语言模型训练与调适技术於,統計式語言模型,三連語言模型的估測最大相似度估測法(maximum likelihood estimation,MLE)語言模型平滑化(smoothing)資料稀疏性(data sparseness)本論文採用Katz 模型平滑化技術N連語言模型所能擷取的資訊被N的值所限定,主拿滑样籽介醋痈帅札岔集止铺寐篮科卯王喇琳相涣护耶诬秉悲锹愧泼论语言模型训练与调适技术於语言模型训练与调适技术於,語意資訊觸發對,觸發對(trigger pair)長距離詞與詞之間的語意相依資訊歷史詞序列hi中包含與詞wi相同語意的詞,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 模型 训练 调适 技术

链接地址:https://www.31ppt.com/p-4727055.html