欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    常见语料库使用入门.ppt

    • 资源ID:5718388       资源大小:4.89MB        全文页数:59页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    常见语料库使用入门.ppt

    ,常见语料库使用入门,语言研究中的小技能get,华中师范大学语言研究所2015级 秦志君,PPT模板下载:行业PPT模板:节日PPT模板:素材下载:PPT背景图片:图表下载:优秀PPT下载:教程:Word教程:教程:资料下载:课件下载:范文下载:试卷下载:教案下载:PPT论坛:,主要部分,0,第一节,语料库及其分类,语料库及其分类,1,语料库(corpus):存放语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。,三点基本认识:A.必须是实际使用中真实出现过的语言材料;B.须以计算机为必要载体;C.材料分析加工后才有用。,语料库及其分类,2,语料库及其分类,3,第二节,公共语料库检索,公共语料库检索,4,统计频率,查找例句,验证分析,参数设置,带着问题,收集证据,基于检索,公共语料库检索,5,我国21个知名语料库,01.中央研究院近代汉语标记语料:02.中央研究院汉籍电子文献:03.国家现代汉语语料库:http:/124.207.106.21:8080/04.国家语委现代汉语语料库:05.树图数据库:06.语料库语言学在线:corpus4u.org07.北京大学CCL语料库:,公共语料库检索,6,我国21个知名语料库,08.北京大学人民日报标注语料库:09.北京语言大学的语料库:10.清华大学TH-ACorpus:11.山西大学语料库:12.台湾南岛语典藏:13.闽南语典藏:14.香港城市大学LIVAC共时语料库:,公共语料库检索,7,我国21个知名语料库,15.浙江师范大学的历史文献语库:16.中科院计算所语料库:17.中文语言资源联盟:18.SKETCHENGINE多语言语料库:19.LIVAC共时语料库:20.红楼梦汉英平行语料库:21.北京语言大学BCC语料库:,公共语料库检索,8,国外18个知名英语语料库,01.国际英语语料库(ICE):02.美国国家语料库(ANC):http:/www.anc.org/03.美国当代英语语料库(COCA):http:/www.americancorpus.org/04.美国近当代英语语料库(COHA):http:/05.英国国家语料库(BNC):http:/06.柯林斯英语语料库(BOE):http:/www.s,公共语料库检索,9,国外18个知名英语语料库,10.LLC口语语料库:.uib.no/icame/manuals/11.COBUILD语料库:http:/www.12.ICE东非等分库:13.ARCHER语料库:14.CEECS语料库:l.htm15.SCTS语料库:http:/www./16.VOICE语料库:17.ELFA语料库:18.朗曼语料库:http:/www.long-,公共语料库检索,10,小问题:一种语言现象我们至少得收集多少条语料呢?,徐杰教授认为,语料多多益善,至少应收集500条。,大数定律(Law of Large Numbers):指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。,公共语料库检索,11,由收集验证到实证分析需要学点统计学,抽样与调查,离散与连续,频率与分布,描述与图示,样本与总体,估计与检验,统计,置信区间T检验,公共语料库检索,12,由收集验证到实证分析需要学点统计学,集中趋势的特征数:平均数、众数、中位数、调和平均数、几何平均数,变异程度的特征数:极差、四分位差、平均差、方差、标准差,参数估计与假设检验以样本对总体的推断,一般步骤(1)明确问题(2)收集信息(3)提出假设(4)构建模型(5)模型求解(6)分析检测,公共语料库检索,13,由收集验证到实证分析需要学点统计学,在自然现象和社会现象中,大量的随机变量都服从或近似地服从正态分布。大部分参数检验,比如t检验,方差分析,回归分析等,要求数据符合正态分布。,三个基本点:1)呈钟形,形态如左图;2)两个参数,均值和标准差;3)图象大致表示:平均数周围的属性值在总体上占到大多数。,正态分布,公共语料库检索,14,公共语料库的检索说明以BCC语料库为例,初阶的,进阶的,仅输入关键字查找,关键字特殊符号检索式,搜索,语料库检索百度一下,公共语料库检索,15,公共语料库的检索说明以BCC语料库为例,统计,公共语料库检索,16,公共语料库的检索说明以BCC语料库为例,检索式说明检索式可以是字串、词串、词性的组合而成的查询模式。例如:如果检索“我想吃”后面紧接着一个名词的语言实例,检索式为:我想吃n,这里 n 是词性符号,表示名词。,公共语料库检索,17,公共语料库的检索说明以BCC语料库为例,检索式示例,公共语料库检索,18,公共语料库的检索说明以BCC语料库为例,检索式示例,公共语料库检索,19,公共语料库的检索说明以BCC语料库为例,特殊含义符号,公共语料库检索,20,公共语料库的检索说明以BCC语料库为例,特殊含义符号,公共语料库检索,21,公共语料库的检索说明以BCC语料库为例,词性列表,公共语料库检索,22,公共语料库的检索说明以BCC语料库为例,构词,公共语料库检索,23,公共语料库的检索说明以BCC语料库为例,构词,合成词,公共语料库检索,24,公共语料库的检索说明以BCC语料库为例,搭配,公共语料库检索,25,公共语料库的检索说明以BCC语料库为例,离合,公共语料库检索,26,公共语料库的检索说明以BCC语料库为例,句型,公共语料库检索,27,公共语料库的检索说明以BCC语料库为例,定界,公共语料库检索,28,公共语料库的检索说明以BCC语料库为例,构式,公共语料库检索,29,公共语料库的检索说明以BCC语料库为例,构式,公共语料库检索,30,公共语料库的检索说明以BCC语料库为例,自定义搜索,公共语料库检索,31,公共语料库的检索说明以BCC语料库为例,检索结果,公共语料库检索,32,公共语料库的检索说明以BCC语料库为例,历时检测,公共语料库检索,33,公共语料库的检索说明以BCC语料库为例,检索统计,公共语料库检索,34,公共语料库的检索说明以BCC语料库为例,筛选,查看上下文,如果想对检索结果进一步筛选,可以使用筛选功能,对检索结果进一步剔除或者仅仅保留符合筛选检索式的实例。,公共语料库检索,35,公共语料库的检索说明以BCC语料库为例,下载,高级设置,公共语料库检索,36,公共语料库的检索说明以BCC语料库为例,句法树,注意检索格式 多摸索多使用,依据调查需要设置调查项目,学点儿统计学 学点编程语言,公共语料库检索,37,第三节,个人语料库创建,个人语料库创建,38,材料/工具准备阶段,1、电脑、办公软件2、语料的选取标准3、语料库大小设定4、已收好集的语料5、采取txt格式保存,生语料库,熟语料库,加工标注,词性标记句法标记词义标记篇章指代标记韵律标记,若只是要词频数据,则生语料库足够,word/wps或txt记事本都可以建立word/wps的“查找替换”工具即可,txt记事本的“编辑-查找”工具也行。“宏”,个人语料库创建,39,熟语料库加工阶段,需要工具/材料:1、电脑、办公软件2、语料库加工工具2、语料的选取标准3、语料库大小设定4、已存的生语料库5、采取txt格式保存,个人语料库创建,40,熟语料库加工阶段,可以采用这个工具,双击 打开软件,个人语料库创建,41,熟语料库加工阶段,需要说明的是:自己找到的语料库必须是已经集中放好到“语料库”这样的文件夹中。,点击 打开文件,个人语料库创建,42,熟语料库加工阶段,打开“语料库”文件夹,个人语料库创建,43,熟语料库加工阶段,比如,选择“痴人”这个语料,个人语料库创建,44,熟语料库加工阶段,然后,点击“切分标注”即可,个人语料库创建,45,熟语料库加工阶段,然后,点击全选,复制到新建的一个txt文档,保存文件,得到一个熟语料,然后,把新存的那个熟语料文件保存到一个新建的“熟语料库”文件夹中,依据此法,逐一对生语料库中的单个语料进行“词性标注”,然后逐一保存到“熟语料库”中。这时,初加工的自建熟语料库的完成了。,个人语料库创建,46,语料库的检索阶段,双击该软件进入界面,推荐使用的软件AntConc,个人语料库创建,47,语料库的检索阶段,接下来,英语不好的话,可以设置语言,点击“Global Settings”菜单,找到“Language Encodings”,点击该菜单,再点击右手边的“Edit”,这时会弹出一些选项,选择“Chinese Encodings”,在选择该项目右边的“Chinese(euc-cn),最后点击右下方的“Apply”。,个人语料库创建,48,语料库的检索阶段,这时,会自动回到这个界面,个人语料库创建,49,语料库的检索阶段,点击“File”选项,再选择“open files”,然后得找到“熟语料库”文件夹,点击。,个人语料库创建,50,语料库的检索阶段,选中全部语料,然后点击“打开”。,个人语料库创建,51,语料库的检索阶段,所有“熟语料库”中的单个语料都出现在了Antconc软件的左侧栏中,接下来,我们就可检索了。比如,你检索、研究的是“很+X”,那么由于转成了熟语料库,检索式应为“很/d*/a”(很接形容词)、“很/d*/v”(很接动词)等等,然后依检索式进行检索。需要说明的是“很/d*/a”词与词之间得空一格,就像英语中“I have”得空一格。,个人语料库创建,52,语料库的检索阶段,比如说,检索“很/d*/a”,在检索栏中写上“很/d*/a”点击start 就出现了,个人语料库创建,53,语料库的检索阶段,Concordance Hits 代表的是出现“很/d*/a”也就是(很+形容词)出现的次数,我们可知出现了“46”,那么这就意味着,很接形容词在我的这个语料中出现了46次。依据此法可检索“很/d*/v”的次数。*代表任意字符,也就意味着在这个语料库中任意的词是不是,但是“/v”这种形式,又限定了*只能是语料库的动词,于是在“很/d*/v”共现平面中,也就是意味着,“很”后面的“动词”。,须了解学习AntConc检索式,

    注意事项

    本文(常见语料库使用入门.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开