基于动态流通语料库的benke.ppt
北京语言大学应用语言学研究所张普,基于动态流通语料库的现代汉语词语研究,关于我们,现代教育技术培训中心,应用语言学研究所,数字化语言教学研究室,博士研究室,国家语言资源监测与研究中心(平面媒体),资源开发部,动态流通语料库,国家语言资源,北京语言大学与教育部共建,联系我们,报告内容,第一讲 定性分析与定量分析第二讲共时研究与历时研究第三讲频度、使用度、流通度,zhangpu:,第二讲共时研究与历时研究,问题提出的背景论历时中包含有共时与共时中包含有历时历时时间段必须与时俱进,“与时俱进”走势图,“短信”走势图,“采信”走势图,一般流行语的曲线,一般流行词语走势图,一般流行语的曲线,散发型流行语曲线,多发型流行语曲线,一般词语走势图,词汇曲线类型学,一般流行语的曲线散发型流行语曲线基本词汇曲线一般词汇曲线,第二讲共时研究与历时研究,问题提出的背景论历时中包含有共时与共时中包含有历时历时时间段必须与时俱进,论历时中包含有共时与共时中包含有历时,北京语言文化大学张普石定果,论历时中包含有共时与共时中包含有历时,问题的提出 索绪尔的时间观 关于历时研究和共时研究的关系 关于历时中包含有共时和共时中包含有历时,问题的提出,关于控制论与动态语言知识更新的思考载语言文字应用,2001年第4期2002年第期。关于“信息和通讯作为组织化机制”;关于“通讯和控制的时代”;关于“牛顿时间和柏格森时间”;关于“反馈”和“稳态”;关于“种族信息量的测定”;关于“本书的教训之一”和“反内稳定的因素”;关于“学习”和“自生殖机”;关于“白箱”和“黑箱”;关于“可信的程度只能到达头几位数字”,维纳的话,“由牛顿时间可逆到吉布斯的时间不可逆这个转变是有哲学方面的反响的。柏格森曾经强调指出物理学的时间和进化论与生物学的时间的不同:前者是可逆的,其中没有什么新事物出现;后者是不可逆的,其中总是发生着新奇的事物。”,我们的观点,我们认为:语言属于进化论和生物学的时间,即柏格森时间。,该文中的主要具体观点,“我们恰恰把语言看作类似是有生命的东西。语言有活语言和死语言,语言有自己的新陈代谢,语言的各个成分都会经过诞生、成长、衰老、死亡的历程,语言本身也是不断进化的,没有一成不变的语言。语言的活动方式符合生命活动的基本方式,语言的时间应该是柏格森的进化论与生物学的时间。”“我们恰恰也把第三代语料库视为类似是有生命的东西。我们认为第三代语料库应该是动态语料库,是历时语料库,是活语料库。”我们非常赞同并曾经引用过徐通锵先生的观点,他说:“时间观是语言研究方法论的一个重要基础,要改进语言理论的研究,如仍旧保持索绪尔的时间观,那是不会有什么成效的。”“索绪尔的语言理论就是建立在他的共时时间观的基础上的。”我们还认为:就语言的发展而言,历时中包含有共时,共时中包含有时。只是限于篇幅和文章的中心议题,上述最后一个观点我们没有展开,但在附注中我们已经说明:“这一观点我们还会另文论述”。,论历时中包含有共时与共时中包含有历时,问题的提出 索绪尔的时间观 关于历时研究和共时研究的关系 关于历时中包含有共时和共时中包含有历时,索绪尔的时间观,主要依据:高名凯先生译,岑麒祥、叶蜚声先生校注的普通语言学教程。我们认为:他的这本书中的核心内容就是“共时语言学”与“历时语言学”。书中附录一共五篇,第二篇讲“共时语言学”,第三篇讲“历时语言学”,其他各篇也大都与共时或历时的研究有关。公平地说,就内容的分量而言,索绪尔对“共时语言学”和“历时语言学”是相提并重的。,索绪尔的话,“共时语言学研究同一个集体意识感觉到的各项同时存在并构成系统的要素间的逻辑关系和心理关系。历时语言学,相反地,研究各项不是同一个集体意识所感觉到的相连续要素间的关系,这些要素一个代替一个,彼此间不构成系统。”,索绪尔的话,“历时和共时的对立在任何一点上都是显而易见的。”他认为它们是“在方法上和原则上对立的两种语言学”。因为“共时现象和历时现象毫无共同之处:一个是同时要素间的关系,一个是一个要素在时间上代替了另一个要素,是一种事件。”,索绪尔的话,“但是为了更好地表明有关同一对象的两大秩序的现象的对立和交叉,我们不如叫做共时语言学和历时语言学。有关语言学的静态方面的一切都是共时的,有关演化的一切都是历时的。同样,共时态和历时态分别指语言的状态和演化的阶段。”,有时候索绪尔似乎更重视进化论和生物学的伯格森时间,更重视语言的发展和变化,“语言学的唯一真正的对象是一种已经构成的语言的正常的、有规律的生命。”“时间保证语言的连续性,同时又有一个从表面看来好象是跟前一个相矛盾的效果,就是使语言符号或快或慢发生变化的效果;因此,在某种意义上,我们可以同时说到符号的不变性和可变性。”“这种发展是逃避不了的;我们找不到任何语言抗拒发展的例子。过了一定时间,我们常可以看到它已经有了明显的转移。”,索绪尔的话,“语言中凡属历时的,都只是由于言语。一切变化都是在言语中萌芽的。任何变化,在普遍使用之前,无不由若干个人最先发出。但不是任何的言语创新都能同样成功,只要它们还是个人的,我们就没有考虑的必要,因为我们研究的是语言。只有等到它们为集体所接受,才进入了我们的观察范围。”,历时语言学同共时语言学比较起来并不怎么重要,“要用同一观点把语言和言语联合起来,简直是幻想。言语活动的整体是没法认识的。”“例如从最明显的事实说起它们的重要性是不等的。在这一点上,共时方面显然优于历时方面。”“说到分析,我们只有站在共时的平面上才能建立一种方法,下一些定义。”他提到“时间”的重要,但更直接的目标不是等待个人的创新被社会的认同,而是等待“集体惰性对一切语言创新的抗拒”。所以他才说:“语言之所以有稳固的性质,不仅因为它被绑在集体的镇石上,而且因为它是处在时间之中。”,徐通锵的话,“时间观是语言研究方法论的一个重要基础,要改进语言理论的研究,如仍旧保持索绪尔的时间观,那是不会有什么成效的。”“索绪尔的语言理论就是建立在他的共时时间观的基础上的。”“这种思潮在国内语言研究中的反映,共时与历时,以共时为主,这方面与西方的研究趋势大体一致,特别是语法的共时研究尤为显著;而形式与功能的研究,我们现在仍以功能的研究为主,形式的研究相当薄弱。”,论历时中包含有共时与共时中包含有历时,问题的提出 索绪尔的时间观 关于历时研究和共时研究的关系 关于历时中包含有共时和共时中包含有历时,关于历时研究和共时研究的关系我们的观点:,历时研究和共时研究同等重要,不可偏废,当然它们是对于语言从不同角度出发所作的审视。我们赞同索绪尔关于投影以及树干的纵切面和和横断面的比喻,今天看来,也许我们可以把历时状态看作是一段由许多略有变化的小照片连接而成的电影胶片,表现着动感的过程,而把共时状态视为那一段胶片中的每一张,表现着瞬间的定格更为妥帖。,历时状态最重要的特征,一、活着的语言永远在变化,变化是绝对的,静止的语言是没有的,除非是死语言。历时状态是语言的时间态,历时研究是对语言的时间态进行观察、分析、对比、评估等等。这种观察、分析、对比、评估,原则上可以是就整个系统进行的,也可以是就某些个别语言要素来进行的。,历时状态最重要的特征,二、语言历时状态的演进是不平衡的。就语言的历时阶段而言,不同的区间(或者说语言的不同时期)发展变化速度也不相同。在社会的大变革时期、转型时期,在社会高度开放、强化与其他文明的融合的时期,词汇的扩充和换档就会十分明显;相反,在社会相对封闭和保守的时期,语言也相对停滞。就像索绪尔比喻的一样,大树的树干无论是从横切面看还是从纵切面看,生长都是不平衡的,向阳的一面生长快于背阴的一面,风调雨顺之年的生长好于干旱或洪涝之年。,历时状态最重要的特征,三、语言是社会交际的工具,语言的发展变化基本上与社会的发展变化同步,近年来人类社会发展呈加速度的总趋势,语言的发展和变化也呈加速度的总趋势。例如:据联合国教科文组织的统计,人类近年来所积累的科学知识占有史以来积累的科学知识的总量的,而在此之前的几千年中所积累的科学知识只占。英国技术预测专家詹姆斯马丁的结论,人类的知识在世纪是每年翻一番,世纪初是每年翻一番,年代是每年翻一番,近年是大约每年翻一番。信息技术领域,每年都要公布新一代的技术成果和产品的升级换代。反映这些新知识的词汇,特别是专名与术语,可谓日新月异。社会政治、经济、文化、科学技术等各领域的任何急剧变革都是语言的催化剂和加速器。,共时状态最重要的特征,一、共时状态是语言的相对静止状态。相对静止状态只是同一时空的人类群体的共同语感,我们得假定作为观察对象的语言要素在某一刻(或某一时期)静止下来并同时存在,才可以清晰准确地观察这些要素以及要素与要素之间的关系。语言的绝对静止现象是根本不存在的,任何活着的语言、有生命的语言,其常态准确地说既不是静态的,也不是动态的,而是稳态的。我们在研究动态语言知识更新时,正在用稳态概念来取代动态概念。,共时状态最重要的特征,共时状态的各项要素构成了系统。系统论认为,系统大于系统内各要素之和系统除了要素而外,还包括关系,即是说,关系是系统不可或缺的有机组成部分。虽然关系是抽象的,但如果没有关系,要素就支离破碎,就不可能具备丝毫具体的功能。功能必须有序,关系就是“功能序”。共时研究就是要研究各要素之间的逻辑关系和心理关系。这些关系无论是逻辑的还是心理的,都是一种空间和方位的关系,即使最终构成逻辑网络或心理网络,要素与要素间的关系仍然必须以空间和方位的方式来描述。所以,说到底共时态是语言的空间态。,共时状态最重要的特征,共时状态的观察、分析和描述有两个角度或者说有两种结果。一种是聚合的结果,一种是组合的结果。聚合的结果,发现的是语言的要素;组合的结果,发现的是语言中要素和要素之间的关系。发现不了要素,就谈不到发现要素与要素的关系;同样,发现不了要素与要素的关系,也就很难确定语言的一切要素。语言的要素和关系的总和,构成了语言的共时状态,或者说构成了语言的某个共时系统。共时状态的研究,可以研究某些要素和某些要素关系,也可以研究整个共时系统。,我们的主张1,既要观察语言的共时状态,也要观察语言的历时状态,这样的观察才是全面的观察。共时状态是语言的空间态,历时状态是语言的时间态,从时间与空间的双重状态来观察分析,才是全方位的,从物质世界的宏观研究到微观研究,无不如此。有结构系统,就有关系,就有空间态;有沿革过程,就有历史,就有时间态。,我们的主张2,就语言而言,语言的时间状态和空间状态都是客观存在着的,而语感则是使用语言的人基于言语经验对语言的正误与否、得当与否的一种感觉。索绪尔认为语言的共时状态是历时状态的某种投影,我们说,语感才真正是语言的全部客观存在的“投影”,是一种心理投影。,我们的主张3,语感说到底就是人们对语言的空间状态和时间状态的一种内化的把握,是对语言的空间感的认知和时间感的认知。空间感是对要素与关系的感觉,或者如我们常说的,是对语言的理据性的感觉;时间感是对要素与关系的流通度或者说是成熟度的感觉,如通常我们所说,是对“约定俗成”程度的感觉。,我们对于语感的细化分析,个人语感与大众语感共同语感与差别语感空间语感和时间语感,论历时中包含有共时与共时中包含有历时,问题的提出 索绪尔的时间观 关于历时研究和共时研究的关系 关于历时中包含有共时和共时中包含有历时,关于历时中包含有共时和共时中包含有历时,历时中包含有共时和共时中包含有历时,二者从哲学的角度看是一组对立统一的概念。对立统一是宇宙的根本规律,普遍而永恒。举凡对立统一称说的概念如:上下、左右、前后、大小、长短、深浅、宽窄、厚薄、快慢、软硬、强弱、冷热、迟早等等无不如此。老子亦有云:“高下相倾,长短相形,前后相随。”没有孤立的事物,一切均是相比较与相依存的。对于“丈”而言,当然“尺有所短”,而对于“分”而言,就真是“寸有所长”了,关于时间的相对观,长短和快慢不仅可以用于空间的相对概念的描述,也可以用于时间相对概念的描述。宇宙史很长,地球史相对很短;地球的演变史很长,生命史相对较短;生命的演变史很长,人类史相对较短。一个世纪很长,一年相对很短;一年很长,一天的时间就相对很短。,时间点与时间段,相对较长的时间,我们叫时间段(或者“时段”),相对较短的时间,我们叫时间点(或者“时点”)。我们说时段强调的是一个时间区间、时间持续,时间经历,是历时状态,例如“等了三天。”,三天就是一个时段;我们说时点强调的是一个时间位置、时间刻度,时间暂停,是共时状态。例如:“年开始”,一整年也视为一个时点。时点和时段在语法、语义、语用方面都有不同。,共时与历时的相对观时点与时段的相对观,时点和时段、共时和历时也都是一对相对的概念。共时状态强调的是时点,历时状态强调的是时段。任何的一个时点相对于更大的时间段来说,强调的都是一个较短的共时的点;但是相对于颗粒度更精细的时间点来看,这个共时点又可以视为一个较长的时段。就语言的共时研究和历时研究来说,历时中包含有共时和共时中包含有历时这种相对性就是很自然的了。,图示,例如:我们如果将现代汉语(米黄时段)视为一个共时状态的语言研究,对于汉语史的研究而言,汉语史是历时状态,现代汉语是共时状态。但是从年至今已经是近一个世纪的漫长时段,二十世纪初期的现代汉语与今天的现代汉语显然已经有很大的不同。所以对于现代汉语这个时间段的不同时期,通常人们又可以分成一些颗粒度更小的时段(红色时段),例如:北京航空学院(今航空航天大学)刘源教授年主持的国家科委重点科研项目:“现代汉语词频统计”,将现代汉语语料分为四个时间段采用不等密度方法采集语料,这四个时段是“;”,其中文革时段采集的语料总量较少,改革开放时段采集的语料总量较多。如果时间的颗粒度更细,还可以再划分更精细的时间段(绿色时段),那样红色就成为历时状态,绿色就是新的共时状态了。,两项研究成果,香港城市大学的研究北京语言大学的研究,专有名词增长()(LIVAC linguistic Variation in Chinese Speech Commnities),注:;,2002年十大流行语发布,1、十六大 2、世界杯3、短信 4、降息5、反恐 6、数字影像7、姚明 8、车市9、CDMA 10、三个代表数家电视广播台、数十家报纸、2240网页转载,2003春夏季十大流行语(综合类),1非典(SARS)2疫情3消毒 4隔离5巴格达 6萨达姆7三峡 8疑似9伊拉克战争 10世界卫生组织(WHO),2003春夏季十大流行语(非典专题),1、非典(SARS)2、疫情3、消毒 4、隔离5、抗击非典 6、疑似7、口罩 8、体温9、防控 10、世界卫生组织(WHO),年流行语发布,种报纸年月日月日总文件数:562669个。即56万2千多个文本。总字数:426805177字。即约4亿3千万字。,索绪尔的历时时间段,索绪尔引证的许多语音演化的例子动辄跨越数百年,他在讨论历时语言学的第五章“类比和演化”时,明确地说:“在好几个世纪的演化表现出来的大量类比现象当中,差不多所有要素都被保存了下来,只是分布有所不同罢了。”,第二讲共时研究与历时研究,问题提出的背景论历时中包含有共时与共时中包含有历时历时时间段必须与时俱进,历时时间段必须与时俱进:知识更新速度,语音是渐变的,以世纪为时间段很正常,但是词汇必然会即期反映客观世界与主观世界的种种新情况,发展不平衡。根据联合国教科文组织的统计,人类近年来所积累的科学知识占有史以来积累的科学知识的总量的,而在此之前的几千年中所积累的科学知识只占。,历时时间段必须与时俱进:知识更新速度,英国技术预测专家詹姆斯马丁测算的结果:人类的知识在世纪是每年翻一番,世纪初是每年翻一番,年代是每年翻一番,近年是大约每年翻一番。结论:从变化的绝对值来说,今天的一个较短的时间段(例如十年)内语言的变化,早已经超过过去一个较长时间段(例如年)的变化,因此也可以视为历时的变化,特别是在词汇和语义方面。,历时时间段必须与时俱进:信息传播速度,索绪尔该书地理语言学一篇在论述“语言波浪的传播”模式时,举了一个日耳曼语演化的例子,说:“这个现象是年左右从波希米亚出发的,花了年才到达莱茵河,流行于他当前的地区。”在没有现代通讯技术的年代,任何一种语言的变异要实现约定俗成,只能是依靠人们从一地到另一地的“波浪式”传播,是由点到线、由线到面的缓慢地辗转地扩散,当然需要以世纪来计时。模式:辗转式、浸淫式,历时时间段必须与时俱进:信息传播速度,今天的传播载体、传播技术以及传播模式,和索绪尔的年代相比,也已经发生了突破性的质变,传播的速度与效应有了惊人的飞跃。信息、包括语言的演化与类比的新情况,通过广播、电影、电视、电话、因特网、卫星等现代通讯手段,可以在尽可能短的时限内送达尽可能大的受众面。语言的传播可以由无线电技术到数字化技术,不再需要“波浪式”。模式:“闪电式”(速度)、“全球式”(范围)。,历时时间段必须与时俱进:信息传播速度,如果没有现代传媒,“克隆”作为一种技术,作为一个术语,从西欧传到中国,成为一个家喻户晓的流行词,要经过多少年?年,“伟哥”这个词几乎在一夜之间就为全中国的人所熟悉,是因为那一年的下半年中国有种以上的杂志和种以上的报纸刊登有关“伟哥”的文章。,历时时间段必须与时俱进:信息传播速度,香港城市大学的两岸六地的“共时语料库”收集年的语料,目前,任务完成还仅过半,但已经看出许多有意思的现象,比如大陆的“大哥大”一词是怎样在几年之中经历兴衰,有关同一概念的一组词语(“手提”、“手持”、“手机”、“移动电话”等)怎样并行,直到今天口语中“手机”已为大众认同,专业名称则采用“移动电话”。“互联网”一词在专家干预和传媒推动的强势影响下将原本已占有的主导地位让位于“因特网”。这些都是在不足十年中人们熟悉的语言历时变化现象,也是共时中包含着历时的典型例子。,索绪尔本人并没有绝对否认语言在较短的时间段也可能发生历时演化,“实际上,语言状态不是一个点,而是一段或长或短的时间,在这段时间内,变化的数量很小。那可能是十年、一代、一世纪,甚至更长一些的时间。一种语言可能长时期差不多没有什么改变,然后在几年之间却发生了很大变化。同一时期内共存的两种语言中,一种可能改变了许多,而另一种却几乎没有什么改变。在后一种情况下,研究必然是共时的,而在另一种情况下却是历时的。”,如果最近一个世纪世界科学技术进步没有这么显著,没有显著到改变了人类传统的学习方式、工作方式、生活方式、交际方式,索绪尔大师的话又有什么错呢?他并没有错,在语言学领域,他的学说仍然是权威的,有效的。只是“逝者如斯夫,不舍昼夜”(论语。子罕),索绪尔已经绝对不可能与时俱进了,他当然无法对后世的语言发展前景负责。现在,与时俱进的应该是我们,否则,就真的错了。,约定俗成与约定“速”成,速度广度强度深度,约定俗成与约定“速”成,速度广度强度深度,一万年太久,只争朝夕,二十年太久,只争朝夕!大家都来关注动态语言知识更新。,谢谢,