metaphorinusage.doc
应用中的隐喻 摘要 本文旨在研究隐喻在使用中的模式。作者从英国国家语料库选取4篇文本摘要作为样本,每篇字数约为4,7000,并在有隐喻的地方进行了标注。在Pragglejaz Group(2007)影响下发展而来的高度精确的隐喻识别过程的基础上,五位分析家对语言学隐喻数据进行收集。本文一部分是对这一识别过程数据和可行性的报告。 数据分析显示,一般情况下,在这些语料中每7.5个词汇单元里有一个会与隐喻有关系,这种隐喻被定义为概念结构中潜在的跨域映射。分析还表明,语篇中隐喻表达的主体包括使用不明显的隐喻而不是明喻。最终,与隐喻相关的词汇在此4篇语域中的的分布差别很大,分别为:学术文本18.5%,新闻16.4%, 小说11.7%, 会话7.7%。通过对这些语域系统的对比的研究,出现了认知语言学与隐喻的其他方法关系的新问题。关键词:英国国家语料库构成设计部分,隐喻,隐喻识别,文本注释,语域,明喻1.介绍1.1. 认知语言学隐喻的基本问题 由Lakoff and Johnson(1980; cf. 1999)提出的认知语言学隐喻方法不仅对认知语言学自身作为一门语言学派别的发展很重要,并且也影响了与隐喻研究相关的其他学科,包括哲学,诗学,心理语言学,心理学,语篇分析,交流研究以及人类学(e.g., Gibbs 2008)。关注语篇中的隐喻对实现认知语言学构建以应用为基础的语法是非常重要的,在这种语法当中,词汇因素及其他词汇语法结构可以被“思维中”的隐喻或者是认知所驱动。然而,此研究项目同样是非常具有争议性的,关于涉及使用中隐喻的中心认知语言学原则的基本性的问题已经被提出,此处仅列举最为熟悉的出版书籍,比如来自Steen (1994), Chilton (1996), Cameron and Low (1999), Eubanks (2000), Cameron (2003), Charteris-Black (2004), Koller (2004), Musolff (2004), Deignan (2005), Caballero (2006), Stefanowitsch and Gries (2006), Steen (2007), Cienki and Müller (2008), Müller (2008), Semino(2008), and Musolff and Zinken (2009)等。三个问题值得关注。 第一个问题涉及一种关系,关系的一方面是正在进行的心理过程以及它们的产物,另一方面是被分析为符号或者标志的语言学形式或者认知结构。要解决的问题是,在认知语言学中,被分析为语言学和语篇认知结构中的隐喻性的东西不一定在人类口语和认知行为中有一一对应的心理过程反射(e.g., Cameron and Low 1999; Charteris-Black 2004; Gibbs 2006; Steen 2007; Müller 2008)。语言结构中的隐喻并不总是直接地被当时进行的思想过程所驱动。而且,这些过程仅仅是和短期的描述表现的生产、接受、互动语篇过程有关。隐喻和这些语篇过程的关系是如何和长期的心里语言学过程,比如语言的习得、保持、遗失联系起来是更加复杂的问题。整个问题对隐喻的认知语言学和心理语言学的方法可以被看做是相似的或者截然不同的方式是有影响的;许多心理语言学家和心理学家已经大声宣称他们和认知语言学中将隐喻作为思想的观点相分离,可以参考Steen (2007) and Gibbs(2008)书中的一些例子和引文。 另一个问题不得不处理隐喻在使用当中社会和文化方面的变化。一些语言使用者认为是隐喻的东西在其他语言使用者看来不一定是阴郁的(e.g., Shore 1996; Cameron 2003; Kövecses 2005; Steen 2007)。认知语言学认为,因为许多人类经验中持续的参数,我们的思想和语言的某些隐喻性对所有人而言大致上是一样的;这个观点非常重要,令人激动,但是,当涉及到观察使用中变量的时候,它就变得不是那么理想化。即使语言学形式在许多文本使用当中都是相同的,这并不意味着对具体的参与到各种各样的隐喻使用情境中的个人而言,它们的功能都是一样的。这一问题影响到认知语言学方法可以被认为是同社会心理学,语篇分析心理学以及文化心理学一样的。同样,在这里应该指出的是,来自其他领域的,大多数是因应用语言学而出名的许多学者,已经再一次将他们从语言使用者不同组中隐喻的统一角色中抽离出来。 第三个问题涉及语言学形式和隐喻自身的认知结构之间的确切的关系。要解决的问题是概念隐喻充分、准确的识别和分工,或者甚至是更缺乏系统性的跨域的映射,与某种情境下的事件或者文件中的具体的语言学表达关系(e.g., Cameron 2003; Ritchie 2004; Steen 2007)。关于区分概念隐喻中竞争变量或者替代物的基本性的问题已经被提出。而且,它们复杂或者主要的特性还尚不清晰。在会话中,它们必须或者可以扮演的具体实例的意义还有待于讨论。因此,第三个问题对认知语言学的一般语言学的有效性以及关于它们是否总体上应该被语言社区所接受的问题是有影响的。语言学其他学派提出了批评性的观点,例如Wierzbicka (1986), Jackendoff and Aaron (1991) and Sperber and Wilson (2008)。 因此,关于认知语言学隐喻方法有一些基本的理论性的、源自经验的问题。这并不奇怪,因为认知语言学方法已经大体上展现一个新的、影响深远的理论,这一理论被宣称为“当代隐喻学理论”(Lakoff 1993)。因此,它所引起的不可转变性和争议性引起了批评性的问题,一方面是关于认知语言学的地位,另一方面是关于隐喻的心理语言学、社会语言学及普通语言学的方法问题。这只会加深我们对隐喻在使用当中复杂性和多样性的欣赏。 当前的贡献旨在解决一些因采用新的方法视角而引起的问题,此视角已经被应用到大量的材料当中。它的灵感来自于认知语言学,但并不总遵循于当前的事例。我们的替代方法的灵感来自于语篇分析,它很适合研究使用中的隐喻。这和认知语言学隐喻的方法是不相融合的,并且提出了另一个方法以供参考。而且,这些基于研究经验的发现是具有创新性的,且能够被Steen (2008)所提出的隐喻使用中的三围框架理论进行解读。它们为认知语言学隐喻的争论提供一个新的、基于使用的视角,为未来认知语言学家和其他语言学家、心理语言学家以及社会语言学家的合作提出新的问题。1.2 方法论回答 解决这些围绕认知语言学隐喻的重要问题的可行的方法是通过方法论,尤其是对具体使用当中的文件中的誊写中的隐喻进行分析。当研究的目标是会话中的隐喻,问题产生了,关于在大量的口语数据中,隐喻如何能被定义成在语言学形式和认知结构上是可行的、有效地,因为语篇分析开始于给定的语言数据。因此,对大多数认知语言学家而言,一个主要的问题是他们如何能够从语言数据和隐含的结构映射中得出结论,使他们的发现为使用中的隐喻研究提供坚实的基础(e.g.,Steen 1999, 2007, 2009;Semino et al. 2004)。当参照分析方法仔细地回答这一问题,Steen (2007)描述的隐喻研究各方面的准确的分别和关系则会出现,这同样会在一定程度上解决心理语言学家、社会语言学家和其他语言学家所提出的关于隐喻的问题。 关于隐喻识别问题,在文学上有已经提出两大主要的回答(Steen 2007)。第一,可以用演绎法进行隐喻识别,这意味着在这些材料当中一系列的概念隐喻被分析家假定,且为了鉴定语言学的隐喻表达而被使用(e.g., Koller 2004)。但是,第二,同样可以用归纳法进行隐喻识别,从可获得的语言学结构到一系列包括跨域映射的重组概念结构;因为这种方法是归纳的而不是演绎的,多得到的跨域映射并不一定和认知语言学所提出的概念隐喻相吻合(e.g.,Cameron 2003)。如果分析语篇当中所有的隐喻是分析家们的目的而不是在特定的语篇数据中检查特别选择出来的一系列的认知隐喻以及它们的表达的话,那么演绎法就更为困难,因为它没有无限穷尽的已经建立好的充分的且定义合理的隐喻:George Lakoff以及他的同事在19世纪90年代致力于Master Metaphor List研究,但是这一项目证明是已经被抛弃的。一个从概念隐喻到语言表述的自上而下的模式也许因此会在语篇当中漏掉很多的隐喻。 若使用归纳法,这并不意味着对于概念隐喻我们所知道的东西应该被忽视,因为那样会因小失大。这意味着我们需要一个明确的、系统的、可信的工具去找到与概念结构相关的语言表达,这种工具应该至少包括这些显而易见的被演绎法成功揭示的情景,这种演绎法充满了认知语言学隐喻方法的特色。Pragglejaz Group (2007)已经提出了这一可信的演绎的方法,本文的第一作者就是这一组织的创始合作人之一。Pragglejaz Group包括10位语言学家,即Peter Crisp,Ray Gibbs,Alan Cienki,Graham Low,Gerard Steen,Lynne Cameron,Elena Semino,Joe Grady,Alice Deignan 和Zoltán Köecses。他们开发了MIP这一工具,意为隐喻识别过程,其中包括一套为语篇分析家们设计的操作指南,他们立志发现在语篇当中做隐喻使用的词汇(Pragglejaz Group 2007: 3)。1:为了解大意而阅读整个语篇或会话。2:决定会话当中的词汇单元。3a:对语篇当中的每一个词汇单元,确定其在上下文当中的意义,例如,它是如何应用到被文本意义所激发出来的语篇、关系或者属性中的。将词汇单位前后出现的单位也考虑在内。3b:对每一个词汇单位,判断它是否在其他语篇当中而不是给定的语篇中有更加基本的当代的含义。为了我们的目的,基本的意义表现为:-更加具体;它们所激发的更容易想象、看到、听到、感觉到、闻到。-和肢体动作有关系。-更加准确而不是模糊。-历史更加悠久。 词汇单位的基本意义并不一定是最为常用的意义。3c:如果这一词汇意义在其他的语篇当中有比给定的语篇更为当代的意义,要决定语境意义是否与基本意义相对立,但是可以在对比当中理解。4:如果是,这一词汇单位则是隐喻性的。 这一系列的操作指南被发展验证了5年。它现在已经在个人分析家中衍生出了相当可靠地结果,这其中包括6位学者,他们在独立的文本分析当中展示了比较高的一致度(Pragglejaz Group 2007)。 根据Pragglejaz Group,使用当中隐喻的意义被定义为语言的间接意义,因词汇单位的语境意义和其基本意义的对比而产生,后者与具体的语篇相分离,但是在其他语篇当中也是可以观察得到。例如,当一个词汇单位,如attack或者defend在议论文中使用时,它们的文本意义则和口语交换相关。但是,这在Lakoff (1986, 1993) and Gibbs (1993, 1994)看来是间接意义,因为他们可以和具有更加具体意义的其他语篇相对比,包括物理协定或者人与人之间的战争。因为基本意义能够在非文学对比的基础上提供其与语境意义的关系,在议论文当中所有defend和attack的使用都可以被分析为隐喻性的。因此,这一过程会为发现所有会话当中的隐喻使用提供可行性的方法(关于词汇单位这一名词的应用细节将会在本文稍后介绍)。 创造性的隐喻使用将会在下面介绍。当语言形式wipe out在议论文中使用时,正如在Lakoff and Johnson的例子If you use that strategy, hell wipe you out中,它的语境意义是清晰的,但是,这一和议论文没有关系的语境意义并没有高度语境化。例如它最终没有出现在Macmillan English Dictionary for Advanced Learners (Rundell 2002)中。然而,MIP在这一方面并没有问题:为wipe out而构建的特别的或者基于情景的语境意义可以仅仅和wiping out的基本意义对比比较,这一基本含义和清洁、打扫有关系。结果,wipe out也是被认定为隐喻语言的使用。 通过对比,历史隐喻不能被MIP认定为具有隐喻性的。例如,单词fervent和ardent在过去有两层含义,一个是气温,一个是心情,这个可以在1974年出版的Concise Oxford Dictionary中收集得到(McIntosh 1974)。但是,在当代英式英语中,这两个词条都失去了他们原本的气温的含义:例如,在Macmillan dictionary中,他们只有目前的心情的含义。因此像ardent lover这样的表达通过MIP分析看来并不是具有隐喻性的,因为在语境下的合适的心情这一意义和历史的气温的意义没有对比,仅仅因为后者在当代英语中并不被使用了(Deignan 2005)。 当我们仔细观察Pragglejaz Group的过程理论的时候,我们很快发现它与上文揭示的隐喻研究的基本性的问题有重要的联系。因此,“隐喻”总是一个关系词条,简称为“对某些语言使用者而言是隐喻的”。在下面将要报告的研究中,我们认为我们的语言使用者是理想化的英语作为母语的人,正像特定时期的字典所代表的英语一样。这些便利了我们应用MIP。它同时阐明我们的观点向以上三个问题靠拢,“对谁而言是隐喻性的”这一社会心理学的问题。例如,在说同一语言的当地人当中,理想化的母语使用者会抽象地注释很多参数变量。 MIP另一个重要的优势是它不依赖于概念分析,即在浅显的只包括区别意义和比较意义的词义-句义分析上,语言学形式被认定为和隐喻相关。为了它们之间可能的关系,研究发现可以随之被分析为概念结构当中单域或者多个域的映射,但是这并不要求在语言数据中区分隐喻。这一方法与认知语言学现有的惯例相违背,但是并不是上面所提到的其他语言学流派。为了接下来对与之相关的概念结构进行探索,MIP需要发展成为使隐喻在使用时成为更加便于获得的、可靠的、可被大众接受的分析方法,这确实是MIP发展的目标之一,所以,认知语言学“思维中”的隐喻方法可以用更加严谨的方法论进行探讨。因此,我们采用MIP同样也是为了澄清我们关于上述三个基本问题的立场,关于认知语言学派和其他语言学派在语言形式和概念结构上两者的关系。 第三个重要的假设是我们把语言隐喻的识别建立在符号分析上。我们在符号系统层次上研究隐喻的语言学形式及其在意以表达上的表现而不是它们与概念结构的预设的关系,概念结构也可以在符号的或者行为的方式上进行研究(Steen 2007)。这就意味着我们不用对可能与这些表现相关的过程进行细节上的预设,当然,我们并不宣称我们能够在这里所展示的形式上的或者语义上的基础之上对这些过程进行细节上的描述。只能够在行为数据库的基础之上证明隐喻使用当中的过程这一方面,这一基础包括人们在日常使用语言做事情当中得到的观察。我们不关心这边文章使用的分析类型。重申一下,我们只希望从符号学的角度分析隐喻的使用,如此一来,我们可以进行有关行为中的隐喻的独立的分析。 因此,这篇文章向我们展示了拓展的、经过改良的MIP,被称作MIPVU,在大范围上的应用上的发现,更加侧重在方法方面(cf. Steen, Dorst, et al., 2010)。这份报告首先尝试对从英国国家数据库上选取的四个会话样本进行分析,包括四个语域:学术会话,日常会话,小说以及新闻。我们的样本总共包括190,000个单词,在他们和隐喻关系的基础上进行词汇单位的归类。这样也许可以更好地观察隐喻在会话当中及以使用为导向的语法当中所扮演的语言学方式的角色。而且,关于隐喻的认知语言学方法和隐喻的心理语言学、社会语言学和普通语言学的方法之间的关系,这份报告也会发现有趣的含义。1.3 目的 我们的理论框架对三个更加明确的研究目的进行了区分。他们主要是关于隐喻在应用当中的认知语言学方法的语言学、心理语言学以及社会语言学方面。(1) 首先,我们会表明仅仅在语言学层面上收集隐喻数据是可行的、有益的。如果有的话,我们确实是有意忽略这些语言学隐喻是如何与概念结构的那学概念隐喻相关联这一问题。的确,我们语言学上的发现恰好意味着为延伸与隐喻相关的单词的概念结构的认知语言学的分析提供了一个很好的开头。它们同样能够更好地激发在理解隐喻的认知过程中进行研究。(2) 第二个目的是领悟隐喻的某些语言学形式和修辞学形式的角逐。尤其,我们将会观察隐喻作为合适的隐喻或者明喻的语言学上的表达 (cf. Gentner and Bowdle 2001, 2008; Bowdle and Gentner 2005; Glucksberg and Haught 2006; Glucksberg 2008)。因为关于截然不同的隐喻之间的对立对角逐的隐喻心理语言学模式的辩论非常的重要,因此更好地观察隐喻在实际应用当中最为熟悉的方式的重要性以及频率将会是比较有启发性的。(3) 在这项研究当中,我们第三个重要的目的是研究隐喻和语域之间的关系。语料是4,000,000单词的来自100,000,000单词英国国家数据库。我们之所以选择英国国家数据库是因为它提供了一系列用由Douglas Biber和他的同事们发明的说读英语大学语法所描述的现象相关的语言材料(Biber, et al. 1999)。我们进行这项研究削弱了隐喻在四个特殊语域上的描述,这些语域已经从词汇-语法的视角进行了很好的研究。因此,这项研究配合了认知语言学在社会语言学和语言变体方面的新的兴趣点(e.g., Geeraerts 2005; Kristiansen and Dirven 2008)。 总之,我们的目标是识别并且分析在相对大量以及系统的范围之内,在自然的会话当中词汇隐喻的各种变化形式。在语域和一些目前隐喻过程的心理语言学模式的中心的问题之间的社会语言学变化的背景下,我们旨在解读这些发现。研究的目的是增加认知应用当中的隐喻的语言学描述和届时。我们通过在何种语域下何种方式的隐喻以何种方式运用来向大家说明这一问题。2 方法 Pragglejaz Group 已经展示了一系列的他们所推荐的应该在任何涉及会话隐喻识别研究中所使用的方法项(2007: 14)。一些方法在这里并不能运用,比如是否当代含义包括在历史文本:我们的文本来自20世纪后半叶。同样,我们的文本不能认作是寓言。另一个问题是我们在分析当中是否使用了文本以外的暗示信息;我们的答案是:没有。单词编码之后的更高级别的单位比如隐喻性的习语的编码这一反复进行的程序也没有在这个研究当中使用。然而,我们确实应用了另一种反复的程序,研究团队的所有成员检查并讨论了独立的各种分析。同时不适合的是关于口语或者方言数据的文字记录选择问题,因为所有这些已经在英国国家数据库的文本文件中存在。 在Pragglejaz Group清单中余下的条款在以下内容中得到了更加仔细的处理。关于我们程序和条款的所有细节,我们指的是我们的书本出版物(Steen, et al. 2010)。2.1 材料 所有的文件来自英国国家数据库。此项研究的最初目的是注解数据库中每份文件的10%。但是,由于与隐喻相关的词汇单元的数量比我们预期的要多,我们的项目比预期更加的好事,所以我们只能从一半的文件中分析节选的内容。数据库的详细信息见附录。 选择的文本片段是随机从完整的英国国家数据库文件的开始、中间以及结尾处选取的。根据文本的最高截分标准,我们把所有的文件截取成单独的片段,由此来准备选择的片段。我们排除了少量的文件,因为它们的内容太难;如果会话当中太多选段的文本意义对于分析者而言太难的话,将不可能识别隐喻的词汇单位。其他文件被放弃是因为它们内容太短,因此对选段的平均长度而言略选奇怪。尽管这些标准从刚开始就非常地清晰,但是这些文件刚开始还是被使用,导致分析缺乏整体的连贯性;但是,我们没有理由认为这对我们的发现有太大的影响。2.2 技巧过程 详细的操作说明在研究刚开始就已经形成。其起点是由MIP提供,即由the Pragglejaz Group (2007)发行的隐喻识别程序。对其进行的主要的的内容的增加和改变包括以下两个方面:1. 对确定关于词汇单位以及隐喻性使用的词汇单位识别的过程中的很多方面进行详细的解释;2. 增加了关于其他隐喻形式、新的合成词、隐喻标志的新的部分。经过改变后的MIP被称作MIPVU,VU是Vrije Universiteit Amsterdam的缩写,我们的工作就是在这所大学里进行的。MIPVU包括一份大约160页的简要的手册。Steen et al. (2010)已经对其进行描写和阐释。最重要的问题总结如下。与隐喻相关的单词的注解 在程序基础上,所有的单词都被检查,当其与隐喻相关时进行注解。在这里采用了专业术语,所以一个词汇单位在三个不同的方面与概念结构的隐喻性的观点相关,产生三种应用中的隐喻类型:1. 单词本身的使用即是不直接的隐喻性的(He defends his claims well );2. 单词即是概念域的直接表达,概念域在明确表达为对比的某些形式的跨域映射当中作为源域(And he wings up high, like an eagle, said of a bicycle racer who has escaped from the pack and races up a steep mountain);3. 或者它可能是含有隐喻义的源域的含蓄的表达,比如Naturally, to embark on such a step is not necessarily to succeed immediately in realizing it(在这里it替代前面出现的含有隐喻意义的step,此时隐喻的使用是含蓄的);含蓄的隐喻总是以替换或者省略为基础。当隐喻像在(2)中直接表达时,它们会有一些词汇标示,比如(2)中的like,我们编码为MFlag. 这种直接的、带有标记的隐喻是很常见的,但是并不总是明喻(cf. Goatly 1997, for extensive discussion)。 我们进行隐喻识别的首要问题是限定词汇单位。虽然大多数的词汇单位是单个单词,同样也有一些很难进行界定分析的情况,比如两个及以上的单词组成的单词、习语、动词短语以及复合词(cf. Pragglejaz Group 2007)。其中一些问题英国国家数据库本身即有自己解决的方法,比如,多个单词组成的单词,即多单词表达,比如of course 或者 in fact,则通过英国国家数据库中的词汇标注加工项目认定为单个单词;这对于MIP以及它的变体而言都是可以的。同样,习语包括一系列的可以区别的词汇单位,它们可以原封不动保存在资料库中,遵循Pragglejaz Group的策略。在英国国家数据库中,动词短语和复合词同样也可以切分成其包含的单词,每一个单词都有各自的词汇标注,但是这并不要求在隐喻分析过程当中对它们进行其他的处理。这是因为动词短语和复合词在我们的理论框架当中是作为单个的词汇单位的:它们在会话中有一个完整单一的概念的和指称的功能,我们可以把它们命名为不同的实体、属性或者关系。因此,我们已经在资料库中给予所有的动词短语和复合词额外的注解,来表明它们是单一但是复杂的词汇单位,以此来和所有其他的简单的词汇单元区分开来。只有一组例外,所有复杂的词汇单元是非常常规并且能够在字典中找到 。 特别的一组包括新的复合词。因为它们是新创造的,它们顾名思义没有被罗列在字典上。我们认为这种不存在能够用来反映它们在理想化的当代语言使用者当中的心理词汇的缺失,因此,他们不得不把(a)新的合成词分析为各自的组成部分,(b)尽可能激发两个相关的概念或者(c)在它们之间建立支撑关系 (e.g., Estes 2003)。因此,我们认为新出现的合成词包括两个词汇单位,每一个都必须在MIP的一般方法上进行隐喻应用上的检测(cf. Giegerich 2004)。但是,因为它们都是新出现的词语,它们在我们的资料库中都被当做是单个的单词。因此,state-masonry是一个新的合成词,其中masonry认为是与隐喻相关,但是整个词在样本当中都被认作是一个单词。 另一个问题是出于分界线的单词的界定。它们被代码WIDLII,即若有疑问,不予处理进行明确的标记。在我们的计划当中,这一代码在最初被一位分析家独立地注解之后,被应用到这些单词当中,随之而来的来自同僚的网上的评论没有迅速地被这一组的所有的分析家解决。被最终标记为WIDLII的单词代表着我们数据中的有问题的词汇。它们明显的带有争议的注解使它们成为了未来进一步研究的一个很有趣的组别。 而且,一小组词汇单位(数量为401)在隐喻分析中也没有使用,因为它们的文本意义不是非常清晰。几乎所有的单词都来自于会话样本。它们代表了会话样本数据中的1%。 最后,有关for的情况出现了1384此,of则出现了4796次,经讨论,它们均被认作是非隐喻性的,因为他们是去词汇话的介词,表明了基本意义和其他含义之间的有问题的差别。这两个介词占全部介词的33.8%,在整个数据中占3.3%。 Macmillan English Dictionary for Advanced Learners (Rundell 2002)是我们区别词汇单位、文本意义、基本意义一起文本意义和基本意义差别时使用的主要的工具。为何使用这种类型的字典,尤其是Macmillan 字典,是因为它们年代比较近,且是以数据库为基础的(cf. Pragglejaz Group 2007)。 我们同时也是用了第二本字典,以便对于特殊类型的问题能够有第二种的观点,比如Longman Dictionary of Contemporary English。在研究刚开始,我们进行了一个非正式的测验,对100个词汇单位进行比较,发现这两本字典对我们的研究目的而言并没有本质的或者系统上的差别。因此,我们把 Macmillan 作为我们的首选字典,有疑问时再去参考Longman。2.3 分析细节分析者 所有的数据都是这个项目的博士生进行分析的。在第一年,是Ewa Biernacka, Lettie Dorst, Anna Kaal, 和Irene López Rodríguez。从第二年开始,是Berenike Herrmann and Tina Krennmayr replaced Ewa Biernacka 和Irene López Rodríguez。这些博士生从主要的研究者哪里得到了关于MIPVU的训练。协议 MIPVU是我们隐喻识别过程的基础,但是它应该在我们整个研究材料时的方法中展现。我们根据以下的协议来掌控文本:1. 选篇由主要的研究者从英国国家数据库中进行选取,并组成有所管理的数据库。2. 博士生选取分配给他们的选篇,并且形成个人的注解;所有的分析者都非常注意从各自的域来看待材料,以便使他们协调应对不得不用同一程序从始至终进行解决的问题。3. 个人的注解的内容会贴到网站上,以便其他的博士生评论。4. 其他的博士生阅读检查同事的工作,提出评论和质疑。5. 对于已经在特殊的词汇数据库里记录下来的识别过程的细节和之前的关于特列的决定,所有的博士生和主要的研究者召开小组会议讨论评论,对记录下来的有问题的例子进行最终的决定。6. 个人分析的文件中的注解在网站的基础上进行持续的修改。7. 最终的注解就储存在单独的文件夹中。8. 为了进一步的查阅,有关有问题的例子的决定都被记录在了特别的词汇数据库中。 经过讨论后,略加简化的网站版本展示如下:The essays in </mrw> this </mrw> book do not amount </mrw> to </mrw>a programme: but they are intended to provide a springboard </mrw> for<mrw type = “met” status = “UNCERTAIN” morph = “n” TEIform = “seg”>one </mrw>.I think we should actually mark this deictic marker as well3.2 one: Im not sure, maybe only if the word it refers to is M; in this case itrefers to programme, right? So not M because programme is not M? L3.2.1 perhaps you are all right. not M. AIC 斜体标注的文本均来自英国国家数据库,用尖括号增加标注:编码mrw代表与隐喻相关的单词,包括直接的、间接的和含蓄的隐喻。在英国国家数据库的选段标注中插入的带有下划线的评论是由个人的分析者贴到注解文件中的疑问;这些疑问提示其他的博士生注意可能出现的问题,并引出讨论。在注释的文本里,关于特殊的词汇单元,可以发现由其他分析者标注的编号的评论。这些评论是由最初公示评论的分析家签字的。它们被言论的顺序所标记,对这些评论的反应可以由群组的其他成员进行增加。在这种情况下,评论可以被看到,使用M代表隐喻性的;负责的分析者(AIC)能够积极对待这些评论。讨论之前的可行性 在整个注解过程中进行了5个可行性测验,当分析家们已经独立地分析了他们的材料(在讨论之前),来检验他们之间的默契度。最小的测验包括713个单词,最大的是1940个单词,所有测试加起来是6659个单词。因为在所有特殊的情况下,比如直接隐喻、间接隐喻和WIDLII发生的概率都非常地低,在所有的数据库中以及在可行性测验当中,对数据可行性的分析仅仅关注一种分类,即是否与隐喻相关。对其他现象的误差容限在不同的方面评估(见下文疑难解答)。 下面给出一个数据库材料中的例子(从CLP学术文本):From1234 the narrow1234 accountancy viewpoint1234, people are a cost23 and it is desirable to keep1234 this1234 cost2 as low1234 as possible. In1234 these1234 terms3 it is very difficult to justify1, for example, sending2 a member134 of staff on1234 a training1 course1234. The training1 requires expenditure and so also does the replacement for the person away3. Where124 is the return1234? The return1234 is actually in1234 the improved human resource23 but this1234 is not readily measurable2 in1234 terms3 which accountants use1234.黑体的数字表明某一位被某一位分析家标注的与隐喻相关的单词。 可行性很高(可见Steen et al. 2010的全文报告)。据Fleiss kappa检测,在个例的基础之上,平均值是0.85.平均来说,在92%的例子当中,就关于一个词汇单位是否与隐喻相关,分析者们能够达到无异议的一致。在讨论之前,这是四个独立的分析者之间达成的高度的一致性。在两个截然不同的队伍里面,两个分析者也保持一致。应该注意这绝对要比关注更小数据库的Pragglejaz Group高很多。 关注分析者的偏见而忽视个例之间发生的东西的Cochrans Q的检验通常是非常重要的,这就意味着,当独立地工作时,对每一个文本而言,总有一个或者两个分析者通常比其他的分析者得到更多或者更少的隐喻的注解。这一问题随后被全面的协议分析环节了,描述如下:大部分的错误或者太丰富的兼容性被过滤。正像这里所展示的一样,这种减少建立在动态的基础之上,但是我们的识别过程的基础在于可信的个人的分析上也是非常值得肯定的, Fleiss Kappa称之为个例分析。因此,我们这里要关注的是在系统性的、明确的说明的基础上,进一步增加一致性。完成之后出现的疑难问题 当收集完所有的隐喻数据库的时候,会进行单独的一轮粘贴找问题的活动(详见 Steen, Dorst et al. 2010的报告)。选取的各有特色的我们已经经历过并认为是有问题的样本被检查,以便判断这些问题会引起多大的问题。一些系统性的问题被发觉并解决,剩余的误差容限被估计。检验结果如下:1. 为了识别先前的英国国家数据库中的动词短语、复合词以及多词词汇,应该考虑把误差容限限定在0.3%2. 因为在文本当中缺乏可懂性,因此分析隐于市,会话当中所有词汇单元的1%的单词被删除。3. 在WIDLII (When In Doubt, Leave It In)的基础之上,将一组词汇单元归类为隐喻性的误差容限为20%。4. 关于标记隐喻出现(MFlags)的词汇的门类的一致性高于95%。5. 归类与隐喻相关的作为隐喻的直接表达的词汇单元的误差容限没有被单独的检查,因为这些单词的的性质与 MFlags 紧密相关。6. 归类与隐喻相关的作为隐喻的含蓄的表达的词汇单元的误差容限被单独的检查,产生了单独一轮的检查,其中,我们在所有数据库中检查所有有可能成为隐喻的例子。我们通过检查30个有可能的一系列的整体的单词来达到这一目的,包括情态动词、主要的动词,以及one, another之类的表达,这大概占到了所有数据的16%。 我们决定是否这些类别的标记真的是用来黏合的,如果确实是的话,那么它的内在凝聚力的用法是否是含蓄的隐喻性的呢?在几组真正粘合地使用这些策略的样本的超过2000个单词,每10个出现的概率是79%,可行性测验对其进行了估计。对于所有的文本样本,关于含蓄使用的隐喻性的随后的决定的同一度达到了100%,但是会话类的则相对要低很多。 在文本的基础之上,形成了更加明确的指南,所有的数据都按照语域划分,然后再由每一位分析家再一次分析。最后每个语域会有1000个样本案例,由主要的研究者进行分析,这导致了分析者个人和主要研究者之间同样的可信度。总之,含蓄隐喻的可信性大约和直接隐喻的可信性相等。2.4 数据库的准备在错误纠正阶段,在所有注释的文件中发现的问题都被改正以后,它们就被转换到SPSS数据库中。需要当做单个单元的例如复合词,动词短语,多词词汇之类的的单独的词汇单元被分解成单个的案例。所有的缩写词比如he'd(he would的缩写)都被当做SPSS数据库中独立的词条对待。相对比,所有的单独的所有格的标志s或者'已经被忽略为策略性分析的独立的案例。在SPSS中词汇单元的总数目为186,688.3 结论所有的词汇单元都按照类别