语言后设资料OLAC及DC标准与应用.ppt
《语言后设资料OLAC及DC标准与应用.ppt》由会员分享,可在线阅读,更多相关《语言后设资料OLAC及DC标准与应用.ppt(98页珍藏版)》请在三一办公上搜索。
1、1,語言後設資料:OLAC及DC標準與應用,張如瑩ruynggate.sinica.edu.tw中研院語言所籌備處2003年9月10日,語言座標研習營,2,Outline,BackgroundDCMS:Dublin Core Metadata Element SetOLAC:Open Language Archives CommunityLanguage Archive,3,Background#1,全球資訊網(World Wide Web)的興起知識時代的來臨面對語意網(Semantic Web)挑戰,4,Background#2,文字與圖片資料機器無法真正理解其義非語意或語意的註解皆有助於
2、電腦理解將Web page呈現和內容以XML或其他物件導向的語言(ex:XOL,SHOE,RDF,RDF Schema,DAIL+OIL)加以呈現,5,Metadata 定義和功能,譯名:後設資料、詮釋資料、超資料、元資料或是元數據定義Metadata通常稱為“data about data”描述資料的資料。Metadata是資料結合物件,用來描述資料屬性的資料,以協助其潛在使用者擁有完整的進一步知識。功能包括:定位(location)探索(discovery)文件紀錄(documentation)評估(evaluation)選擇(selection),6,Dublin Core Metada
3、ta Initiative,源起1995挖掘web資源的OCLC/NCSA Metadata workshop,http:/dublincore.org/Dublin Core後設資料元素一個普遍跨學科的核心元素,有效廣泛支援資源挖掘,適用於任何以數位化或傳統型態存在的資源描述.目標:更容易挖掘出資源以及資料互通包含十五個可任選與重複的元素(elements),7,Dublin Core Metadata Element Set v1.1,Title 資源標題Creator 創造者Subject 主題Description 資源描述Publisher 出版者Contributor貢獻者/單位D
4、ate日期Type資源型態,Format 資源格式Identifier 資源識別碼Source 來源Language 語言Relation 關聯性Coverage 涵蓋範圍Rights權利管理,8,DCMS-修飾語(qualifiers),Element refinement更詳細敘述元素的意義.範圍限制更嚴格.Ex:element:Titlerefinement:AlternativeEncoding Schemaqualifier定義schemes是可幫助element進行直譯.schemes的值包括(1).控制詞彙(controlled vocabularies),(2).規格化的註解(
5、formal notations)(3).剖析規則(parsing rule).Ex:element:Subject Encoding Scheme:LCSH、MeSH、DDC、LCC、UDC,9,語言典藏及其後設資料標準,10,Open Language Archives Community,http:/www.language-archives.org,11,OLAC的目標,於2000年12月的一個語言資源工作營中,由來自北美、南美、歐洲、非洲、中東、亞洲、澳洲的語言學家與軟體發展者所創,希望藉由下列步驟進行創造世界性語言資源的虛擬圖書館:針對語言資源數位典藏發展一致性的實踐指引。發展一網
6、路上具有互通性且提供存取相關語言資源的儲存器和服務中心,12,OLAC的組織,Coordinators:Steven Bird&Gary SimonsAdvisory Board:Helen Aristar Dry,Susan Hockey,Chu-Ren Huang,Mark Liberman,Brian MacWhinney,Michael Nelson,Nicholas Ostler,Henry Thompson,Hans Uszkoreit,Antonio ZampolliParticipating Archives&Services:LDC,ELRA,DFKI,CBOLD,ANLC,
7、LACITO,Perseus,SIL,APS,UtrechtProspective Participants:ASEDA,Academia Sinica,AISRI,INALF,LCAAJ,Linguist,MPI,NAA,OTA,Rosetta,Tibetan Digital Library(UVA)Individual Members:120,13,OLAC的緣起,許多協會需要語言資源,如:語言學家、工程師、教師、演說家許多機構提供片段性的架構,如:檔案管理員、軟體發展者和出版者。前所未有的契機:延伸性標誌語言(Extensible Markup Language,XML)和 Unicod
8、e提供以結構化方式彈性呈現以及長期儲存資料。線上或非線上的數位化出版品有效且實際上達到分享語言資源涵義Dublin Core 後設資料集(資源分類標準模組)連同Open Archives Initiative所提供的交換方法,可建立一個跨越多個儲存器與檔案櫃的架構。,14,OLAC的願景#1,使用者透過單一OLAC的服務提供中心網站,搜尋與呈現OLAC的metadata欄位。,15,OLAC的願景#2,理論上使用者可取得任何需要的資源DATA任何描述語言的相關資訊。問卷結果:25%數位化,但並未採用相同的後設資料欄位。TOOLS有助於創造、瀏覽、查詢或使用語言資料的計算機資源。ADVICE什麼
9、資源是可靠的?什麼工具適用於此情境?創造新資料時該如何作?,16,OLAC的願景#3,實際上無法得到想要的資源在不同網站擁有不同名字(Name)造成召回率低(low recall)。在其他領域有相同意義,造成正確率低(precision).是否運用適當軟體以及判斷ADVICE的價值?許多語言資源並非以文字為基礎。語言資源散佈在不同的網站。,17,OLAC的願景#4,OAI,CONTENT,METADATA,OLAC REPOSITORIES,OLAC SERVICES,USER SERVICES,18,OLAC的願景#5,銜接縫隙的基礎架構Gateway使用者可獲得data,tool,advi
10、ce的單一入口網站。Metadata data,tool,advice的統一描述,包含所有項目的連結以及解釋如何存取。Review瀏覽 data,tool,advice的評價。Standards上述各項過程與協定的基礎,例如:metadata schema,harvesting protocol.,19,OLAC三個主要標準,OLAC Metadata(Qualified DC)OLAC MHP:Refinements to the OAI protocolOLAC Process:a procedure for identifying Best Common Practice Recomme
11、ndations.,20,OLAC Metadata,2001 年10月推出0.4版本以Dublin Core的15個元素為基礎以OAI(Open Archives Initiative)為典藏架構的基礎可經由XML的DTD或Schema編碼加以驗證中譯本,請見語言典藏網站 http:/LanguageArchives.sinica.edu.tw/,21,OLAC Metadata 0.4版,貢獻者/單位(Contributor)涵蓋範圍(Coverage)創造者(Creator)日期(Date)資源描述(Description)資源格式(Format)資源cpu格式(Format.cpu)資
12、源編碼格式(Format.encoding)標誌語言(Format.markup)作業系統需求(Format.os)程式語言(Format.sourcecode)資源識別碼(Identifier),語言(Language)出版者(Publisher)關聯性(Relation)權利管理(Rights)來源(Source)主題(Subject)主題使用語言(Subject.language)資源標題(Title)資源型態(Type)軟體資源的功能(Type.functionality)語言學上的資源型態(Type.linguistic),22,IRCS Workshop,IRCS Workshop
13、 on Open Language Archives10-12 December 2002University of Pennsylvania,Philadelphia,USAhttp:/www.language-archives.org/events/olac02/2002-12-11誕生1.0版本 proposal2002-05-31 1.0版本Candidate Standard,23,OLAC Metadata 1.0版之變革,OLAC Metadata 格式延伸機制(Extensions)OLAC的延伸(OLAC extensions)OLAC建議的延伸(建議的控制詞彙)第三團體的延
14、伸(a third-party extension)延伸進行文件化,24,OLAC Metadata格式#1,OLAC Metadata 格式遵從Guidelines for implementing DC in XMLOLAC 綱要(OLAC schema)為了限制DC所發展的兩個後設資料綱要經混合後的應用輪廓(Application profile)DC副本儲存處:基本的DC:http:/www.language-archives.org/OLAC/1.0/dc.xsd修飾語:http:/www.language-archives.org/OLAC/1.0/dcterms.xsd最新版本的
15、OLAC 後設資料綱要(附上簡單的記錄)請見:綱要(Schema):http:/www.language-archives.org/OLAC/1.0/olac.xsd 例子:http:/www.language-archives.org/OLAC/1.0/olac.xml,25,OLAC Metadata格式#2,元素來源:http:/www.language-archives.org/OLAC/1.0/metadata容器(container):元素名稱空間(Namespace)OLAC元素:olacDC元素:為預設值,所以不需要名稱空間一筆有效的OLAC紀錄 Bloomfield,Leon
16、ard 1933 Language New York:Holt,26,OLAC Metadata格式#3,OLAC後設資料,也包括DC修飾語並遵從Guidelines for implementing DC in XML使用refinement或encoding scheme在後設資料都必須要宣告dcterms名稱空間xmlns:dcterms=http:/purl.org/dc/terms/例如:以W3C日期格式呈現創造日期:2002-11-28,27,OLAC Metadata格式#4,元素內容所使用的語言-xml:lang的屬性值語言識別代表碼RFC1766保留前置字元x-OLAC採用該
17、機制定義了語言代碼,其中包含超過7,000種現存及絕種的語言若缺少xml:lang屬性預設值為英語。多個後設資料元素去標記不同的語言,則資料提供器(Data providers)將提供多語的後設資料記錄,28,使用OLAC的延伸(Extensions)#1,xsi:type機制具有抓取XML Schema完整權限,被用在除了縮小元素意義、限制元素內容(如同DC修飾語)等其他意圖而進行的改變。又或者藉由額外的屬性的樣式(pattern)或列舉值(enumerations)依次限制,這兩者可同時使用。延伸機制著錄原則:有限制的元素內容以code屬性去著錄其他沒有限制的附註以元素內容加以著錄。cod
18、e屬性和元素內容同時被使用時,則以元素內容陳述更精準資源描述,勝過於單獨以code的限制詞彙加以表達。code屬性是任選的,他可用來增加精準率,標示屬於其他所遺留但非原始限制過的資料。,29,例子:描述喀麥隆(Cameroon,西非國名)Dschang 語言資源的變遷三步驟:Dschang利用元素內容Dschang 利用參考名稱空間以及元素內容 利用code屬性的控制詞彙,使用OLAC的延伸(Extensions)#2,30,使用OLAC的延伸(Extensions)#3,皆會被視為最佳實踐指引(recommended best practice)被定義在名稱空間為olac的schema中不受
19、OLAC控制的額外詞彙,且不隸屬於OLAC過程(OLAC Process)例如:Ethnologue 語言代碼文件需描述OLAC延伸,並對於未定義新增的這個詞彙,必須標注簡單的資料,以及參考到額外的詳細定義。OLAC延伸的變更,當編碼值詮釋的範圍更狹窄,則以新的碼代替之前已存在的編碼值。,31,OLAC建議的延伸(Extensions)#1,為了符合語言資源社群的特殊需求,OLAC使用延伸使語言描述更精準。使用xsi:type這屬性終止基本DC後設資料元素的定義,而在語意上更精準的定義。例如:主題(Subject)的描述:Dschang language(表示該資源主要描述的是和Dschang
20、語言資源相關的。)將標準語言識別碼帶入OLAC延伸:,32,OLAC建議的延伸(Extensions)#2,言談型態代碼(Code for Discourse Types)名稱(Name):olac:discourse-type應用於(Applies to):資源型態(type)、主題(subject)語言識別代碼(Code for Language Identification)名稱(Name):olac:language應用於(Applies to):資源型態(type)、主題(subject)語言學領域代碼(Code for Linguistic Field)名稱(Name):olac:
21、linguistic-field應用於(Applies to):主題(subject)語言學的資料型態代碼(Code for Linguistic Data Types)名稱(Name):olac:linguistic-type應用於(Applies to):資源型態(type)參與者角色代碼(Code for Participant Roles)名稱(Name):olac:role應用於(Applies to):創造者(creator),貢獻者/單位(contributor),33,定義第三團體的延伸(Defining a third-party extension)#1,允許子社群針對一個
22、共有特殊關注的部分加以發展和分享後設資料的延伸藉由其他名稱空間透過xsi:type的使用,不需要變更OLAC綱要(OLAC schema),便可以延伸OLAC的應用輪廓(application profile),34,定義第三團體的延伸(Defining a third-party extension)#2,例子:貢獻者/單位(Contributors)的角色,在OLAC-Role中增加注釋者(Commentator)Sampson,GeoffreySampson,Geoffrey則XML Schema和說明 更多例子請見http:/www.language-archives.org/OLAC
23、/1.0/third-party/第三團體所定義之延伸,是由專業的子協會定義其他屬性,而這些屬性將被標準的OLAC服務所忽略。,35,文件化延伸(Documenting an extension),每一個延伸都應該提供那些詞彙在語義上相關的且人們可讀的使用說明。每個延伸機制都應該提供一份摘要說明摘要說明(summary documentation)包含六個委任元素:簡稱(shortName)、全名(longName)、版本日期(versionDate)、描述(description)、應用於(appliesTo)、延伸機制說明(extensionDoc)摘要說明擷出的資訊是為了呈現在OLAC網
24、頁中的第三團體之延伸機制文件,36,後設資料和內容標記,後設資料以資源實體為標記單位內容標記以字、詞為標記單位維習安(2000)提到所謂內容標記是指透過有系統的標記,以呈現文本的結構、以及任何文本使用者有興趣的內容訊息。,37,內容標記類別,Metadata,類似文件的書目描述結構卷、章、節、句、詞彙.排版項目符號的標記語言學的注解etc.詞類、音韻.,38,語音標誌 phonetic,語言的聲音部分.音素(phoneme):語音的最小單位.音節(音綴)(syllable):漢語裡,一個字就是一個音節.音高(pitch):聲音的高低.漢語裡音高變化可區分詞義的作用,如媽、麻、馬、罵四個字的聲調
25、不同即音高的不同.聲調(tone):有些語言,特別是和藏語系各語言裡面不同的音高升降曲折變化具有區分詞義的作用.語言學上稱具有這種音高升降曲折狀態叫做聲調(tone).吐氣群(breath group)音調(語調)(intonation):整個句子的音高曲折變化.,39,語法標誌 syntax,也叫文法.即語言的組織規律.從最廣的意義上說,語法是只對語言中存在的規則性和不規則性所作的概括描述.詞類(Parts of Speech):詞的最基本語法分類,例:名詞、動詞詞組/短語(phrase,word group):(1).由兩個或兩個以上的實詞組合而成的句法單位.例:兄弟姊妹,高樓,好得很,愛
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 资料 OLAC DC 标准 应用
链接地址:https://www.31ppt.com/p-5667309.html