欢迎来到三一办公! | 帮助中心 三一办公31ppt.com(应用文档模板下载平台)
三一办公
全部分类
  • 办公文档>
  • PPT模板>
  • 建筑/施工/环境>
  • 毕业设计>
  • 工程图纸>
  • 教育教学>
  • 素材源码>
  • 生活休闲>
  • 临时分类>
  • ImageVerifierCode 换一换
    首页 三一办公 > 资源分类 > PPT文档下载  

    CATAR-文献内容探勘工具.ppt

    • 资源ID:5574309       资源大小:1.06MB        全文页数:42页
    • 资源格式: PPT        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    CATAR-文献内容探勘工具.ppt

    CATAR-文獻內容探勘工具,簡介安裝使用解讀案例,曾元顯國立臺灣師範大學2016/02/16,文獻內容分析-簡介,相關學科:Bibliometrics、Scientometrics、InfometricsContent analysis in social science相關期刊JASIST,Scientometrics,Journal of Infometrics相關會議ISSI:International Society for Scientometrics and InfometricsSTI:Science and Technology Indicators,2,文獻內容分析-動機,專利的前案分析,希望能在半天內完成引自類比IC設計製造公司副總經理說法鑑往知來、避開重複、促進創新擷取重點、評估形勢、規劃策略找出特定作者、機構邀請投稿、演講、審查、合作、求助科技政策分析與決策輔助作者、機構、國家生產力分析績效評鑑、經費分配,3,文獻內容自動分析,長期目標:自動掃描相關文獻,分析、組織、呈現提供探索、指引,以供後續驗證、決策相關研究Structured Abstract in library science(1987)Automated structured abstract in biology(2007)專利文獻自動分析(2004,NTCIR)研究文獻中的情緒語意分析(2010,STI)科教領域,4,文獻內容自動分析-工具現況(1/2),CiteSpace陳超美,Drexel University(2003)http:/cchen/citespace/擷取科學論文中自然呈現的聚類顯示典範移轉中的轉折點-類別間的橋樑VOSviewer Nees Jan van Eck and Ludo Waltman(2007)CWTS of Leiden University/,5,文獻內容自動分析-工具現況(2/2),Science Mapping Software Tools:Review,Analysis,and Cooperative Study Among ToolsCobo,et al,JASIST 2011 paper比較九種工具(免費、付費)Bibexcel,VantagePoint,Sci2 Tool,沒有一種工具可以涵蓋其他工具的所有功能這類分析(幾乎)有標準流程(Brner et al 2003)CATAR released in 2010(since 2004),6,CATAR簡介,Content Analysis Toolkit for Academic Research曾元顯,2004-2015http:/samtseng/CATAR/CATAR技術細節:Yuen-Hsien Tseng,Chi-Jen Lin,and Yu-I Lin,Text Mining Techniques for Patent Analysis,Information Processing and Management,Vol.43,No.5,2007,pp.1216-1247.Journal clustering of Library and Information Science for subfield delineation using the bibliometric analysis toolkit:CATAR,Scientometrics,Vol.95,No.2,pp.503-528,May 2013.曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),129-166。曾元顯,文獻內容探勘工具-CATAR 之發展和應用,圖書館學與資訊科學 半年刊,第 37 卷 第 1 期,頁 31-49,2011年 04月.,7,CATAR分析功能,概觀分析(overview)主題歸類分析(clustering)書目對分析(bibliographic coupling)共現字分析(co-word analysis),8,CATAR安裝,安裝Perlhttp:/Perl modules解壓縮到C:,以便產生C:CATAR目錄C:CATARsrc:程式放置處,命令由此目錄下達C:CATARSource:待分析資料放置處C:CATARResult:執行結果資料放置處C:CATARdoc:執行過程資料放置處,9,待分析資料的準備,待分析資料的界定(最重要的步驟、第二有價值的部分)關鍵詞搜尋的結果核心期刊的論文綜合查詢的結果(期刊+關鍵詞+年代限制)一篇篇專家確認過的文獻WoK資料的搜尋搜尋技巧與資料下載參考:WoS_Record_Download.ppt,10,ISI WoS Publication Record,FN ISI Export FormatVR 1.0PT JAU Tseng,SC Tsai,CCAF Tseng,Sheng-Chau Tsai,Chin-ChungTI On-line peer assessment and the role of the peer feedback:A study of high school computer courseSO COMPUTERS SELFAB The purposes of this study were to explore the effects and the validity of on-line peer assessment in high schools and C1 Natl Chiao Tung Univ,Inst Educ,Hsinchu 300,Taiwan.Natl Chiao Tung Univ,Ctr Teacher Educ,Hsinchu 300,Taiwan.RP Tsai,CC,Natl Chiao Tung Univ,Inst Educ,1001 Ta Hsueh Rd,Hsinchu 300,Taiwan.EM,CR ROTH WM,1997,SCI EDUC,V6,P373 DOCHY F,1999,STUD HIGH EDUC,V24,P331 NR 23TC 2PU PERGAMON-ELSEVIER SCIENCE LTDPI OXFORDPA THE BOULEVARD,LANGFORD LANE,KIDLINGTON,OXFORD OX5 1GB,ENGLANDSN 0360-1315J9 COMPUT EDUCJI Comput.Educ.PD DECPY 2007VL 49IS 4BP 1161EP 1174PG 14SC Computer Science,Interdisciplinary Applications;Education&Educational ResearchGA 218OFUT ISI:000250024100013ER,Only the fields in red color are used.,Cited References are used in the bibliographic coupling for topic clustering and citation tracking,11,WoS的重要欄位,AU:作者欄,例:Kainz,H;Hofstetter,HTI:論文標題,例:Adaption of the main waste water treatment plant SO:期刊全名,例:WATER SCIENCE AND TECHNOLOGY。DE:作者給定的關鍵詞,例:large wastewater treatment plant;。ID:論文描述詞,例:WATER;CONTAMINATION;PLANT;。AB:論文摘要,約100-300個英文字。C1:作者所屬機構之國家。CR:參考文獻,例:BALDI F,1988,WATER AIR SOIL POLL,V38,P111NR:參考文獻篇數,例:3。TC:被引用的次數,例:1。PY:論文出版年,例:1996。SC:論文所屬領域別,例:Environmental Sciences;Water ResourcesUT:Web of Science 之論文主鍵欄,例:ISI:A1996VF74600009,12,概觀分析,將資料解剖,置於資料庫內,以便於管理從資料庫中,讀取各欄位,進行交叉統計趨勢分析年代篇數序列的線性回歸線斜率作為趨勢指標Yuen-Hsien Tseng,Yu-I Lin,Yi-Yang Lee,Wen-Chi Hung,and Chun-Hsiang Lee,A Comparison of Methods for Detecting Hot Topics,Scientometrics,Vol.81,No.1,Oct.2009,pp.73-90.執行命令(範例):C:CATARsrcperl s automc.pl-OOA SE.Source_DataSEdata,13,待分析資料之路徑名稱,分析結果之目錄名稱,命令選項,命令提示字元(DOS)命令,開啟命令提示字元開始-所有程式-附屬應用程式-命令提示字元變換到磁碟機C:C:變換目錄到CATAR:cd CATAR變換到上一層目錄:cd.絕對路徑:C:CATARSource_DataSEdata相對路徑:若已經在目錄CATARsrc下,則為.Source_DataSEdata,14,概觀分析範例,結果參考:C:CATARResultSE_SE_by_field.xls,15,Document Type=(Article)Databases=SCI-EXPANDED,SSCI,A&HCI Timespan=2005-2009,Year Production:Top 8 Countries,16,Most Productive Authors:Top 10,NC=Normal Count:each co-author is counted as a single authorFC=Fractional Count:all the co-authors are counted as a single authorIF=TC/NC,FIF=FTC/FC,AU Tseng,SC Tsai,CCTseng,SC:1Tsai,CC:1,AU Tseng,SC Tsai,CCTseng,SC:0.5Tsai,CC:0.5,17,Most Productive Institutes:Top 15,Data are from the C1 field of each record:C1 Natl Chiao Tung Univ,Inst Educ,Hsinchu 300,Taiwan,18,Most Cited References,Data are from the CR field of each record:CR ROTH WM,1997,SCI EDUC,V6,P373,19,Most Cited Authors,Data are from the CR field of each record:CR ROTH WM,1997,SCI EDUC,V6,P373,20,Most Cited Journals,Data are from the CR field of each record:CR ROTH WM,1997,SCI EDUC,V6,P373,21,主題歸類分析,索引建立相似度計算文件歸類-建立主題樹類別標題詞擷取多階段歸類-建立高階主題樹多維縮放(MDS)-建立主題地圖主題與各項資料的交叉分析,22,索引建立,書目對分析:建立書目對強度矩陣計數並正規化引用次數共現字(與任何文字)分析:刪除停用詞(the、of、for、on、and,at,)正規化詞彙(消除單複數、被動、進行式的差異)擷取關鍵片語(已專利之技術Tseng,2002,JASIST)建立詞彙到文件的反向索引資訊檔案,23,相似度之計算,M=9957for 318 EEPA papers,T=2529 for 318 EEPA papers,Sim(A,B)=2x|S(A)S(B)|-|S(A)|+|S(B)|,24,主題樹,根據相似度(距離)矩陣,進行凝聚階層歸類agglomerative hierarchical clustering(AHC)Complete link criterionDendrogram主題樹,25,主題樹範例(電影新聞資料),1(7):161:7 Docs.:0.3478(美國:9.4)2:4 Docs.:1.0000(美國:4.1)13:101765:2006-01-01:納尼亞傳奇 美國片 55:113371:2006-03-19:V怪客 美國片 48:109839:2006-03-12:北國性騷擾 美國片 1:98663:2006-01-08:惡狼ID 美國片 32:3 Docs.:0.7245(影迷:7.0,美國:2.4)14:2 Docs.:0.9340(影迷:4.0,絕命終結站:3.5,絕命:3.5,飛車:2.8,雲霄飛車:2.8)11:101543:2006-01-15:奪魂鋸2美國片 27:104778:2006-02-26:絕命終結站3雲霄飛車驚魂 16:102575:2006-01-08:偷穿高跟鞋美國片 9(3):28:3 Docs.:0.7614(傑克:10.0,李安:8.9,傑克基倫霍:7.0,基倫霍:7.0,希斯萊傑:3.2)17:2 Docs.:0.9141(李安:11.0,傑克:5.7,斷背山:4.9,希斯萊傑:4.0,傑克基倫霍:3.2)3:98770:2006-01-22:李安靠 斷背山重拾熱情 7:100886:2006-01-22:斷背山 美國片 21:104156:2006-02-26:鍋蓋頭 美國片 12(3):74:3 Docs.:0.5263(奶油:7.3,絕配:6.0,料理:5.1,凱特:4.9,尼克:3.2)58:2 Docs.:0.6041(番紅花:6.3,凱特:6.0,番紅花醬汁:4.9,尼克:4.0,鮮奶:4.0)68:397612:2007-08-25:料理絕配 跟著男主角做義國菜 71:403973:2007-08-25:料理絕配 跟著女主角做法國菜 69:398615:2007-08-25:料理絕配 看電影學用餐禮儀,26,類別序號與篇數,類別編號(下一階使用)與篇數,相似度,類別標題詞,類別標題詞自動擷取,歸類後,自動擷取類別特徵詞,作為類別標題結合相關係數及詞頻排序詞彙,可獲顯著成效 Yuen-Hsien Tseng,Generic Title Labeling for Clustered Documents,Expert Systems With Applications,Vol.37,No.3,15 March 2010,pp.2247-2254.,27,多階段歸類示意圖,Docs.,Concepts,Topics,Outliers:低於門檻,無法歸入類別者,第一階段,第二階段,每一階段 均為 獨立的 凝聚階層歸類(AHC),28,主題地圖,MDS(Multi-Dimensional Scaling,多維縮放)將n個物件,總共n(n-1)/2個相似度關係,投影到2或3維空間上,以便於視覺化其關係,29,NSC美國專利文獻主題地圖,主題樹與主題地圖,Carbon Nanotube專利文獻分析,30,書目對分析,執行命令(範例):C:CATARsrcperl-s automc.pl-OBC SE.Source_DataSESE.mdb結果:C:CATARResultSE_BC*.html:主題樹*all*.html:主題樹以及各項資料之交叉分析*.xls:各主題與各項資料之交叉分析*titles*.html:每個主題包含之篇名,31,共現字分析,執行命令(範例):C:CATARsrcperl-s automc.pl-OCW SE.Source_DataSESE.mdb結果:C:CATARResultSE_CW*.html:主題樹*all*.html:主題樹以及各項資料之交叉分析*.xls:各主題與各項資料之交叉分析*titles*.html:每個主題包含之篇名,32,分析範例-曾元顯著作-書目對,1(6):34:6 Docs.:0.020000(cluster:5.1,map:3.0,min:3.0,text:2.1)12:4 Docs.:0.142857(cluster:7.0,patent:5.2,text:3.7,generic:2.6,title:2.6)5:3 Docs.:0.224490(cluster:5.0,generic:3.1,title:3.1,text:2.4,document:2.3)1:2 Docs.:0.692308(generic:4.0,title:4.0,cluster:3.2,document:3.1,correlation coefficient:2.0)2:ISI:000241690200012:2006:Toward generic title generation for clustered documents 6:ISI:000272846500049:2010:Generic title labeling for clustered documents 3:ISI:000246869800006:2007:Text mining techniques for patent analysis 4:ISI:000251991600006:2007:Patent surrogate extraction and evaluation in the context of patent mapping 18:2 Docs.:0.052632(education:4.0,content analysi:2.0,content:2.0,media:2.0)7:ISI:000277110400017:2010:Mining concept maps from news stories for measuring civic scientific literacy in media 8:ISI:000279714800001:2010:Trends of Science Education Research:An Automatic Content Analysis 2(3):15:3 Docs.:0.095238(neural network:3.1,quadratic:2.3,sort:2.3,perceptron:1.7)2:2 Docs.:0.333333(quadratic:3.0,sort:3.0,perceptron:2.3,winner-take-all:1.4,constant-time:1.4)13:ISI:A1995QT09700011:1995:ON A CONSTANT-TIME,LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK 9:ISI:A1992HU15600007:1992:SOLVING SORTING AND RELATED PROBLEMS BY QUADRATIC PERCEPTRONS 10:ISI:A1992HY58100028:1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER NEURAL NETWORKS 3(2):14:2 Docs.:0.113208(automatic:3.1,chinese:1.4,text:1.4,thesauru:1.4)4(2):3:2 Docs.:0.285714(code:4.0,decoder:1.4,fast:1.4,reed-muller:1.4)11:ISI:A1993MA58300001:1993:DECODING REED-MULLER CODES BY MULTILAYER PERCEPTRONS 12:ISI:A1993MA58300002:1993:FAST NEURAL DECODERS FOR SOME CYCLIC CODES 5(1):36:1 Docs.:0(hot:2.0,detect:2.0,comparison:2.0,topic:1.1,scientometric:0.7)5:ISI:000270841800006:2009:A comparison of methods for detecting hot topics,33,合理度:100%,門檻=0.0,分析範例-曾元顯著作-書目對(第二階),1(2):1:5 Docs.:0.100000(neural:4.0,perceptron:3.0,code:2.4,decoder:1.8,network:1.8)1:15:3 Docs.:0.095238(neural network:3.1,quadratic:2.3,sort:2.3,perceptron:1.7)3:3:2 Docs.:0.285714(code:4.0,decoder:1.4,fast:1.4,reed-muller:1.4)2(2):2:8 Docs.:0.022556(automatic:5.0,document:4.0,text:4.0,generation:3.0,cluster:1.8)0:34:6 Docs.:0.020000(cluster:5.1,map:3.0,min:3.0,text:2.1)2:14:2 Docs.:0.113208(automatic:3.1,chinese:1.4,text:1.4,thesauru:1.4)3(1):4:1 Docs.:0(hot:2.0,detect:2.0,comparison:2.0,topic:2.0,scientometric:1.0)4:36:1 Docs.:0(hot:2.0,detect:2.0,comparison:2.0,topic:1.1,scientometric:0.7),34,合理度:100%,門檻=0.0,第一階的類別編號與篇數,分析範例-曾元顯著作-書目對(第二階),35,分析範例-曾元顯著作-共現字,1(5):29:5 Docs.:0.0940(term:19.0,document:6.7,algorithm:4.0)7:3 Docs.:0.5403(document:12.2,generic:7.7,cluster:7.6,term:7.4,algorithm:6.0)2:2 Docs.:0.9610(cluster:10.8,generic:10.0,label:7.0,title:7.0,document:5.6)2:ISI:000272846500049:2010:Generic title labeling for clustered documents 6:ISI:000241690200012:2006:Toward generic title generation for clustered documents 3:2 Docs.:0.7090(map:7.7,patent:5.4,term:4.1,scientific:4.0,new:4.0)1:ISI:000277110400017:2010:Mining concept maps from news stories for measuring civic scientific literacy in media 4:ISI:000251991600006:2007:Patent surrogate extraction and evaluation in the context of patent mapping 2(3):19:3 Docs.:0.2776(automatic:7.3,text:6.9,analysi:4.9,approach:4.6,topic:1.9)4:2 Docs.:0.6881(science:7.4,analysi:6.9,education:5.4,science education:5.4,research:5.4)0:ISI:000279714800001:2010:Trends of Science Education Research:An Automatic Content Analysis 5:ISI:000246869800006:2007:Text mining techniques for patent analysis 3(2):1:2 Docs.:1.00(network:7.7,memory:4.0,associative memory:2.7,winner-take-all:2.0)12:ISI:A1992HY58100028:1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER NEURAL NETWORKS 9:ISI:A1995QT09700011:1995:ON A CONSTANT-TIME,LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK 4(1):30:1 Docs.:0(trend:6.7,different:5.0,better:3.0,trend observation:3.0,choice:3.0)3:ISI:000270841800006:2009:A comparison of methods for detecting hot topics,36,有共同的Map或Mapping之詞彙與概念,但其他概念則不相同,合理度:60%-80%,主題趨勢分析,列出主題之年代篇數序列計算其線性回歸線的斜率按此斜率排序主題,可分析趨勢漸增之主題趨勢漸減之主題,37,Breakdown Trends of ICT in Edu.,Dying out topics,Hot topics during that period,Main stream topic,Topic with periodic attraction,Promising topics(not yet mature),解讀(1/2),最有價值的部分Access 檔案:原始資料結構化後放置處可人工修改,再進行書目對與共現字之分析Excel 檔案:各種交叉分析結果,可製作圖表HTML 檔案:主題樹、篇名與交叉分析結果結果檔案,在C:CATARResult 目錄裡:第 n 階的類別,其主題樹在第 n 階的結果目錄裡,其中有上述的各種 html,xls,png 等檔案第 n 階的類別,其主題地圖在第 n+1 階的結果裡,而其中的顏色,代表各個文件所屬的類別,39,解讀(2/2),多用不同參數、方式探索解讀出有意義的資訊為準有意義的資訊,可能散落在不同參數所產生的結果中每一種參數、方式,都有可解讀之處,越多者,越佳配合領域專家、有經驗者(科學計量專家)一起解讀參考:陳超美(2010)。如何選取CiteSpace的參數。,40,分析案例,曾元顯、林瑜一(2011)。內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊,56(1),1-38。Yueh-Hsia Chang,Chun-Yen Chang,Yuen-Hsien Tseng,Trends of Science Education Research:An Automatic Content Analysis,Journal of Science Education and Technology,Vol.19,No.4,2010,pp.315-331.曾元顯,文獻內容探勘工具-CATAR 之發展和應用,圖書館學與資訊科學 半年刊,第 37 卷 第 1 期,頁 31-49,2011年 04月.,41,先從概觀分析開始才能將WoK資料剖析到資料庫中其後才能進行書目對與共現字分析非WoS資料之分析參考:C:CATARSource_Datamoviemovie.mdbC:CATARSource_Dataeporteport.mdb(感謝本校資訊中心汪耀華整理資料)將自己的資料,依照上述檔案範例放入資料庫中,若無CR欄位則直接進行共現字分析若某欄位要置放多個項目,則每個項目之間以;隔開,如Chang,YH;Chang,CY;Tseng,YH將WoS的SC對應到自己定義的類別編輯:C:CATARbinISI_SC2C.txt如果沒有此項需求,可以不用理會這一點,注意事項,42,

    注意事项

    本文(CATAR-文献内容探勘工具.ppt)为本站会员(小飞机)主动上传,三一办公仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一办公(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-2

    经营许可证:宁B2-20210002

    宁公网安备 64010402000987号

    三一办公
    收起
    展开