《医学资讯学》PPT课件.ppt
醫學資訊學Medical Informatics,第二章 醫學資料收集,2-1 介紹,我們現在處於一個被稱為通信年代的時代中,短期間內,手提式收音機、衛視電視、行動電話、多媒體個人電腦和網際網路等皆變成熟悉的術語,所有這些媒體的目的是從一個組織到另一個組織傳送訊息。技術上來說,媒介之間所傳遞訊息的方式可以是不同的(例如:單向或雙向)。有時傳送者與接收者是整合於同一裝置內,有時則是分開。,2-1 介紹,我們首先要對傳送者、接收者和傳輸途徑的一般的情形繪一個草圖,將病人和醫師或護士之間,及病人的資料、醫學的影像或生物訊號交換的情形做介紹。除了在第一章中,被分類在層次一中資料獲得和傳輸的處理之外,也應該瞭解所有的資料在醫療照護方面之來源或傳送者(通常指病人)和接收者(照護供給者)。沒有傳輸的話,資料將不會到達接收者而且也不可能被解釋出。,2-2 傳送者、途徑和接收者,在任何的傳送者(S)和接收者(R)之間總是有必須通過的傳輸途徑(T)(圖2.1)。這個途徑可能或長或短,也可能有一些延遲或即時的。以地下電纜或衛星傳輸的為例,傳輸途徑的部份是轉換器。轉換器主要的功能為接收訊息並將之轉換為適合進一步處理之格式。訊息(s)可能經由傳輸時被扭曲(圖2.1),或被一些干擾或雜訊(n)所毀壞,導致成為雜音和訊號所組成的混合體(m)。,圖2.1,2-2 傳送者、途徑和接收者,我們假定干擾是添加進去的,混合體m是訊息s加上雜訊n的總和:m=s+n環境噪音即為重疊干擾之例,舉例來說,臨床醫生的診間或街道的聲音,病人和臨床醫生的交談聲音,或由活動的肌肉產生的雜音等。例如,在病人移動期間作心電圖,這些重疊的干擾將會被一起記錄下來。一般而言,變數 m、s 和 n 是以時間作變化的訊號。,2-2 傳送者、途徑和接收者,傳送者S也可能隨時間變化的影像,例如,心音圖藉由心臟或瓣膜檢查時被記錄。如果我們一般化那些不同的情形,傳送者S、途徑T和接收者R被包括,我們能辨別S,R,T的五個不同的配置,如下分別描述之。,2-2 傳送者、途徑和接收者,1.S R這是一個單向傳輸的情形,傳送者和接收者兩者已知,且接收者只對訊息本身感興趣而不需在傳送途徑上,例如心臟的聽診器(傳送者S是心臟;訊息s 是被心瓣膜和心雜音閉鎖所產生聽得見的聲音,舉例來說,被混亂的或湧回之血流引起的;n 可能是腔室之呼吸或雜音;R是聽診器或麥克風加上檢查時臨床醫生的耳朵;T是心臟和轉換器之間的胸部和空氣。),2-2 傳送者、途徑和接收者,另外的一個例子是ECG(S是腦皮層裡的那些去極化的神經元;s 是被衡量過的神經叢的去極化波的總數;n 是來自於環境、活動的肌肉甚至是ECG之電的干擾;R是電極、放大器和浮凸槽記錄設備;而T是組織、皮膚和介於皮膚和電極之間的電極膠體)的記錄事項。2.S R這是一個雙向性的配置。,2-2 傳送者、途徑和接收者,在這裡,傳送者和接收者也已知,而且接收者只對被傳送者傳輸的訊息感興趣。如以病人和臨床醫生之間的交談為例,拿出病歷(S是病人所聽到的和回答臨床醫生的問題;s 是交談的話;n 是從外部造成的雜音導致字句被誤解;R是臨床醫生聽到和問問題兩者;而T世界於病人和臨床醫生的耳朵之間的途徑)的期間。,2-2 傳送者、途徑和接收者,更進一步的例子,在於管理來自電極電刺激的神經或肌肉的回應(S是細胞或肌肉測知刺激和產生回應,s 是電的神經細胞或肌肉回應;n 是來自相鄰的細胞或肌肉束的干擾;R是為電及管理刺激和接受回應,而T是在細胞或肌肉和電極的尖端之間的途徑)。3.S R在這種情形,傳送者和接收者是一個裝置。,2-2 傳送者、途徑和接收者,在典型的情形,我們對於藉由傳送者和接收者的組合而在訊號傳送和接收之間的訊息感到興趣,以超音波(ultrasound)為例是壓電(piezoelectric)陣列來產生(也就是所謂的扇形掃描器)從組織交界所接收到的回聲(S是晶體發射超音波進入周圍的組織之內;s 是晶體產生的幾百萬赫之超音波;n 是從其他的組織所接收的扭曲反射;R是產生超音波的晶體但現在正在接收回音;而T是相同的晶體介於經那些由組織的晶體和回到相同的晶體之間的途徑)。,2-2 傳送者、途徑和接收者,4.S?這是在學術的情況下而接收者是不呈現的,不去注意,或沒有正確轉換器。舉例來說,在症狀不被臨床醫生發現的環境之下,或只是正在任意地發生或者疾病是無症狀的(例如,心臟產生無法偵測的期外收縮(extrasystole)。,2-2 傳送者、途徑和接收者,5.?R這是症狀被測知為醫學裡的典型情形,但是症狀的因素仍然未知。舉例來說,在血液化學中,誤差值可能沒有辦法追蹤導致誤差的器官之可能性。在醫學裡,多數的例子是可以跟這五種情形來比較。,2-2 傳送者、途徑和接收者,例1:超音波(Ultrasound)在醫療照護的許多領域裡超音波是被用來做診斷目的,如神經學、心臟學、內科和產科學。超音波是訊號或1、2或甚至8MHZ頻率的波前s,視需要而決定。超音波向我們感興趣的器官發射。在產科學情況中,全部或部分的胎兒(例如,胎兒的心臟或顱骨)接受超音波。那些被收到的回音是訊號和雜音的混合體,最初的訊號 s 已經被通過的組織轉換到訊號 s*。,2-2 傳送者、途徑和接收者,接收轉換器只檢測反射訊號。在這情況下,SR,被 s*載運的信息是組織結構資訊,成為一個延遲的與部分較低幅的電波。而所收到的反射訊號常為影像訊號,提供了有用的資訊。例如,胎兒位置、食道腫瘤、或腦部組織的不對稱(如,內出血造成的不對稱)。目前,超音波訊號已逐步被數位化,可由電腦來計算相關參數或處理成更好的影像品質,例如血流的速率。,2-2 傳送者、途徑和接收者,例2:醫學造影(Imaging)造影對於醫療診斷上非常重要。以心臟科為例,當我們探討血液充填心室為時間的函數時,我們注射不能被輻射穿透的液體(radiopaque fluid)至血管,經由血液輸送到心臟。X光是用來提供心室大小的訊號 s,X光向胸部發射且穿過它,而接收到的訊號 s*為組織密度的資訊。該組織為介於X光管(S)和感測裝置(R)之間的人體部分,R是攝影感光乳劑或光子倍加器(photonmultiplier)。,2-2 傳送者、途徑和接收者,組織和體液使得原始訊號 s失真(或衰減),而這正好是我們感興趣的資訊。然而,重疊在 s*上的成分不止來自心臟的效應,也包括其他的組織的影響(如肺和肋骨等),使得s*成為混合體 m。在收到訊號(即影像)後,即可測量心室的面積,或者在兩正交或不平行影像上估計心室的體積(時間的函數)。通常這種情況可以量測心臟隨時間而變化的輸出。,2-2 傳送者、途徑和接收者,例3:無線傳輸(Wireless Transmission)在某些情況中,需要在身體上裝置無線傳輸器(如Holter 監聽),或植入轉換器(transducer),甚至體內傳輸器(transmitter)(例如,測量顱內壓力)。,2-2 傳送者、途徑和接收者,例4:藉著自然語言傳輸(Transmission by Natural Language)在病人病歷被拿來使用的期間,訊息 s 來自自然語言(也就是它被說出來)。富有經驗的臨床醫生也能察覺非口述的訊息,例如肢體語言。接收者,也就是臨床醫生,有足夠的專業知識來發掘含在混合體 m中的訊息。,2-2 傳送者、途徑和接收者,然而在這情況下,干擾不只是來自環境加上的雜音,而且也是隱藏在自然語言後的真實意義。如果臨床醫生沒有接受適當地訓練,他們無法在媒介(即語言)中找到有意義的訊息。這就是以電腦解譯自然語言是極端困難的原因,或許永遠無法完全成功。,2-2 傳送者、途徑和接收者,例5:生物訊號(Biosignals)每個活細胞、器官、或組織,產生身體內部的通信訊號,或是對外部世界傳達它的訊息。大體上,我們可將此視為產生輸出的生物過程。甚至,我們希望對此生物過程輸入訊號,以觀察它的回應。例如,觀察細胞被電極刺激的反應。,2-2 傳送者、途徑和接收者,生物訊號有不同的本質:例如,在電化學上,穿過細胞膜的細胞之去極化(由於離子流動),如Ca+、Na+或Cl-。在呼吸方面,擴胸肌肉活動造成空氣流動與壓力。在生物化學上,血氣值如PO2或PCO2。在荷爾蒙上,分娩時催產素(oxytocin)的釋放。,2-2 傳送者、途徑和接收者,在大多數的情況中,我們處理上述傳輸1或5的情形。如果 s 必須通過不同的組織才到達轉換器,則接收到的訊號是被極端的扭曲。例如胎兒的ECG訊號 s,在到達轉換器之前必須通過許多組織層(圖2.2);此訊號在妊娠最初三個月內太弱而無法被檢測出來,而在分娩期間它被子宮和腹部的肌肉極度扭曲。另一方面,胎兒的ECG訊號又被母親的ECG訊號所混疊(通常遠大於胎兒的ECG)。胎兒的心搏間隔能夠透露在分娩時胎兒可能發生危險的訊息。,圖 2.2,2-3 知覺和轉換器,感知外部世界訊息的最重要器官是我們的眼睛和耳朵,經由視網膜人類的眼睛能夠接收到每秒 3 百萬位元(位元訊息為最小的資訊單位)。視網膜有大約 10 億網膜桿體和1億錐體,這能夠使我們原則上,在白天辨識超過400,000離散影像點。如果我們了解許多電視攝影機只有很低的解析度的話,人類這種辨別圖片的能力給人印象深刻。高解析度的電腦可能有 1,620*1,280 影像點(大約 2,000,000 圖素),五倍於人纇眼睛的解析度(個人電腦螢幕通常有 640*480,1,024*768或更多的圖素點,表2.1)。,表2.1,表2.1感知(Senses),視覺聽覺觸覺熱覺嗅覺味覺刺激電磁波機械式皮膚機械位置及時間上化學物質化學物質(3,8007,600)式變形之溫度改變位置視網膜基底膜表皮表皮鼻腔 舌頭接受器1107 髮狀細胞壓力:熱:1104 11071107 數量椎狀細胞 1-3104 5105(白天,色彩)1108 痛覺:冷:3105 柱狀細胞 3105(夜間)4105 圖點辨別連接到中(1 to 2)106(1 to 2)104 1104 110421032103 樞神經的神經叢數量資料量31062-5 1042 1052 10310 to 10010,2-3 知覺和轉換器,電腦和人類在資訊處理方面,給人最深刻印象的差別是人類的大腦,以視網膜為起點從超過1百萬神經到皮層,而能夠完成平行的資訊處理。然而大多數的電腦是循序處理,雖然以極端地高速率,只有在非常先進的計算工作下,例如在科學和技術上,我們才看得見平行的計算(例如,具有超過 50,000處理器的平行處理)。將神經元與電腦儲存訊息的最基本單位作比較是常有的嘗試,然而人腦如何儲存和處理訊息,仍舊是個謎,不論從神經生理學、認知心理學、和人腦研究的基礎研究中。,2-3 知覺和轉換器,在許多例子之中,我們的感官不能獲得我們感興趣的診斷資訊,我們已經看到幾個例子了:幾個MHz的超音波遠遠地高於我們能夠聽到(如,從大約 40 到 8,000 Hz,甚至16,000 Hz)的範圍。又如X光或紅外光的電磁波,是超過我們能看見的光譜之外。再者,我們對電流或磁場並無感(除了他們可能刺激神經和肌肉,例如在心臟的去纖維顫動期間),且我們感覺體溫或壓力的方式是非常粗糙和不足以可靠的來獲得訊息,除了我們可能感覺某人的額頭而斷定某人高燒之外。,2-3 知覺和轉換器,上述那些情況中,我們使用轉換器(transducers)將機械或生物化學的變數轉變成一個電氣訊號。另一方面,並非所有傳達到我們感官的資料含有資訊。如果訊息能夠被接收端解釋,則資料就含有資訊,或如同我們所知,接收者與傳送者之間是協調一致且有充足的知識。獲取解釋所需的知識為醫學資訊學的研究(發生在層次 6,如第1章所討論)領域。,2-4 資訊方面,資訊只能存在於有資訊載體的情況下,資訊科學是一門使用符號和其組合(如語言)的科學。自然語言是表達我們自己最直接地方式;藉著電腦語言我們以結構化的方式標達我們自己。,2-4 資訊方面,以任何的語言來表達的訊息,只能由活的生物(從細胞到人類)來理解。資訊有三個不同方面與中與人類活動三個階段(第一章)直接相關,特別是診斷-治療週期的三階段(觀察、診斷和治療):語法、語意、和實用三方面。,2-4.1語法方面(Syntactic Aspect),資訊語法方面主要討論訊息描述、儲存、或傳輸的文法或語法。事實上,語法描述那些訊息載體的行為規則,例如一組密碼或符號、一些字母的文字、某一種語言的單字拼法、音樂曲調的規則、某些生物訊號的頻譜和幅度範圍等等。行為規則是眾人所同意而訂定的,或是隱含在我們所研究的程序中。資訊語法與資訊載體有很大的關係,這些載體就是,特定的語言、影像或生物訊號的類型。資料(data)可視為最純粹的資訊語法,資料不需要藉由接收者來翻譯。在許多醫療照護的觀查結果僅僅是資料,直到在人類的解釋之後,資料才獲得意義,也就是資訊的下一個方面(語義)。,2-4.2語義方面(Semantic Aspect),資訊的語義是有關於資訊的意義,當處理語義時,我們對於資訊接收的方式或語義並不感興趣,重要的是它在解釋與決策上的意義。語義通常得自於我們對於訊息內容或脈絡的了解,特別是翻譯自然語言或隨意文字(free text)所含的訊息時。當做診斷時,臨床醫生就是在處理資訊的語意。在自然語言的情況下我們有時能夠推論幾個意義,尤其當我們不知道其文章脈絡的時候,以文章脈絡的重要為例是句子“Time flies like an arrow(光陰似箭)”,每個字都有一些不同的意義以至於全句可能有超過 10 種解釋。,2-4.3實用方面(Pragmatic Aspect),所有的解釋最後導致一些活動;訊息也是有目的或目標的,甚至當在做診斷或嘗試科學假說時不確定性的減少是資訊的一個效果。在醫療照護方面,訊息的務實面是治療上的作用。舉例來說,在病人的記錄同樣地從未看見數值“8.2”;更確切地說,它和進一部的解釋一起被看到,如“Hb 8.2”。,2-4.3實用方面(Pragmatic Aspect),語意的規則指定一數值之前或後放置其單位,那個數值對病人照護的意義(語意方面)端賴於數值是否為異常的-在了解相關背景的前提下(舉例來說,病人的年齡或經歷)。資訊的實用面在於處理需要採取的行動,舉例來說,給予輸血或規定日常飲食或給藥。在日常的醫療照護上,與語意方面可能是一個最困難去處理的事。,2-4.4資訊的數學上定義(Mathematical Definition of Information),Shannon 給予一些事件已經發生的或然率 p 發生之訊息的資訊內容的一個公式:I=-log2 p,where 0p1。I 是訊息內容的位元數(二進數,位元被定義成訊息的最小單位;位元也扮演數位計算機裡重要的角色),這個公式告訴我們當發生的機率較低時,訊息會含有較多位元的訊息。,2-4.4資訊的數學上定義(Mathematical Definition of Information),如果我們處理或然率 pi 可能發生在 N 個事件中的事件 i,此時 pi=1,那麼訊息內容能夠被表示成所有個別訊息內容的加權總合:I=-pi(log2 pi),Shannon 對於資訊內容計算的方程式使用的一些粒子在主題說明 2.2 和 2.3。,主題說明2.2DNA的資訊內容(information Content of DNA),DNA(去氧核醣核酸)的雙股螺旋在1954年被 James Watson 和 Francis Crick 所發現,DNA 分子由四個不同的基,鳥糞嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)和線嘌呤(A)等被稱核甘酸基所組成,這酸基經由氫鍵結合成對,這些成對的酸基形成一長串,而以雙螺旋成形,這些成對酸基只能出現像鳥糞嘌呤對應胞嘧啶(G-C)或胸腺嘧啶對應線嘌呤(T-A),如下略圖:T A C C G T A G G T C A.|A T G G C A T C C A G T.一連串酸基形成被編碼的訊息,此訊息是“字母”的字元,如果一串成對的一邊已經被知道,那麼另外一邊也會被知道,這個特性被用在細胞分裂期間,當螺旋鬆開自己的時候且每一半都被複製,則這複製的活動能夠被認為是資訊轉移,但是密碼裡的錯誤也可能發生。如果我們考慮一個長串,比如說,100,000 基,那麼第一個“字母”可能是 G、T、C 或 A 任一個或其中四種可能性之,對於所有的 100,000 個字元我們有 4 4 4 4=4100,000=2200,000 碼的可能字串,如果密碼的所有字串發生機率是相等,那麼發現特定字串的機率是 p=2-200,000,藉著Shannon的公式,因此密碼的資訊內容被這個分子所描述 I=-log2 p=-log22-200,000=200,000(bits)100,000 個酸基對的一個DNA分子有長度大約500,000和厚度20(1=10-10m),相較於100,000 位元字碼在電腦裡所需的儲存空間,這是非常令人驚訝的。一個含有5 109 核甘酸的染色體需要 10 109 位元的編碼。這對於人類基因組內的23個染色體對而言,意謂有 5 1011 位元(同等物到大約 60 GB)。,主題說明2.3生物的訊號資訊內容內容(information Content of a Biological Signal),我們欲計算一個被取樣的訊號之語法資訊,該訊號在特定週期被取樣為N個獨立(無關聯的)樣本(見圖2.3)。訊號幅度已經被數位化成 n 個不同的量。對於第一個樣本的幅度,有n個可能性;因此對於N個樣本,就有 n n n n=nN種可能的訊號形狀。顯然地,每種形狀的訊號發生機率是 p=n-N。如果我們更進一步地假設 n 能夠寫成像 n=2m 的數值,那麼機率變成 p=2-mN,藉由Shannon 的公式,訊號的資訊內容與N個獨立樣品,用 2m 層來數位化,即變成:I=-log2 p=-log2 2-mN=mN bits(一個樣本的 2m 層次可以用 m 位元表示,因此N個樣體需要 mN 個位元的儲存空間)。舉例來說,以一個 EEC 訊號來說樣品在以每秒 100 個樣本的 100 秒期間內和以128(27)個層次一起來數位化,我們需要 100 100 7=70,000 位元的儲存容量,或大約9,000 位元組(Bytes)。,圖2.3,2-5 訊息熵,資訊內容的 Shannon 公式在醫療照護方面有資料的獲得和傳輸的重要含意。如果資訊內容在傳送端是Is,那麼在端的內容IR不能比Is大。在更多干擾的情況下,IR 變得比較低。I的負值被稱為訊息熵(entropy),類似熱力學裡的熵。熵與系統的雜亂有關,且其在一封閉系統裡不會減少。在有關能量和資訊理論的統計學處理方面的訊息熵之熱力學和 Shannon 的公式之間相似點。,2-5 訊息熵,在傳送端,我們必須努力獲得最大的資訊內容(最小的訊息熵),而且應該用所有的可能措施去降低傳輸途徑裡的干擾。這個原則在醫療照護的應用上,有幾個實際的作法來保持低干擾(訊息熵):使用最佳的轉換器(Use an optimal transducer)確定那些被傳送者(病人或器官)所產生的訊息被最佳地記錄,也確定不要把干擾加入傳輸途徑。建議:,2-5 訊息熵,ECGs:使用無噪音的電極(如塗上一層氯化銀的不鏽鋼)。X光圖片:使用高解析度的膠捲物質或光敏感的儀器。維持短的傳輸途徑(Keep the transmission channel short)儘可能地移動轉換器來靠近傳送者。例子:血液化學:儘可能直接在血液中測量 PO2心臟內傳導:記錄 His-bundle 浮凸槽代替體表的 ECG。胎兒的心臟間隔:直接在胎兒的顱骨上放置電極代替母親的腹部。,2-5 訊息熵,減少傳輸途徑的干擾(Reduce the transmission channel disturbance)這是確定訊息熵在傳輸期間從傳送者到接收者保持低量。例子:EEG:篩選掉外面的電或磁場。ECG:減少被呼吸和肌肉活動所引起的干擾。儘可能使用多餘的訊息(Use,where possible,redundant information)如果生物過程的一個單一觀測可能被扭曲,那麼隨後的過程可能含有較少或不同的變形。例子:記錄一連串相似的 ECG 複合物,舉例來說,藉著互相密合著來平均,干擾能藉由使用訊號的重複特性來減少。,2-5 訊息熵,心臟的ECG觀測藉著獨立的方法,例如藉著心音圖、ECG和導管術(catheterization),可能提供互補的訊息。盡可能使用先驗的知識來解釋(Use prior knowledge for interpretation as much as possible)這個方法希望接收者使用知識與經驗去瞭解訊息。例子:病人的病史:使用有效的(臨床的)知識獲得下決策的必需訊息,如果可能的話,可以應用回饋到傳送者。訊號和影像:使用訊號的知識和影像的特性,如頻率的範圍和事件發生像時間函數一樣。,2-6 電腦裡的資料,以電腦儲存物理或化學數值是沒有問題的。藥物、疾病或治療的編碼(coding)原則上亦無問題,但它並非依循任何自然過程,而且完全被人們所定義,但有時是含糊不清的。個人觀察通常是主觀的,更不用說感覺或疼痛的表示,而對其編碼更是非常困難的,不論是傳送者(病人)或接收者(如護士)都是如此。,2-6 電腦裡的資料,在一些例子之中,沒有觀測的編碼是可能的,且只有隨意的文字保留調查病人病史結果(為此理由,所有用電腦處理的病人病歷系統應該能夠證明敘述的文字)裡的發現。與電腦中之資料文件有關的最重要爭議是:不同的類型資料的完整性和可靠度,舉例來說,是否像轉換器測量的血壓一樣可靠而用手動量血壓?一位臨床醫生給予的疾病代碼會跟另一個醫生給的類似嗎?,2-6.1 完整性(Completeness),不完整的資料可能會造成不確定。在病人記錄中,它總是不清楚是否資料遺失或缺少,因為他們被考慮是不恰當的,獲指示沒有在病例中用文件來證明,在病人照護的實施上,通常也只有異常的發現會被記錄。如此,當資料在病人的記錄中不被發現的時候,可能意謂著沒有異常被發現,或資料不是可利用的或被收集。大部分的時間,使用資料的臨床醫生,在他或她自己的病人上時知道在不恰當的和遺失的資料之間的差別。,2-6.2 準確度(Accuracy),準確度是在沒有失誤或犯錯下有能力去執行工作,或是到某一標準或真實的數值(如 Websters 學院字典所定義)量測的適合程度。正確性(Correctness)正確性是資料錯誤率的衡量。錯誤首先發生在資料收集期間,舉例來說,血壓,量出的數值只是“真實的”的判斷數值,和本來就有的不精確。當在上臂的周圍血壓與袖口一起測量的時候,我們實際上僅測量袖口裡的壓力,而不在動脈,造成系統的錯誤。,2-6.2 準確度(Accuracy),血壓和讀水銀柱平均數變化方面,二個連續的測量,將會無法正好給予相同的結果,這叫做統計的錯誤。特別的類型錯誤是那些閱讀錯誤。舉例來說,讀血壓流體壓力計上的水銀柱的畫面高度。一致性(Conformity)資料的一致性與資料紀錄的標準及分類系統有關。當分類和寫碼系統用來處理病人的資料時候,我們需要遵從那些規則而且使用分類系統的定義選擇適當的碼。,2-6.3 精確(Precision),藉由測量在精確處理精緻或細微程度被表達出來,例如小數點的位數。體重的表達用 89.12 公斤比 89.1 公斤有更高的精確度,較高的精確數值與其準確度之間會造成誤導。,2-6.4 編碼(Coding),在編碼資料,使用者應該首先解釋資料然後再指定編碼。解釋錯誤對編碼是固有存在的。資料的編碼限制其表達自己的方法,但是另一方面,則用辭的標準化及極端地重要。,2-6.5 自由文字(Free Text),自由文字(或自然語言)給使用者最好的自由表達明細。然而,自由文字本質上是沒有標準化的,作電腦處理是很困難的。自由文字能被視為觀察事實的私人解釋。,2-6.6 結論(Conclusions),獲得的資料應該儘可能的接近原始資料。藉由遵守精確標準化的原則,資料應該被記錄。最初的原始資料應該被儲存,而且如果是可能的,人類的解釋只有當原始資料已被儲存,且它也基於原始資料才應被儲存。編碼應被製作只在當如果沒有其他的方法提出資料時,而且它應被觀測的人所製作。,2-6.6 結論(Conclusions),在所有已登錄的資料,應給使用者一個線上回應以告知任何可被預期的偏差。所有進入資料的人應從這些資料或的一些利益;不是他之後會使用到這些資料,就是此資料將促進他工作上的品質。資料的授權(增加資料者的名字和簽名)和時間的紀錄可增進資料的品質。,