淺談OCR技術(shù)在檔案信息化應用的價值
一、OCR簡介
OCR即Optical Character Recognition(光學字符識別)的簡稱,是通過掃描等光學輸入方式將各種票據(jù)、報刊、書籍、文稿及其它印刷品的文字轉(zhuǎn)化為圖像信息,再利用文字識別技術(shù)將圖像信息轉(zhuǎn)化為可以使用的計算機輸入技術(shù)。此概念最早由德國科學家Tausheck于1929年提出,而在國內(nèi)上世紀70年代末才開始進行相關(guān)的研究,雖然起步較晚,但總體來說進步很快,尤其是針對漢字識別方面已經(jīng)取得了相當大的成功,目前多數(shù)OCR相關(guān)產(chǎn)品的漢字識別率都在95%以上,其識別正確率也在逐步上升。
二、OCR在檔案著錄工作的具體應用
隨著OCR技術(shù)不斷的發(fā)展與完善,越來越多的檔案信息化領(lǐng)域的技術(shù)人員對其在檔案管理軟件實際應用中的重要性有了較高認識,并逐漸開始在檔案軟件中取得應用。以紫光檔案為例,經(jīng)過技術(shù)部門對OCR技術(shù)的不斷探索與應用實踐,幾年前就已成功將OCR技術(shù)應用在當時的檔案管理軟件中,并取得階段性成果,真正實現(xiàn)了從數(shù)據(jù)掃描到信息提取,最后到檔案校對、整編、歸檔全過程的自動化。
附件: 您所在的用戶組無法下載或查看附件
具體來講,利用OCR技術(shù)可以實現(xiàn)以下幾方面內(nèi)容:
(一)圖像處理
利用圖像處理技術(shù)在掃描的過程中對圖像自動進行去污、糾偏、去黑邊的處理,既提高了掃描圖像的質(zhì)量,又為下一步OCR識別提供保障。
( 二)OCR識別
發(fā)展至今OCR識別技術(shù)已經(jīng)非常成熟,市場上主流的OCR技術(shù)提供商所宣傳的識別率都在95%以上,而且還支持漢字和英文混排、日文和英文混排、韓文和英文混排的識別。而應用于檔案行業(yè)需要技術(shù)考慮的主要問題是原稿本身的“質(zhì)量”對識別效果的影響,檔案本身的“質(zhì)量”和形成年份有關(guān),2000年以后形成的文件已經(jīng)非常規(guī)范、字跡清晰完整,識別后的準確率很高,可以滿足識別。
(三)信息自動提取
檔案信息自動提取的過程中需要對文件的版面進行分析,現(xiàn)行檔案中需要提取的信息的位置相對來說比較固定的,比如:文件題名在紅頭下邊,再往下是文號,文件日期及主題詞在尾頁的末位,其它信息如責任者、擬稿人、主送、抄送也會有明確的標識,可以針對文檔的特點建立模板庫,隨著模板庫的增加提取的信息也會更加準確。
(四)內(nèi)容校對
批量掃描后檔案管理員需要對識別的信息進行校對,可以利用自動掛接的電子文件與記錄進行對比校對,對錯誤的信息進行糾正,軟件系統(tǒng)中應設計批量校對的方法或工具來提高校對的效率。
附件: 您所在的用戶組無法下載或查看附件
三、OCR技術(shù)在檔案著錄的巨大潛力
在OCR技術(shù)應用的整個過程中,信息的自動提取是關(guān)鍵,提取的效果決定著整體著錄的效果,從筆者所掌握的情況來看,目前檔案管理軟件供應商中能夠提供高水準OCR技術(shù)應用的不是很多,未來還有很大的發(fā)展空間。隨著此方面技術(shù)的不斷完善,必定會給著錄工作帶來質(zhì)的飛躍。那么,未來檔案管理軟件中OCR的全面應用到底能夠給檔案工作帶來哪些便利?
一方面,節(jié)約檔案著錄工作的時間。根據(jù)測試得到的數(shù)據(jù),現(xiàn)在利用OCR技術(shù)后,檔案管理人員人均每天能夠完成400~500頁的掃描著錄工作,待OCR技術(shù)在檔案領(lǐng)域應用進一步成熟后,著錄工作效率將提升30%左右,從過去的繁瑣著錄到未來的便捷著錄僅僅是時間問題。
另一方面,著錄準確率將大幅上升?,F(xiàn)階段應用OCR后著錄準確率并不樂觀,在原始檔案質(zhì)量好的情況下,準確率能達到90%以上,如果原始檔案質(zhì)量不好,準確率大致在70%~80%之間,而且后期大量的校對工作也會給檔案工作帶來不少的麻煩,未來將重點提升著錄準確率,使著錄出錯率控制在2%以內(nèi)。
第三方面,工作流程更加合理高效。進一步減少著錄及后期校對所需的時間,使檔案著錄工作流程更加緊湊合理,由于以往檔案工作者在著錄等基礎工作上花費了太多的時間,從而忽視了檔案的利用工作,而整個工作流程改善后,就可以在檔案利用上下大工夫,增強檔案信息服務的價值。
要實現(xiàn)OCR技術(shù)在檔案管理軟件中的完美應用,作為技術(shù)部門最為關(guān)鍵的便是要掌握客戶的需求,從客戶的角度出發(fā),是否能夠滿足客戶需求才是衡量技術(shù)好壞的唯一標準。其次要明確目標,任何一種技術(shù)的成熟都離不開對目標孜孜以求的熱情與決心,如果一味的滿足現(xiàn)狀,那么技術(shù)就談不上發(fā)展。以我個人而言,希望在此方面有所突破,并已經(jīng)開始著手準備。最后,要有持之以恒的耐力,這如同企業(yè)的發(fā)展一樣,缺少耐力和韌性的公司是走不了太久的,技術(shù)更是如此,黑夜之后就是黎明,只有堅持才能看到光明。
在檔案領(lǐng)域里,利用OCR技術(shù)輔助著錄只是檔案系統(tǒng)中集成新技術(shù)的一個實例,計算機信息技術(shù)發(fā)展到現(xiàn)在有各種各樣成熟的技術(shù)可供我們來借鑒與參考比如:語音輸入、手寫板輸入等,甚至將來會出現(xiàn)專門應用于檔案著錄的輸入法也不是沒有可能,信息技術(shù)永無止境的發(fā)展未來一定會有更多更好的新興技術(shù)服務于檔案事業(yè)。