為規范我省紙質檔案數字化工作,保障紙質檔案數字副本憑證效力,維護檔案實體與檔案信息安全,根據《中華人民共和國檔案法》以及《文獻檔案資料數字化工作導則》(GB/T20530-2006)、《紙質檔案數字化技術規范》(DA/T31-2005)、《信息與文獻—文件檔案數字化實施指南》(ISO/TR 13028:2010(E))等相關標準,制定本規范。
1 范圍
本規范規定了紙質檔案源版數字副本制作的各項要求,源版數字副本的衍生品制作可參照執行。
本規范所稱紙質檔案數字副本是源版數字副本及其衍生品的統稱。源版數字副本是指使用掃描儀等數字成像設備對紙質檔案進行數字化轉換而直接生成的靜態圖像文件。對源版數字副本進行壓縮、格式轉換、識別等處理而生成的靜態圖像文件、版式文件或純文本文件等,為源版數字副本的衍生品。
本規范適用于各級國家綜合檔案館對館(室)藏紙質檔案進行批量數字化轉換,可作為編制數字化工作方案的依據。機關、團體、企業事業單位紙質檔案(含紙質照片檔案)的數字化可參照執行。
2 基本原則
2.1統籌規劃,分步實施
應根據館藏檔案重要程度、破損情況、利用需求等,進行統籌規劃、分步實施數字化。館藏國家重點檔案、重要全宗檔案和涉及民生的專業檔案優先進行數字化。
2.2保障憑證作用,維護檔案安全
為保證紙質檔案數字副本是檔案原件真實、完整、可靠與可用的復制件,必須在紙質檔案數字化過程中實施全程安全管理。應建立安全管理措施,對數字化對象實行審批制,數字副本的制作應符合相關標準的要求,采用適合的數字化技術,執行規定的質量控制程序,準確復制檔案原件,并捕獲必要的數字化元數據。數字副本制作各環節應有當事責任人的簽字,數字化成果按規范要求移交,確保檔案原件與檔案信息安全。
對進行數字化的檔案原件,在拆裝、整理、修復等過程中,應遵循最小干預、保持原貌以及適宜性、相似性與可逆性原則,最大限度減少數字化轉換對檔案原件可能造成的損傷或形制變化。未解密檔案不得采用委托加工方式進行數字化。采取數字化服務與數字化系統設備整體采取委托加工方式的,必須對承包單位進行資格審查,并采取使用國產計算機產品、硬盤整體驗收移交或低級格式化、加強數字化現場安全管理等措施,防止檔案原件數字副本外流。
2.3加強協調,夯實基礎
紙質檔案數字化是一項系統工程,應加強協調、合理設計流程,把規范檔案基礎業務工作與檔案數字化轉換相結合,在檔案數字化過程中進一步完善檔案原件的整理、編目、著錄、修復、還原等工作,夯實檔案基礎業務工作。
3 紙質檔案數字化項目管理
3.1數字化項目的全程管理
應對紙質檔案數字化項目的準備、前處理、數字化轉換、后處理、驗收移交等五個階段實施全過程管理,對項目的安全、標準、質量、進度等進行有效控制。
3.2數字化工作文檔管理
應明確紙質檔案數字化過程中形成的工作文檔的整理、歸檔、移交等管理要求,并與全宗卷共同保管。應歸檔的數字化工作文檔包括:數字化工作方案、檔案原件數字化審批書、檔案出入庫交接單、數字化加工流程單、質檢任務安排單、質檢情況登記單、質檢驗收單、項目鑒定驗收報告、數字化成果移交清單等憑證性文件;采取委托加工方式的數字化項目,項目招投標文件、中標通知書、項目合同等,
3.3記錄數字化元數據
為確保紙質檔案數字副本的真實、完整、可靠與可用,應在數字化過程中記錄有關數字化項目、數字副本生成背景及其技術結構的元數據,主要包括數字化授權信息、數字化軟硬件信息、數字化日期與時間、格式、掃描分辨率、色彩空間、壓縮方案等。
4 紙質檔案數字化基本環節管理
紙質檔案數字化全程共有10個基本環節,包括審批數字化對象、制定數字化工作方案、檔案出庫、整理分件,建元數據庫、檔案掃描、圖像處理、數據質檢、檔案還原入庫、數字化成果驗收移交等。
4.1數字化對象的審批
對紙質檔案數字化對象實行審批制。檔案原件法定持有保管單位的法人或授權代表要簽署《江西省紙質檔案原件數字化審批書》(附錄A的表A.1)。
4.2制定數字化工作方案
應對數字化對象基本情況進行調查摸底,以此為基礎并根據本規范提出數字化項目管理與技術要求,編制數字化工作方案。數字化工作方案應包括安全保密措施、項目管理要求、技術標準、工作文檔管理要求、數字化成果移交要求等內容。采取委托加工方式的數字化項目,數字化工作方案應明確數字化成果的計算標準。
4.3檔案出庫
嚴格按照檔案庫房管理規定為數字化對象辦理借卷手續,案卷逐卷(以件為單位的逐件)清點后出庫,重點檔案逐頁清點后出庫。
4.4整理分件
整理分件結果與文件級目錄數據、數字副本質量及其命名、存儲文件夾命名等各個環節密切關聯,應嚴格把關。從整理分件到案卷還原的各個環節,要以卷或批次為單位建立《江西省紙質檔案數字化加工流程單》(附錄A的表A.2),記錄每卷或每批檔案數字化過程。
4.4.1 整理
檔案整理主要包括拆除掃描對象裝訂線及加固件、平整頁面、編制頁碼、修復老化和破損程度高的頁面、登記特殊頁面等內容。平整頁面時不得破壞檔案原件固有形態,不得強行撕破檔案頁面。沒有編頁碼的應重新編號,并統一采用油墨打號機打號。已經編有連續并清晰可見頁碼的,不再重編頁碼。案卷內存在頁碼缺漏現象時,應登記跳號情況,不再重編頁碼。一份文件在卷內排列位置不連續,應調整件內頁面排列順序,并就受影響部分重新打號。卷內存有錢幣、郵票、照片、地圖、證書等特殊材料的頁面時應予以登記。
4.4.2 分件
檔案分件的主要內容是將案卷拆分為自然件。關于同一事由的往來文件應分為不同的自然件,如請示與批復應分為兩個自然件。分件時應保持文件的齊全、完整,文件處理單或領導(職能部門)簽署意見單、正文及領導簽發的定稿、附件、浮貼等不缺漏。能反映重要文件起草、修訂過程的重要稿本作為掃描件單獨掃描。一般性草稿、重復件及案卷封面、卷內目錄、封底等原則上不掃描,用非掃描件標識區分,不脫離卷體。應在對應的文件級目錄數據“附注”字段中對非掃描件加以描述,如“本件有3份草稿共計18頁未作數字化”。完成分件后,卷內文件按秩序排列,按照《江西省文書類電子檔案著錄與數據格式規范(試行)》要求編制文件級檔號。
4.5建立文件級元數據庫
檔案目錄數據與本規范規定的數字化元數據的集合稱為元數據庫。數字化元數據由數字化系統自動捕獲形成。在準確分件的基礎上按照《檔案著錄規則》(DA/T 18-1999)、《江西省文書類電子檔案著錄與數據格式規范(試行)》等進行著錄與目錄數據錄入,建立案卷級、文件級目錄數據庫。
數字化之前已經建立了文件級目錄數據庫的,應在數字化過程中進行核對、確保目錄數據準確無誤并與案卷、數字副本一一對應。
4.6掃描
原則上應使用平板掃描儀進行數字化轉換。可以自然展開的筒子頁應作為一個頁面掃描,但件內應保持一致。掃描時應擺正檔案原件頁面,減少圖像糾偏造成的質量下降。采用分幅拼接方式對大幅面檔案進行數字化時,應在對應的目錄數據中記錄圖像拼接行為。實物檔案應采用數碼相機進行數字化。
掃描儀蓋板內側為黑色時,應使用與檔案原件紙張色系相同、具有一定色差的紙張覆蓋掃描儀蓋板內側。
4.7圖像處理
應遵循精確復制的原則實施圖像處理。按照《紙質檔案數字化技術規范》(DA/T 31-2005)的要求進行圖像處理,保證數字圖像清晰、端正。數字副本應能準確反映檔案原件的原始面貌,不得出現原件沒有的顏色、變形、馬賽克、明顯皺紋等影像。不得去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等。應在距頁邊最外延2至3毫米處裁剪數字圖像,不得裁掉紙質檔案原有頁邊,包括破損、歪斜頁邊。
4.8數據質檢
數據質量檢驗包括數字圖像質檢與目錄數據質檢兩個部分。應按批次數據隨機抽檢方式進行質檢,質檢次數不少于兩次。一次質檢抽檢率不少于20%,二次質檢抽檢率不少于10%,批次抽檢合格率應為100%,否則整批數據打回重新制作或不予驗收。質檢工作應按任務安排、質檢、質檢驗收三個步驟進行,并據實填寫《江西省紙質檔案數字化數據質檢任務安排單》(附錄A的表A3)、《江西省紙質檔案數字化數據質檢情況登記表》(附錄A的表A4)、《江西省紙質檔案數字化數據質檢驗收登記表》(附錄A的表A5),作為數字化成果驗收移交依據。
4.9檔案還原入庫
完成數據質檢驗收后,應將相應的案卷按原保管形態裝卷還原。對已還原案卷實體進行嚴格的裝卷質檢,依據檔案原件出庫登記表、《江西省紙質檔案數字化加工流程單》(附錄A的表A2)等檢查是否有缺卷、卷內缺頁、頁面脫落等情況,裝卷質檢合格后入庫,并履行還卷入庫手續。
4.10數字化成果驗收移交
4.10.1 數字化成果內容與要求
一個數字化項目形成的數字化成果至少包括三部分內容。
⑴ 符合標準化要求的紙質檔案數字副本及其元數據庫。紙質檔案數字副本至少包括一套源版數字副本,一套以源版數字副本為基礎轉換的PDF或雙層PDF格式數字副本、一套TXT格式數字副本。源版數字副本畫幅數應按實際圖像數量計算,統計結果應與掃描頁面數量保持一致。元數據庫應以DBF等通用格式移交,驗收移交前應確認數字副本與元數據在數字檔案管理系統中能夠一一對應并掛接成功。
⑵ 數字化工作文檔。包括本規范“3.2”所述數字化工作文檔,應裝訂成冊,封面、封底齊全,標識規范。
⑶ 存儲移交介質。包括兩套移動硬盤和兩套光盤。數字副本存儲移交介質應按《電子文件歸檔光盤技術要求和應用規范》(DA/T38-2008)和《江西省電子檔案與數據離線備份介質管理規范(試行)》的要求制作。《江西省紙質檔案原件數字化審批書》(附錄A的表A1)、數字化工作方案、數字化項目招投標文件、中標通知書、數字化項目合同書等憑證性文件的數字副本應一同存儲于授權文件夾中。
4.10.2 驗收移交
應依據數字化工作方案、數字化項目合同書、質檢驗收單等對數字化項目作整體鑒定、驗收,填寫《江西省紙質檔案數字化項目驗收移交清單》(附錄A的表A6),形成鑒定驗收報告,移交數字化成果。
5 紙質檔案數字化技術要求
5.1版源數字圖像技術參數
應采用彩色模式實施數字化掃描。原則上應采用不低于200dpi的分辨率、彩色JPEG格式或彩色TIFF格式、不高于20%的壓縮率等技術參數制作源版數字副本。珍貴檔案源版數字副本的制作,應采用彩色無損壓縮TIFF格式,掃描分辨率不低于300dpi。
5.2源版數字副本頭文件技術要求
為保障源版數字副本的真實、完整、可靠與可用,數字化系統應按照《可交換圖像文件格式》(Exif)標準要求,自動在數字圖像頭文件中寫入4個元數據值,并確保寫入信息不丟失。4個元數據寫入要求如下表所示:
序號 | 英文標簽 | 中文名稱 | 格式規范 |
1 | Make | 設備制造商 | 按掃描儀制造商規范名稱寫入 |
2 | Model | 設備型號 | 按掃描儀型號規范名稱寫入 |
3 | DateTimeDigitized | 數字化時間 | 按GB/T 7408-2005 數據元和交換格式 信息交換 日期和時間表示法 規定的格式著錄:YYYY-MM-DDThh:mm:ss |
4 | ColorSpace | 色彩空間 | 按色彩空間的規范名稱寫入 |
5.3數字化元數據捕獲
數字化系統應以件為單位自動捕獲數字化元數據,將元數據與文件級目錄數據合并形成文件級元數據庫。數字化系統不具備自動捕獲功能的,應采取手工著錄與系統批量賦值相結合的方式為數字化元數據賦值。元數據項及著錄要求見下表。
序號 | 元數據名稱 | 類型 | 著錄細則 |
1 | 數字化時間 | 日期型 | 著錄源版數字副本第一頁及最后一頁的數字化時間。格式為: YYYY-MM-DDThh:mm:ss/ YYYY-MM-DDThh:mm:ss |
2 | 數字化對象描述 | 字符型 | 對需要特別說明的案卷物理特征等所作描述。 |
3 | 數字化授權描述 | 字符型 | 著錄《江西省紙質檔案原件數字化審批書》的名稱、編號及主要內容,以及獲得授權實施數字化的責任方名稱等信息 |
4 | 格式名稱 | 字符型 | 著錄源版數字副本格式名稱 |
5 | 格式版本 | 字符型 | 著錄源版數字副本格式版本號 |
6 | 色彩空間 | 字符型 | 著錄源版數字副本色的彩空間 |
7 | 壓縮方案 | 字符型 | 著錄制作源版數字副本采用的壓縮算法 |
8 | 壓縮率 | 字符型 | 著錄制作源版數字副本的壓縮比率 |
9 | 水平分辨率 | 字符型 | 著錄源版數字副本的水平分辨率。 |
10 | 垂直分辨率 | 字符型 | 著錄源版數字副本的垂直分辨率。 |
11 | 設備類型 | 字符型 | 著錄制作源版數字副本的設備類型,包括掃描儀、數碼相機,默認值為“掃描儀”。 |
12 | 設備制造商 | 字符型 | 著錄制作源版數字副本設備的制造商名稱 |
13 | 設備型號 | 字符型 | 著錄制作源版數字副本設備的型號 |
14 | 設備系列號 | 字符型 | 著錄制作源版數字副本設備的系列號 |
15 | 設備感光器 | 字符型 | 著錄掃描儀感光部件類型名稱 |
16 | 數字化軟件名稱 | 字符型 | 著錄數字化軟件名稱 |
17 | 數字化軟件版本 | 字符型 | 著錄數字化軟件版本號 |
18 | 數字化軟件生產商 | 字符型 | 著錄數字化軟件開發商名稱 |
5.4數字副本命名規則
5.4.1 源版數字副本命名規則
本規范規定了兩種源版數字副本命名規則。全部數字化對象只需掃描一個稿本時,選用命名規則1;部分數字化對象需掃描多個稿本時,則全部源版數字副本采用命名規則2。
⑴ 命名規則1。數字圖像名稱由2部分構成:文件級檔號.件內頁面流水號。
示例:一份檔號為“J015-1-00016-0001”的文件有3頁,經掃描生成的3個數字圖像的名稱分別為:
J015-1-00016-0001.001.JPG
J015-1-00016-0001.002.JPG
J015-1-00016-0001.003.JPG
⑵ 命名規則2。數字圖像名稱由3部分構成:文件級檔號.稿本代碼.稿本內頁面流水號。稿本代碼為:01——正本,02——定稿,03——草稿。
示例:一份檔號為“X038-1967Y-026-001”的文件正本為2頁、定稿為2頁、草稿為4頁,經掃描生成的8個數字圖像名稱分別為:
X038-1967Y-026-001.01.001.JPG
X038-1967Y-026-001.01.002.JPG
X038-1967Y-026-001.02.001.JPG
X038-1967Y-026-001.02.002.JPG
X038-1967Y-026-001.03.001.JPG
X038-1967Y-026-001.03.002.JPG
X038-1967Y-026-001.03.003.JPG
X038-1967Y-026-001.03.004.JPG
5.4.2 衍生數字副本命名規則
⑴ PDF或雙層PDF格式數字副本命名規則。與源版數字副本命名規則相對應,PDF或雙層PDF格式數字副本有兩種命名規則,如以下示例。
示例1:X038-1967Y-026-001.PDF(規則1)
示例2:X038-1967Y-026-001.01.PDF(規則2)
X038-1967Y-026-001.02.PDF(規則2)
X038-1967Y-026-001.03.PDF(規則2)
⑵ TXT格式數字副本命名規則。TXT格式數字副本采用文件級檔號命名。
示例:X038-1967Y-026-001.TXT
5.5數字化成果存儲規范
應按照《江西省數字檔案與數據離線備份介質管理規范(試行)》的要求,在移交存儲介質中分類有序地存儲數字化成果。按檔號構成項分級建立文件夾,并可根據存儲的實際需要增加下級文件夾,將數字副本相對集中地存儲于最低一級文件夾內。
⑴ 數字副本存儲基本結構
a)源版數字副本存儲結構。源版數字副本存儲基本結構為::\數字檔案或數據\全宗號\目錄號\案卷號\文件級檔號。
紙質檔案正本、定稿、草稿經數字化形成的源版數字副本的存儲,應在基本存儲結構下建立相應文件夾并分別存儲,其結構為::\數字檔案或數據\全宗號\目錄號\案卷號\文件級檔號\稿本代碼。
示例1::\數字檔案或數據\x038\1967Y\026\ X038-1967Y-026-001\01
源版數字副本同時以TIFF、JPEG等多種格式形成時,應參照上述方式逐級建立文件夾并存儲,其結構為::\數字檔案或數據\全宗號\目錄號\案卷號\文件級檔號\稿本代碼\格式名稱,或:\數字檔案或數據\全宗號\目錄號\案卷號\文件級檔號\格式名稱。
示例2::\數字檔案或數據\x038\1967Y\026\ X038-1967Y-026-001\01\TIFF
:\數字檔案或數據\x038\1967Y\026\ X038-1967Y-026-001\01\JPEG
示例3::\數字檔案或數據\x038\1967Y\026\ X038-1967Y-026-001\TIFF
:\數字檔案或數據\x038\1967Y\026\ X038-1967Y-026-001\JPEG
b) PDF或TXT格式數字副本存儲結構為:
:\ 數字檔案或數據\全宗號\目錄號\案卷號\
⑵ 元數據庫存儲結構為:
:\著錄文件\
⑶ 數字化工作文檔數字副本存儲結構為:
:\授權文件\數字化授權文件\