清研智談 | 紙質檔案數字化:助推檔案管理的新趨勢

紙質檔案數字化是指采用掃描儀等設備對紙質檔案進行數字化加工,使其轉化為存儲在磁帶、磁盤、光盤等載體上的數字圖像,并按照紙質檔案的內在聯系,建立起目錄數據與數字圖像關聯關系的處理過程。目前大部分檔案保管機構庫藏檔案載體仍然是以紙質為主,傳統載體的檔案占用的存儲空間大,保管成本高,使用過程中易磨損,并且檢索效率低,難以滿足人們日漸增強的對信息資源的需求。因此,對紙質檔案進行數字化處理的目的是更好地保護檔案原件,提高檔案服務效率,方便利用者使用檔案。
紙質檔案數字化的意義
與傳統的檔案服務模式相比,在檔案檢索、提供利用、保護原件方面,數字化檔案都有著得天獨厚的條件。具體來講,紙質檔案數字化有如下好處。
有利于檔案信息的傳輸,實現檔案信息共享
數字化檔案信息可以通過網絡等現代技術實現異地的遠程利用,為需求者提供方便快捷的檔案信息服務。檔案數字化能改善檔案信息的傳輸方式,使檔案的利用不再受“孤本”的限制,一份文件可以同時提供給所有需要它的人共享。檔案信息的利用時效性和檔案內在價值可以得到充分的釋放和體現,可以實現檔案工作價值的增值。
有利于保護檔案原件
檔案的唯一性、原始性和憑證性決定了檔案是真實記錄歷史的重要載體,因此保護原始檔案安全和可用性是檔案工作的重要內容之一,檔案數字化之后,檔案利用方式從利用原件變成主要使用檔案數字副本,檔案原件從而得到了更加充分和有效的保護。檔案數字副本可以異地保存,這樣可使這些檔案在遇到突發性災害時避免遭到毀滅性破壞。
有利于檔案利用者方便快捷地查閱檔案
檔案工作的最終目的除保存歷史記錄以外主要是為了利用,這是檔案工作生存發展的基礎。傳統檔案利用工作是檔案工作者根據利用需求,結合檔案整理的相關規則和檢索方法,以及檔案排架規則調出原始檔案提供利用,數字化后檔案信息的利用工作轉變成由授權檔案利用者,根據自身的調檔需求,組建檢索關鍵詞在網絡上查閱檔案信息,減輕了檔案工作者的勞動強度,方便了檔案利用者的查閱,提高了利用工作的效率。
有利于檔案信息資源的開發利用
利用檔案數字化信息可以高效開展檔案信息資源的開發利用工作。通過網絡終端隨時查閱、整合、編輯豐富的檔案信息可以大大提高檔案信息利用效率。數字化信息,不僅為檔案管理人員開展編研工作提供了方便,還為檔案利用者提供了根據業務和專業需要開發利用檔案信息的途徑。
有利于電子政務和無紙化辦公
隨著國家電子政務的不斷發展和推廣,無紙化辦公正被普遍應用,根據國家對檔案信息化建設的進一步規范,在相關法律允許的范圍內,紙制檔案的數字副本可替代原件直接用于電子政務,與電子檔案共同組成數字檔案信息庫,為電子政務和無紙化辦公創造條件。

紙質檔案數字化工作流程
具體來講,紙質檔案數字化工作包括數字化前處理、數據采集、數據處理、數據存儲和數字化后處理五個基本環節。數字化加工的流程見圖如下:

紙質檔案數字化前處理
1.檔案出庫
紙質檔案數字化加工之前,檔案保管機構還要將檔案信息資源進行有序整理,就是要按照檔案信息化建設的要求,在進行數字轉換之前,對檔案信息普遍、全面地進行一次鑒定和加工整理。
2.檔案的交接
檔案保管機構將需數字化處理的檔案移交給業務承包方,承包方應當對照檔案保管機構提供的檔案目錄認真清點核對檔案的卷數,在檔案保管機構和承包方確認無誤的情況下,簽訂《紙質檔案數字化原件交付單》。
紙質檔案數字化數據采集
1. 設備選擇
檔案掃描應根據紙質檔案原件實際情況、數字化目的、數字化規模、計算機網絡和存儲條件等選擇相應的掃描設備,進行相關參數的設置和調整。參數的設置和調整應保證掃描后數字圖像清晰、完整、不失真,圖像效果最接近檔案原貌。
掃描儀是進行紙質檔案數字化工作所必需的設備,常用的紙質檔案數字化設備有平板掃描儀、高速掃描儀、寬幅掃描儀、零邊距掃描儀、數碼翻拍儀等。不同的設備有不同的使用范圍。
2. 參數設置
在掃描前使用專用硬件設備交驗顯示器參數,使之與掃描儀的對應參數保持一致,防止掃描結果在顯示器上顯示時產生亮度和色彩的偏差。
3.數字化操作
將紙質檔案進行掃描,轉化為電子文件,采用專業掃描儀或者數碼翻拍儀等設備完成,保證掃描質量和準確度?!皰呙琛辈僮魍瓿珊螅酉聛頌閳D像文件命名就可以按設置好的文件格式進行存儲。

紙質檔案數字化數據處理
1.圖像處理
將掃描圖像與檔案原件進行對照,如圖像模糊,應當重掃。對有偏斜等問題的圖像,應采用計算機自動處理或人工處理方式進行優化。
糾偏:對出現偏斜(如圖像傾斜度大于1度) 的圖像應進行糾偏處理(也可批量糾偏),以達到視覺上基本不感覺偏斜為準。對方向不正確、不符合閱讀習慣的數字圖像應進行旋轉還原。
去污:對圖像頁面中出現影響圖像質量的雜質,如在掃描過程中產生的黑點、黑線、黑框、黑邊等應進行去污處理,以底色填充。對原件邊上有遮字的圖像要放出白邊。在處理過程中,應遵循展現檔案原貌的原則,處理過程中不得去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等痕跡。
圖像拼接:對大幅面紙質檔案進行分幅掃描時,相鄰圖像之間應留有足夠的重疊,并且建議采用標板、標尺等方式明確說明分幅方法、起止頁、原件大小等信息;分幅掃描形成的多幅數字圖像,后期可通過應用軟件自動拼接的方式進行拼接處理,合并為一個完整的圖像。
裁邊處理:采用白色做底色的彩色模式掃描的圖像,應進行拉框或裁邊處理,去除多余的白邊,以有效縮小圖像文件的容量,節省存儲空間。
圖像優化:對字跡褪變的文件,在掃描后應該采用圖像處理技術,調整亮度和對比度,使字跡變得清晰。
OCR:采用OCR技術進行字符識別,將以圖像方式表達的文字信息,轉換成以字符方式表達的文字信息。
2.圖像質量檢查
掃描完畢后應及時進行圖像數據質量檢查,發現圖像不符合質量要求時,應重新進行處理。發現掃描、格式轉換有問題時,應及時整改。對掃描或轉換后圖像質量不理想的,應對相應參數進行調整,如亮度、對比度、飽和度、色階、色彩平衡等,調整所選擇的參數類型和數值,以調整后的圖像不失真、效果最清晰完整為準。

紙質檔案數字化數據存儲
1.存儲格式的選擇
紙質檔案數字化成果,包括有檔案內容數據和檔案目錄數據兩大類。內容數據存儲格式的選擇,應該從保真性強、兼容性好、存儲容量小這幾個方面進行綜合考量,紙質檔案數字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式。紙質檔案數字圖像利用時,也可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為OFD、PDF等其他格式。正常情況下多選擇TIF、JPEG、PDF和OFD四種文件格式進行保存。
2.文件存儲的組織
文件存儲應將一卷或一件檔案中的單頁圖像文件緊密地組合在一起。利用文件夾組織方式,可以將多頁圖像文件存儲在以該檔號命名的文件夾中,也可以將單頁圖像文件合并為多頁圖像文件。
3.目錄數據庫建立
選擇數據庫時應考慮建立在計算機環境下,能夠有效、準確、完整、安全,并可以上網利用的格式,且此格式可轉換為通用數據格式,以便于數據交換。
數據錄入應按照檔案著錄的結果進行文件目錄及案卷目錄數據的規范輸入。此外,還應將紙質檔案數字化前處理工作中對紙質檔案目錄進行修改、補充的備注結果一并錄人數據庫,形成準確、完整的目錄數據。
4.數據掛接
將經過質檢的紙質檔案數字圖像,掛接到檔案目錄數據庫中去,實現目錄數據與數字圖像的關聯,以便于利用者通過檔案目錄數據庫直接調閱檔案全文。

紙質檔案數字化后處理
1.數字化成果驗收
據紙質檔案數字化的組織加工方式,對于檔案保管機構內部進行數字化加工的,建議檔案部門成立專門的驗收組對紙質檔案數字化成果進行驗收,并采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案數字化成果進行驗收檢驗。
2.檔案裝訂與歸還入庫
紙質檔案數字化工作完成后,對拆除過裝訂物的檔案要進行重新裝訂,恢復檔案原貌。數字化加工完畢,對紙質檔案進行清點,并重新裝訂還原成卷或件。清點無誤后交還給檔案管理部門,按照檔案入庫要求履行檔案入庫手續確保檔案的完整性。
3.數字化成果移交
驗收合格的數字化成果應按照紙質檔案數字化工作方案及時移交。移交的數字化成果,應包含三方面內容,即:目錄數據、圖像數據和OCR識別形成的文件,以及數字化工作中產生的工作文檔等。數據移交方式有在線移交和離線移交。
4.數字化成果管理
為確保數據安全,承建方事先應對每一批通過驗收的數據進行備份,待所有數據全部通過驗收并移交給業主方后,再根據業主要求進行數據存檔或存儲設備的管理。

紙質檔案數字化是政務數字化、信息化轉型的重要一環,是提高檔案管理效率和安全性的關鍵舉措。數字化檔案的長遠價值不僅體現在提高效率上,還可以為各行各業提供更廣闊的應用空間。在信息化發展的大環境下,紙質檔案數字化勢在必行,將為未來的工作和生活帶來更多便利與效益。
撰稿 | 趙明威 清研集團技術部研究員
編輯 | 陳澤璽
圖片 | 網絡