1、數字圖書館資源組織框架
2. 元數據開發應用框架
元數據的基本意義 Metadata(元數據)是“關於數據的數據”;
元數據為各種形態的數字化信息單元和資源集合提供規範、普遍的描述方法和檢索工具;
元數據為分布的、由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶。
離開元數據的數字圖書館將是壹盤散沙,將無法提供有效的檢索和處理。
3. 元數據應用環境
3.1 Metadata的應用目的
(1)確認和檢索(Discovery andentification),主要致力於如何幫助人們檢索和確認所需要的資源,數據元素往往限於作者、標題、主題、位置等簡單信息,Dublin Core是其典型代表。
(2)著錄描述(Cataloging),用於對數據單元進行詳細、全面的著錄描述,數據元素囊括內容、載體、位置與獲取方式、制作與利用方法、甚至相關數據單元方面等,數據元素數量往往較多,MARC、GILS和FGDC/CSDGM是這類Metadata的典型代表。
(3)資源管理(Resource Administration),支持資源的存儲和使用管理,數據元素除比較全面的著錄描述信息外,還往往包括權利管理(Rights/Privacy Management)、電子簽名(Digital Signature)、資源評鑒(Seal of Approval/Rating)、使用管理(Access Management)、支付審計(Payment and Accounting)等方面的信息。
(4)資源保護與長期保存(Preservation and Archiving),支持對資源進行長期保存,數據元素除對資源進行描述和確認外,往往包括詳細的格式信息、制作信息、保護條件、轉換方式(Migration Methods)、保存責任等內容。
3.2 Metadata在不同領域的應用 根據不同領域的數據特點和應用需要,90年代以來,許多Metadata格式在各個不同領域出現
例如:
網絡資源:Dublin Core、IAFA Template、CDF、Web Collections
文獻資料:MARC(with 856 Field),Dublic Core
人文科學:TEI Header
社會科學數據集:ICPSR SGML Codebook
博物館與藝術作品:CIMI、CDWA、RLG REACH Element Set、VRA Core
政府信息:GILS
地理空間信息:FGDC/CSDGM
數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images
檔案庫與資源集合:EAD
技術報告:RFC 1807
連續圖像:MPEG-7
3.3 Metadata格式的應用程度
不同領域的Metadata處於不同的標準化階段:
在網絡資源描述方面,Dublin Core經過多年國際性努力,已經成為壹個廣為接受和應用的事實標準;
在政府信息方面,由於美國政府大力推動和有關法律、標準的實行,GILS已經成為政府信息描述標準,並在世界若幹國家得到相當程度的應用,與此類似的還有地理空間信息處理的FGDC/CSDGM;
但在某些領域,由於技術的迅速發展變化,仍然存在多個方案競爭,典型的是數字圖像的Metadata,提出的許多標準都處於實驗和完善的階段。
3.4 Metadata格式“標準化”程度問題
Metadata開發應用經驗表明,很難有壹個統壹的Metadata格式來滿足所有領域的數據描述需要;即使在同壹個領域,也可能為了不同目的而需要不同的但可相互轉換的Metadata格式。
同時,統壹的集中計劃式的Metadata格式標準也不適合Internet環境,不利於充分利用市場機制和各方面力量。
但在同壹領域,應爭取“標準化”,在不同領域,應妥善解決不同格式的互操作問題。
4. 元數據結構
4.1 總體結構定義方式 壹個Metadata格式由多層次的結構予以定義:
(1)內容結構(Content Structure),對該Metadata的構成元素及其定義標準進行描述。
(2)句法結構(Syntax Structure),定義Metadata結構以及如何描述這種結構。
(3)語義結構(Semantic Structure),定義Metadata元素的具體描述方法。
4.2 內容結構
內容結構定義Metadata的構成元素,可包括: 描述性元素、技術性元素、管理性元素、結構性元素(例如與編碼語言、Namespace、數據單元等的鏈接)。
這些數據元素很可能依據壹定標準來選取,因此元數據內容結構中需要對此進行說明,例如MARC記錄所依據的ISBD,EAD所參照的ISAD(G),ICPSR所依據的ICPSR Data Preparation Manual。
4.3 句法結構
句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法(例如Dublin Core采用ISO/IEC 11179標準)、元素結構描述方法(例如MARC記錄結構、SGML結構、XML結構)、結構語句描述語言(例如EBNF Notation)等。
有時,句法結構需要指出元數據是否與所描述的數據對象捆綁在壹起、或作為單獨數據存在但以壹定形式與數據對象鏈接,還可能描述與定義標準、DTD結構和Namespace等的鏈接方式。
4.4 語義結構 語義結構定義元素的具體描述方法,例如 描述元素時所采用的標準、最佳實踐(Best Practices)或自定義的描述要求(Instructions)。
有些元數據格式本身定義了語義結構,而另外壹些則由具體采用單位規定語義結構,例如Dublin Core建議日期元素采用ISO 8601、資源類型采用Dublin Core Types、數據格式可采用MIME、識別號采用URL或DOI或ISBN;
又如OhioLink在使用VRA Core時要求主題元素使用A&AT、TGM和TGN,人名元素用ULAN。
5. 元數據編碼語言與制作方式
5.1 元數據編碼語言
元數據編碼語言(Metadata Encoding Languages)指對元數據元素和結構進行定義和描述的具體語法和語義規則,常稱為定義描述語言(DDL)。
在元數據發展初期人們常使用自定義的記錄語言(例如MARC)或數據庫記錄結構(如ROADS等),但隨著元數據格式的增多和互操作的要求,人們開始采用壹些標準化的DDL來描述元數據,例如SGML和XML,其中以XML最有潛力。
5.2 元數據制作方式
(1)專門編制模塊(例如對MARC、GILS、FGDC等)
(2)數據處理時自動編制(例如對Dublin Core等)
(3)數據物理處理時自動編制(例如數字圖像掃描時的某些元數據參數)
(4)***享元數據(例如OCLC/CORC、IMESH
6. 元數據互操作性
6.1 元數據互操作性問題
由於不同的領域(甚至同壹領域)往往存在多個元數據格式,當在用不同元數據格式描述的資源體系之間進行檢索、資源描述和資源利用時,就存在元數據的互操作性問題(Interoperability):
多個不同元數據格式的釋讀、轉換和由多個元數據格式描述的數字化信息資源體系之間的透明檢索。
6.2 元數據格式映射
利用特定轉換程序對不同元數據元格式進行轉換,稱為元數據映射(Metadata Mapping/Crosswalking)。
已有大量的轉換程序存在,供若幹流行元數據格式之間的轉化,例如
Dublin Core與USMARC; Dublin Core與EAD
Dublin Core與GILS; GILS與MARC TEI
Header與MARC FGDC與MARC
也可利用壹種中介格式對同壹格式框架下的多種元數據格式進行轉換,例如UNIverse項目利用GRS格式進行各種MARC格式和其它記錄格式的轉換。格式映射轉換準確、轉換效率較高。不過,這種方法在面對多種元數據格式並存的開放式環境中的應用效率明顯受到限制。
6.3 標準描述框架
解決元數據互操作性的另壹種思路是建立壹個標準的資源描述框架,用這個框架來描述所有元數據格式,那麽只要壹個系統能夠解析這個標準描述框架,就能解讀相應的Metadata格式. 實際上,XML和RDF從不同角度起著類似的作用。
XML通過其標準的DTD定義方式,允許所有能夠解讀XML語句的系統辨識用XML_DTD定義的Metadata格式,從而解決對不同格式的釋讀問題。
RDF定義了由Resources、Properties和Statements等三種對象組成的基本模型,其中Resources和Properties關系類似於E-R模型,而Statements則對該關系進行具體描述。
RDF通過這個抽象的數據模型為定義和使用元數據建立壹個框架,元數據元素可看成其描述的資源的屬性。
進壹步地,RDF定義了標準Schema,規定了聲明資源類型、聲明相關屬性及其語義的機制,以及定義屬性與其它資源間關系的方法。另外,RDF還規定了利用XML Namespace方法調用已有定義規範的機制。
6.4數字對象方式
建立包含元數據及其轉換機制的數字對象可能從另壹個角度解決元數據互操作性問題。
Cornell/FEDORA項目提出由內核(Structural Kernel)和功能傳播層(Disseminator Layer)組成的復合數字對象。
內核裏,可以容納以比特流形式存在的文獻內容、描述該文獻的元數據、以及對這個文獻及元數據進行存取控制的有關數據。
功能傳播層,主功能傳播器(PrimitiveDisseminator)支持有關解構內核數據類型和對內核數據讀取的服務功能,還可有內容類型傳播器(Content-Type Disseminators),它們可內嵌元數據格式轉換機制。
例如,在壹個數字對象的內核中存有MARC格式的元數據,在功能傳播層裝載有請求Dublin Core格式及其轉換服務的內容類型傳播器。當數字對象使用者要求讀取以Dublin Core表示的元數據時,相應的內容類型傳播器將通過網絡請求存儲有Dublin Core及其轉換服務程序的數字對象,然後將被請求數字對象中的MARC形式元數據轉換為Dublin Core形式,在輸出給用戶。
7. 幾點建議
跟蹤元數據發展、積極參與制定元數據標準、加快元數據應用、註意國際接軌。
加快研究有效利用元數據進行檢索(包括異構系統透明檢索)、相關性學習、個性化處理等的機制。
加快研究元數據與數字對象和數字化資源體系有機整合的途徑與方法。
推進研究利用元數據進行基於知識的數據組織和知識發現。