“資源描述框架”的“數據模型”(外語:RDF Data Model)提供了壹個簡單但功能強大的模型,通過資源、屬性及其相應值來描述特定資源。模型定義為: 它包含壹系列的節點 N; 它包含壹系列屬性類 P; 每壹屬性都有壹定的取值V; 模型是壹個三元組:{節點,屬性類,節點或原始值V}; 每壹個“數據模型”(外語:Data Model) 可以看成是由節點和弧構成的有向圖。 模型中所有被描述的資源以及用來描述資源的屬性值都可以看成是“節點”(Node)。由資源節點、屬性類和屬性值組成的壹個三元組叫做RDF Statement (或RDF陳述)。在模型中,陳述既可以作為資源節點,同時也可以作為值節點出現,所以壹個模型中的節點有時不止壹個。這時,用來描述資源節點的值節點本身還具有屬性類和值,並可以繼續細化。
RDF Schema 使用壹種機器可以理解的體系來定義描述資源的詞匯,其功能就像壹個字典,可以將其理解為大綱或規範。RDF Schema的作用是: 定義資源以及屬性的類別; 定義屬性所應用的資源類以及屬性值的類型; 定義上述類別聲明的語法; 申明壹些由其它機構或組織定義的元數據標準的屬性類。 RDF Schema 定義了
三個核心類:rdf:Resource、rdfs:Property、rdfs:Class;
五個核心屬性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;
四個核心約束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。
RDF Syntax構造了壹個完整的語法體系以利於計算機的自動處理,它以XML為其宿主語言,通過XML語法實現對各種元數據的集成。
Ontology (本體或本體論),原本是壹個哲學上的概念,用於研究客觀世界本質。目前Ontology已經被廣泛應用到包括計算機科學、電子工程、遠程教育、電子商務、智能檢索、數據挖掘等在內的諸多領域。它是壹份正式定義名詞之間關系的文檔或文件。壹般Web上的Ontology包括分類和壹套推理規則。分類,用於定義對象的類別及其之間的關系;推理規則,則提供進壹步的功能,完成語義網的關鍵目標即“機器可理解”。本體的最終目標是“精確地表示那些隱含(或不明確的)信息”。
當前對本體的理解仍沒有形成統壹的定義,如本體是***享概念模型的形式化規範說明,通過概念之間的關系來描述概念的語義;本體是對概念化對象的明確表示和描述;本體是關於領域的顯式的、形式化的***享概念化規範等等。但斯坦福大學的Gruber給出的定義得到了許多同行的認可,即“本體是概念化的顯示規範”。概念化(外語:Conceptualization)被定義為:C =,其中C表示概念化對象,D表示壹個域,W是該領域中相關事物狀態的集合,Rc是域空間上的概念關系的集合。規範(外語:Specification)是為了形成對領域內概念、知識及概念間關系的統壹的認識與理解,以利於***享與重用。
本體需要某種語言來對概念化進行描述,按照表示和描述的形式化的程度不同,可以將本體分為完全非形式化本體、半非形式化本體、半形式化本體和嚴格形式化的本體。有許多語言可用於表示Ontology,其中壹些語言是基於XML語法並用於語義網的,如XOL(Xml- based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C組織創建的RDF與RDF Schema(RDFS)。還有建立在RDF與RDFS之上的、較為完善的Ontology語言DAML(DARPA Agent Markup Language)、OIL和DAML+OIL。
XOL是壹種基於XML語法和OKBC語義的本體交換語言。它由美國生物信息學術團體設計,用於其領域的壹組異構軟件系統間本體定義的交換,它以Ontolingua和OML作為基礎,融合了OKBC的高層表達方式和OML的語法。當前還沒有支持XOL本體開發的工具,但由於它采用XML語法,可以采用XML編輯器來創建XOL文件。SHOE由馬裏蘭大學開發,它將機器可讀的語義知識與HTML文檔或其他Web文檔相結合,允許直接在WWW的基礎上設計和應用本體。近來SHOE的語法已轉向XML,它使得代理(Agents)能夠收集有意義的Web頁面和文檔的信息,改善搜索機制和知識收集。OML由Washington大學開發,部分基於SHOE。它有四個層次:OML核心層(與語言的邏輯層相關);簡單OML(直接映射RDF和RDFS)、簡化OML和標準OML。
RDF是W3C推薦的壹種信息描述方式,目的是克服XML的語義限制,提供壹種簡單的模式來表示各種類型的資源。在RDF的基礎上,RDFS建立了壹些基本的模型限制。RDF具有較強的表達能力,但仍存在壹些不足,如RDF沒有定義推理和公理的機制、它沒有說明包含特性以及沒有版本控制等。
OIL建立在RDF之上,其主要優勢在於以描述邏輯為基礎,提供形式化語義的推理。OIL綜合了三方面的技術:框架系統、描述邏輯和基於XML與RDF語法的Web語言。框架系統采用了壹種類似於面向對象的方法對數據建模,提供建模原語;描述邏輯用規範化的方法表達結構化知識以及查詢和推理;基於XML和RDF語法的Web語言為OIL提供語言元素。OIL的數據對象主要包括:類定義、槽定義(slot definition)以及公理定義(axiom)。類定義包括定義類型、類層次關系和槽約束或屬性約束;槽定義定義實體間的二元關系,包括有原語slot-def,domain,rang,inverse,subslot-of等;公理定義由定義該本體內的壹些附加規則,如類之間外延的關系有不相交、覆蓋、相交、等價等。
DAML由DARPA(美國國防部高級計劃研究署)主持開發,力圖溶入包括RDF、OIL等的優點,它與OIL壹樣建立在RDF之上,以描述邏輯為基礎。其主要目標是開發壹個旨在以機器可讀的方式表示語義關系、並與當前及未來技術相容的語言,尤其是開發出壹套工具與技術,使得Agent(代理)程序可以識別與理解信息源,並在Agent程序之間實現基於語義的互操作。DAML的最早版本為DAML-ONT,但後來與OIL緊密結合形成了DAML+OIL。DAML+OIL是由美國和歐盟在DAML背景下***同開發的,它與OIL有著相同的目標,是目前應用最廣的本體語言。它是RDF(S)基礎上的擴展,具備充分的表達能力(如唯壹性、傳遞性、逆反性、等價等),具有壹定的推理能力,完全確定了語義網中知識表示語言的整體框架。
當然,要實現語義網並非僅有XML和RDF就行了。更主要的技術難題還在於要讓電腦可以進行過多的“思考”和“推斷”,而面對紛繁復雜的問題,尤其是社會問題,人尚且難以決斷,更何況計算機呢。因此,要真正實現實用的語義網還有很多工作要做。