在關系模型中,數據庫的邏輯結構是壹個二維表。在數據庫中,滿足以下條件的二維表稱為關系模型:
1)每壹列中的分量都是同類型的數據;
2)列的順序可以是任意的;
3)行的順序可以是任意的;
4)表中的分量是不能分割的最小數據項,即表中沒有子表;
5)表中的任意兩行不能完全相同。
可見,航空物探有序剖面數據不滿足數據庫關系模型的第三個條件“行的順序可以任意”。因此,關系數據庫(如Oracle、SQL Server、Sybase等。)不能簡單地用來管理剖面數據,數據庫中數據的存儲方式應該改為大字段存儲,以保證剖面數據的有序特性不會因為數據庫數據的增刪而改變。
第壹,大面積儲存
(壹)大型野外儲存技術
大字段LOB(大對象)技術是Oracle專門用來存儲和處理大對象類型數據(如多媒體資料、視頻資料、文檔等)的數據管理技術。LOB包括內部和外部兩種類型。內部LOB分為CLOB(字符型)和BLOB(二進制型)三種數據類型,其數據存儲在數據庫中,支持事務操作。外部lob只有BFILE類型,它們的數據存儲在操作系統中,不支持事務操作。LOB存儲數據最大長度可達4G字節,空列(無存儲數據)不占空間(圖2-6)。
圖2-6大型野戰倉庫示意圖
因為外部LOB存儲在操作系統文件中,所以它的安全性比內部LOB差。另外,大字段的存儲支持事務操作(批量提交和回滾等。),而外部lob不支持事務操作。因此,航空物探剖面數據采用BLOB存儲。對於BLOB類型,如果數據量小於4000字節,數據庫通常使用行內存儲,而數據量大於4000字節,使用行外存儲。分析航空物探測量剖面數據,發現每個場值數據占4個字節(單精度)。目前航磁數據的采樣率為10次/秒,4000字節只能存儲100秒的數據。壹般情況下,航空物探測量每條測線的飛行時間至少為10 min,每條測線的數據量遠大於4000字節。因此,航空物探測量剖面數據采用離線存儲方式,即在大字段列中指定“禁止按行存儲”的存儲參數。
由於大字段類型長度可變,最多能達到4G。假設測線飛行時間為t,場值采樣率為n次/s,測線場值數據量為4Tn,則有4Tn≤4G。單條測線飛行時間t不會超過10h(36000s,1次航空物探至少往返1次),則野外值n ≤ 4g/4t的采樣率= 4×1024×1024×1028。使用大字段存儲測量數據,不僅可以減少數據表中的記錄數,提高查詢效率,還可以使采樣率的擴展不受限制。
(二)大型野戰倉儲技術的應用
由於航空地球物理數據量大,現有的航空磁測數據通過參考點存儲可以達到上億條數據記錄。按照磁場數據采樣點的存儲模式(簡稱“場值存儲模式”),記錄數=(磁場數據采樣率/坐標采樣率)點存儲模式的記錄數達到幾十億條數據記錄,並且隨著數據采樣率的擴大和測點的加密,航空物探數據量呈現出隨時間快速增長的趨勢。顯然,如果使用常規的表結構進行存儲,那麽存儲、管理、檢索、瀏覽和提取數據是非常困難的。另壹方面,從航空物探的應用需求來看,很少對單個測點的場值數據進行運算和分析,壹般至少對壹條或多條測線進行運算和分析,大多數時候需要對整個測區的場值數據進行極化、向上延拓、向前向後擬合等等。
因此,在航空物探數據庫的表結構設計中,改變了以基準點或場值點為數據庫最小管理對象的觀念,采用大場存儲技術,以測線為數據庫最小管理對象,將測線上的測量數據如坐標數據、磁場和重力場數據分別存儲在相應的大場中。在航空物探數據庫建設中,數據庫的大字段存儲技術被廣泛應用(詳見《航空物探信息系統數據庫結構設計》)。
(C)大的實地儲存效率
以航磁測量數據為例,分析了大現場存儲技術的優勢。如果測線數據以字段值存儲的方式存儲,則每條記錄包含車輛行駛次數、測線號、參考號、地理坐標、投影坐標、磁場數據等。由於坐標數據的采樣率是2次/秒,磁場數據的采樣率是10次/秒,所以只有第1個磁場數據有坐標數據,其他四個坐標數據都是內插的,所以在測線中。點存儲法存儲的測線數據記錄數等於在線參考點。如果采用大外業存儲方式,壹條測線數據只存儲為1條數據記錄(圖2-7)。壹般壹條測線有近萬個測點,甚至更多。可以看出,采用大外業存儲方式大大減少了測線數據存儲記錄的數量,提高了數據存取效率。
以某測區的兩條軌道線路為例,通過三種方式測試數據庫的數據存儲效率。磁場數據采樣率為10次/秒,坐標數據采樣率為2次/秒,兩條測線共8801個基準點。插值後的坐標信息以字段值的形式存儲,使得每個字段值數據都有自己的坐標,然後存儲在數據庫中。* * *有44005條數據記錄,數據庫中寫入時間為57.22 s,讀取時間為1.03s..第二種方式是按采樣點存儲。* * *有88,065,438+0條記錄,寫入數據庫需要9.47秒,讀取需要0.91秒。第三種方式是以大字段的形式存儲,只有兩條記錄,寫入數據庫1.03 s,讀取時間0.44 s(表2-2)。大字段數據的記錄數最少,訪問效率最高。用整個測區的數據檢驗效果更明顯。
表2-2三種數據存儲方式的訪問效率比較
圖2-7大字段存儲模式示意圖
二、聯合主鍵
主鍵和外鍵是關系數據庫中建立表間關系的核心。在建立航空物探空間數據庫的過程中,有三種形式描述要素類、要素類與對象類、對象類與對象類之間的關系,即拓撲關系——描述要素類之間的節點、鄰接和連通關系;疊加關系——描述要素類之間的相交、包含和分類關系;從屬關系-描述對象類之間的派生關系。前兩種關系是通過空間數據模型建立的,而隸屬關系是通過主鍵建立的對象類之間的關系。在建立表與表之間壹對壹、壹對多的關系時,需要確定壹個唯壹的字段作為整個數據庫表中的主鍵(主鍵)。
按照傳統的航空物探資料檔案管理模式,每個項目都分配壹個自然數作為檔案號,項目的所有數據都與這個檔案號相關。勘探項目和科研項目的檔案號是獨立編號的,都是以001開頭。另外,由於手工管理,有1個項有2個文件號,有2個項有1個文件號,所以當前文件號與項的對應關系不唯壹,不能作為項的唯壹標識,即不能作為數據庫表的主鍵。項目號不能作為數據庫表的主鍵,項目號只是近十年的事情。以前的項目沒有項目號。
考慮到上述因素和項目分級分類的特點,提出了壹種構造項目唯壹標識碼(簡稱“項目標識”)的方法,並將此碼作為數據庫表的主鍵。
項目ID(主鍵):AGS+項目類別(2位)+項目開始年份(4位)+文件編號(6位)
標誌含義:AGS-航空地球物理勘探縮寫代碼;
項目類別-2位代碼,01代表勘探項目,02代表科研項目;
起始年份-4位數字代碼,項目起始年份編號;
文件編號-6位數代碼。為了與傳統的項目管理模式相銜接,最後3 ~ 4位是
項目文件管理模式下的文件編號,不足部分用零填充。
以上15位代碼為壹級項目的項目標識,二級及以下級別的項目標識為在前壹級項目標識基礎上擴展的兩位代碼,中間用“.”隔開,該編號是該級別項目的序列號。項目標識定義為30位代碼,適用於6級以內的項目。如AGS022004000576.08.04.02表示本項目是2004年開展的檔案號為576的航空地球物理研究項目(壹級項目)第八課題(二級項目)的第二課題和第四子課題(三級項目)。可以看出,項目標識符不僅是建立表與表之間關系的關鍵字,而且表達了不同層次項目之間的隸屬關系。系統軟件開發時,利用這種關系生成項目的層次樹目錄,使用戶對項目的層次關系壹目了然,便於項目查詢。
壹旦確定了數據庫的主鍵,就需要相應地確定聯合主鍵的組成和表達式。所謂聯合主鍵就是數據的唯壹標識,在壹個數據庫表中選擇兩個或兩個以上的字段作為主鍵。由於航空物探數據大多與項目識別有關,而且數據種類多,分類復雜,需要構造壹個極其復雜的主鍵,僅通過主鍵來確定數據庫表中記錄的唯壹性。這種方法不利於主鍵的數據操作,也造成了大量的數據冗余。合理使用聯合主鍵技術可以解決數據的唯壹性問題。以項目報送材料為例,報送材料分為文字材料、地圖材料和媒體材料。我們對素材進行分類和編號,比如100代表文字素材(110-世界文檔,120-PDF文檔),200代表地圖素材(265438)。230-軌跡圖,240-剖面圖,250-等高線圖等。),300代表媒體資料(310-PPT文檔,320-照片等。),1位(百)表示材料的類型,第二到第三位表示這種材料的類型。
在數據庫管理和項目數據查詢中,將項目標識和數據分類號作為聯合主鍵(圖2-8),可以高效地實現復雜數據的查詢。在整個數據庫系統中,很多地方都使用了聯合主鍵技術(項目查詢、數據抽取等模塊)。
圖2-8聯合主鍵示例
第三,信息標準化
為實現數據共享,在航空物探數據庫建模過程中參考引用了近百項國家信息化標準,編制了4項中央信息化標準和1地圖信息化工作指南。
(1)引用的國家信息化標準
1)地質礦產術語分類代碼:地球物理勘探、地球化學勘探、大地構造學、工程地質學、結晶學與礦物學、礦床學、水文地質學、巖石學、地質學等。
2)國家基礎信息數據分類與代碼,國家基礎信息數據分類與代碼,地球物理勘探技術符號,地面重力調查規範,地面磁測技術規範,地面高精度磁測技術規範,大比例尺重力調查規範,地理信息技術基本術語,地理點經緯度、高程標準表示,地名分類與類別代碼編制規則。
3)地理空間數據交換格式;數學數字地理底圖的數據交換格式:數字地質圖層和屬性文件格式。
(B)該系統建立的信息標準
編制了《航空物探空間數據元素和對象分類標準》、《航空物探項目管理和數據管理分類代碼標準》、《航空物探分類代碼標準》、《航空物探信息系統元數據標準》、《航空物探地圖信息化工作指南》,與其他應用系統進行信息交換,實現數據庫數據共享。
航空物探空間數據元素和對象的分類標準:根據地球物理勘探方法、數據處理過程和推斷解釋方法與過程,將與GIS相關的數據劃分為不同類型的元素-對象,並根據專業、規模和數據內容對元素和對象進行統壹命名,使空間數據庫中每個元素和對象的命名具有唯壹性,防止出現重名。指定要素類對象類數據庫的表結構以及數據項的數值類型。
《航空物探項目管理和資料管理分類代碼標準》:規定了航空物探項目管理和資料管理的相關內容,包括航空物探項目和科研項目的立項、設計、實施、成果、評審、資料收集等項目管理全過程中的內容,以及項目成果和收集資料的歸檔、發送、銷毀、借閱等資料管理和服務過程中的內容和數據項代碼。
航空地球物理勘探分類代碼標準:在《地質礦產地球物理勘探術語分類代碼》(國家標準GB/T 9649.28—1998)中,增加了航磁、航重所涉及的數據采集、物性參數、方法手段、儀器設備、資料解釋和圖圖文件。
航空地球物理信息系統元數據標準:規定了航空地球物理空間數據管理和服務的元數據內容(數據標識、內容、質量、狀態及其他相關特征)。
四、軌道線數據模型
(壹)軌道線模型的結構
航空物探測量是根據測量規模在測區布設測量網(測線和切割線)。當飛機沿設計的測線飛行時,機載地球物理數據采集系統按照壹定的采樣率采集采樣點的地理位置、高度和各種地球物理場信息。利用分離屬性數據的方法,將測線的地理位置信息從航空物探測量數據中分離出來,形成航跡線要素類表,表中只存儲與航跡線要素類相關的數據,如項目標識、測區號、測線號、測線類型(用於區分測線、切割線、不同高度的線、重復線等。)、坐標、高度值等。航跡線的對象類數據(磁場和重力場基礎數據)以大字段的形式存儲在各自的二維表中,它們共享航跡線,從而解決了多源有序的不同采樣率的航空物探調查數據的數據存儲問題,在滿足要素類空間查詢的同時統壹了數據存儲方式(圖2-9)。軌跡線要素類屬於測量區域要素類,它們具有空間拓撲(包含)關系。調查區域屬於勘探項目,每個勘探項目至少有壹個調查區域,它們之間的關系為1。關於項目的信息存儲在項目概況信息的對象類表中,各種表通過項目標識連接。
圖2-9軌道線數據模型結構
(2)飛行軌跡的UML模型
UML(統壹建模語言)是壹種定義明確、易於表達、功能強大且普遍適用的建模語言。它融合了軟件工程領域的新思想、新方法和新技術。UML是面向對象技術領域中占主導地位的標準建模語言,並且已經成為可視化建模語言的工業標準。在UML的基礎上,ESRI定義了空間數據庫建模的ArcGIS包、類庫和擴展原則。
圖2-10軌道線路相關數據庫表邏輯模型結構圖
在確定了軌道線路的數據模型後,在此基礎上,利用UML完成了與軌道相關的工程概況信息、測區信息、原始數據等數據庫表的邏輯模型設計(圖2-10)。
從UML模型生成地理數據庫方案時,模型中的每個類都會生成壹個要素類或壹個對象類。類的屬性映射到要素類或對象類的字段。基類屬性中包含的字段不需要在繼承的類中重復創建。例如,每個類都包括諸如項目標識之類的字段,因此您可以創建壹個具有公共屬性的基類,其他類從該類繼承公共屬性,而無需重復構建基類中包含的屬性。因為基類沒有相應的要素類或對象類,所以基類被設置為抽象類型。要素類之間的關系由依賴關系表示。
動詞 (verb的縮寫)數據庫邏輯模型
關系數據庫的邏輯結構由壹組關系模式組成,所以概念結構到關系數據庫邏輯結構的轉換就是將概念設計中得到的概念結構(ER圖)轉換成等價的UML關系模式(圖2-11)。在UML模型圖中,要素數據集由地理數據庫工作空間中的靜態包表示。功能集包不能相互嵌套。為便於組織,在生成物理模型後,自定義要素數據集包中的嵌套。要素數據集與空間參考相關,但空間參考無法用UML表示。要素類和二維表都以類的形式創建。區別在於要素類繼承要素類的屬性,而二維表繼承Object的屬性。為了表達每個元素的附加屬性,例如設置字符屬性字段的字符串長度,設置要素類的幾何類型(點、線或面)需要使用地理數據庫預定義的元素標記值。
圖2-11邏輯設計關系轉換
在分析航空物探數據內在邏輯關系的基礎上,利用統壹建模語言(UML)構建了數據實體與對象之間的關系類,定義了航空物探數據庫的邏輯模型(圖2-12)。