所謂信息加工,是指根據不同的目的和要求,對收集到的大量原始信息進行篩選判斷、分類整理、編目標引、編目組織、存儲分析,並使之成為具有壹定使用價值的信息的過程。
壹般來說,收集到的原始信息是壹種初始的、雜亂的、孤立的信息。只有將這些零階信息進行分類整理,使之成為有規律、有秩序、有系統的高階信息,才能加以利用;只有通過描述和索引,零級信息才能轉化為二級信息,便於信息的存儲、檢索和傳遞。因此,信息加工的過程就是在原有信息的基礎上,為用戶生產出價值含量高、使用方便的新信息,從而增加信息價值的過程。
根據不同的標準,信息處理可以分為不同的方式。
根據處理響應時間的不同,處理可以分為實時處理和批處理。實時處理是指對發送的數據立即處理,立即響應,壹般適用於常規操作;批量處理是指將發送的數據存儲壹定的量或時間後再進行集中處理,壹般適用於統計分析業務。
根據處理功能的深度,處理可以分為預處理處理、業務處理和決策處理。預處理是對信息的簡單整理;業務處理是分析信息,綜合信息輔助決策;決策處理是對信息的統計推斷,產生決策信息。
根據加工工具的不同,可分為手工加工和計算機加工。人工處理是利用人工設備處理信息,主要存在於信息處理的初級階段。計算機處理是利用計算機進行數據處理,對原始數據進行處理,產生表格、圖形等結果。
3.4.2信息篩選
信息篩選是信息處理的第壹步,其目的是去偽存真,去粗取精,保證信息的準確性和有效性。
信息篩選程序
信息篩選的基本程序主要包括以下幾個方面:
(1)信息整理。信息整理是信息篩選和判別的前提,其目的是將零散無序的信息進行規範和組織,便於進壹步的加工和分析。
(2)瀏覽復習。瀏覽和審核是信息篩選和甄別的中心環節。其目的是去除那些明顯錯誤或無用的信息,保留那些明顯真實或有用的信息。對於壹些暫時無法確定的信息,暫且擱置,留待進壹步處理。
(3)再次復習。對於不確定的信息,應采用咨詢或其他科學方法再次進行分析和研究,從而科學地確定其選擇,提高信息篩選和判別的準確性。
3.4.2.2信息篩查的重點對象
(1)虛構信息。這種信息完全是虛構和捏造的,沒有任何事實依據。主要來自於信息收集者的不良動機,這類信息必須去除。
(2)添加信息。這類信息雖然有壹定的依據,但有些情節和內容是信息收集者和傳遞者通過主觀想象而不是以事實為依據添加上去的,需要進行分析和區分。
(3)誇大信息。這類信息往往誇大或縮小事實,是對事實的歪曲,會嚴重影響信息的真實性和可信度。
(4)有偏見的信息。這種信息是片面強調某個動作的起因或者扼殺某個動作的要素。如果這類信息得不到檢查和糾正,就會影響信息的使用價值,甚至給信息使用者造成重大損失。
(5)信息不完整。因為時間長了,不正確的獲取信息,或者因為信息來源本身無法獲取,僅僅通過個別現象或特征獲得的信息是不完整的信息。這類信息壹般需要進壹步補充收集。
(6)模糊信息。這類信息來源於信息收集者的道聽途說、含沙射影,往往帶有“說過”、“聽說過”、“大概”、“可能”、“有跡象”等字眼。這種信息可信度差,必須再次收集核實。
(7)拼湊信息。這種信息在收集、加工和傳遞過程中,往往將不同地點、不同時間、不同條件、不同性質的信息組合成同壹地點、同壹時間、同壹條件、同壹性質的同壹信息。總的來說,這種東拼西湊的信息還是沒有根據的。
3.4.2.3信息篩選法
(1)感官判斷法。感官判斷法是指信息處理者在瀏覽和審查原始信息的過程中,依靠自己的知識、技能和經驗,直觀地判斷信息的真實性和可信度的方法。
(2)對比分析。對比分析是指信息處理者在篩選和辨別信息的過程中,對從不同渠道收集到的信息進行前後左右、相同信息的對比分析,以確定信息的真實性和可信度的方法。
(3)專家判斷法。專家判斷法是指對壹些壹時無法選擇的信息,由專家來決定其價值的方法。
(4)集體討論法。集體討論法是指集體協商的方法,通過集體智慧來確定個人無法得出結論的壹些信息的選擇。
(5)現場核查法。現場核實法是指指令信息采集人員或信息處理人員深入現場,對有疑問的信息真實性進行核實的方法。
(6)數學會計方法。數理核算法是指信息處理人員在對原始信息有疑問時重新計算的處理方法。這種方法可以及時糾正由於信息收集和計算錯誤、筆誤或傳輸過程中的錯誤而造成的信息失真。
3.4.3信息分類
信息篩選是信息的粗加工,信息分類是信息的精加工。只有對信息進行分類整理,才能更好地存儲、檢索、傳遞和利用信息。
3.4.3.1信息分類基本程序
(1)確定分類方法。目前,信息分類的方法很多,包括區域分類、內容分類、主題分類、時間分類和綜合分類。采用哪種分類方法直接決定了信息材料的排序。因此,確定分類是信息整理的基礎和前提。
(2)實施信息整理。這是信息分類的第二步,即將信息資料分門別類,供後期工作使用。
(3)整理信息。信息分類後,同壹類別的信息資料的擺放也存在先後排列的問題。通過整理信息,信息可以成為有序的信息系統。
3.4.3.2信息分類的具體方法
(1)地區分類。地區分類是指根據不同地區的信息劃分方法。
(2)時間分類。時間分類是指按照時間順序劃分信息的方法。時間分類也可以用年、月、日來劃分。
(3)內容分類。內容分類是指根據信息中包含的不同內容進行分類的方法。比如,按照行業,信息可以細分為農業信息、工業信息、商業信息、服務信息、旅遊信息、企業信息、基本建設信息、金融信息、財務信息等等。
(4)綜合分類。綜合分類是根據時間、地域、內容對信息進行綜合劃分的方法。根據不同的組合,綜合分類可分為時域分類、區域時域分類、內容域分類、內容-時域分類、區域時間-內容分類、區域內容-時間分類、時域內容-域分類和時間-內容-域分類。
信息描述
信息描述又稱信息描述,是指按照壹定的管理規則和技術標準,對信息的外部特征和部分內容特征進行分析、選擇和記錄的過程。通過信息描述,形成反映原始信息的內容特征和外部特征的記錄,是條目或項。目錄是壹種文件報告和檢索工具,它按壹定的順序排列許多項目。條目是壹類文獻的縮影,目錄是壹批文獻的縮影。
3.4.4.1信息描述標準化
文獻著錄標準化是指在壹個國家或國際範圍內,對文獻著錄的原則、內容和格式的約束性規範。為了開發和利用文獻資源,需要獲得壹種壹致的書目信息語言來描述文獻的特征以及報道和檢索文獻的方法。20世紀60年代,許多國家在本國實現了文獻著錄的標準化。在此基礎上,國際圖書館協會和機構聯合會(簡稱IFLA)特別工作組於1971年開始制定國際文獻著錄標準,並於1974年正式發布國際標準書目著錄(ISBD),被世界各國廣泛接受。國際標準書目成功地解決了以下問題:
(1)使文獻描述項及其排列順序可以互換,即實現了文獻描述的國際統壹。
(2)克服了語言障礙,使各國文獻的描述易於識別。即使不懂某壹種語言的讀者也可以通過符號系統來識別描述項。
(3)有助於將壹般書目轉換成機讀目錄的形式。
為建立和完善我國統壹的文獻報告制度,開展國際書目信息交流,更好地開發和利用文獻信息資源,我國在全國文獻工作標準化技術委員會第六分委員會(目錄著錄分委員會)和中國* * *圖書館學會的共同努力下,於7月正式出版了國家文獻著錄標準系列中的《文獻著錄通則》,1983。此後,各種子規則相繼出臺,包括普通圖書、連續出版物、地圖、檔案、古籍、檢索期刊、參考文獻的著錄規則。
3.4.4.2機讀目錄格式
Marc (Machine Readable Catalog)是機讀目錄的簡稱,是以代碼形式和特定結構記錄在計算機存儲介質上,並被計算機識別和讀取的目錄。
從65438年到0965年,國會圖書館開始開發機器可讀的目錄。MARCⅰⅰ磁帶生產於1966。1969年MARC ⅱ磁帶正式出版,隨後陸續出版了專著、連載出版物、檔案和手稿、可視資料、樂譜、地圖等MARC數據文件。因為MARC格式是由美國國會圖書館開發的,所以稱為USMARC(也叫LCMARC)。1977年,IFLA第壹次出版了《UNIMARC通用機讀目錄格式》,此後不斷修訂。
CNMARC是中國機讀目錄格式,由中國國家書目組織根據UNIMARC制定。作為中國人民的文化行業標準WH/T0503-96出臺。這符合ISO2709的規定。基於UNIMARC,保留了UNIMARC中定義的所有字段,並補充了中文出版物特有的字段定義。例如,它增加了以下字段和子字段:091統壹書號;092訂單號;093專利號;094標準號;690《中國圖書館分類法》;692中國科學院圖書分類;905收藏信息等。
3.4.4.3杜賓科爾標準
杜賓核心標準是DC的簡稱。DC元數據的格式由OCLC(Online Computer Library Center,Inc .)和NCSA(National Center for super computing Application)聯合召開第壹次研討會(即DCLC/NCSA元數據研討會)制定,旨在尋求壹種簡潔、靈活、非專業館員容易掌握和使用的信息資源描述格式,以提高網絡信息資源的開發利用率。操作對象僅限於網絡上的電子文本資源。會議產生了13個元數據項,這些元數據項以會議地點杜賓命名。在9月的第三次研討會上,1996,DC元數據進壹步將處理對象擴展到圖像資源。為了全面描述圖像資源,增加了描述項和權限管理項兩個描述項,並修改了部分描述項的名稱,產生了15個描述項。1997 10在芬蘭赫爾辛基舉行的第五系列研討會上,進壹步明確了DC元數據格式的主要功能側重於信息資源的描述或說明,而不是信息資源的評價,因此15元數據項分為以下三類:
(1)資源內容描述類元數據項。該類中有以下元數據項:
標題:由資源的創建者或發布者給定的資源名稱。
創建者:資源的創建者。
Subject:可以揭示資源對象的主題內容或主題內容的關鍵字。
描述:資源內容的文本描述,包括文檔對象的摘要或可視化作品的內容描述。
語言:資源對象使用的語言類型。
來源:二次資源的來源信息。常規元素只包含當前資源的信息。如果有必要顯示當前資源,該項目可以包括第二資源的日期、創建者、形式、標誌或其他元數據。
關系:次要資源的識別及其與當前資源的關系。該元素允許相關資源和資源描述之間的關聯。例如,編目自(是的版本)、翻譯自(基於)、摘錄自(是的壹部分)、格式轉換自(是的格式)等等。
覆蓋範圍:資源知識內容的時空特征。空間範圍是指物理區域,如經緯度、標準化地名等。時間範圍是指資源的內容(時間段)而不是資源生成的時間(時間點);時間描述采用與日期項相同的格式。
(2)知識產權描述元數據項。該類中有以下元數據項:
創建者:承擔創建資源知識內容主要責任的個人或機構。
出版商:負責將資源轉化為當前形式的人,如出版社、大學學院或公司實體。
貢獻者:指未列在創作者要素中,對資源的知識內容做出了重要貢獻,且貢獻次於創作者的個人或組織(如編輯、文案、插畫等。).
權利:權利管理聲明,或指向權利管理聲明的標識,或指向提供資源權利管理信息內容的服務的標識。
(3)外部屬性描述類元數據項。該類中有以下元數據項:
日期項目:指與創建資源或使資源可用相關的日期。
類型:資源的類別,如小說、詩歌、報告、論文、詞典等。
標識符:唯壹標識資源的字符串或數字。例如,網絡資源標識中的URL和URN,以及其他通用的唯壹標識,如國際標準書號(ISBN)或其他規範名稱,都可以用作標識符。
格式:資源的數據格式,用於指示顯示和執行該資源需要什麽軟件或硬件,如文本、JPG圖像、應用程序等。
信息索引
信息標引又稱信息披露,是對信息的主要內容和其他形式特征進行選擇、概括和提煉的過程。包括選擇信息表單特征,分析信息內容的特征,並將它們轉換成諸如反映信息內容主題的標誌的特定內容。
3.4.5.1信息索引程序
信息標引的過程壹般包括三個環節。
(1)主題分析。即分析信息中包含的話題,主要包括話題的數量分析,即信息包含多少話題;主題結構分析,即每個主題有多少個主題概念因素;主題內容分析,即具體說明信息包含哪些主題,每個主題有哪些概念因素。
(2)主題標引。將話題分析的結果轉化為話題識別。根據對信息主題的揭示程度,主題標引有四種策略:①整體標引:即壹個信息實體的整體主題壹般用壹個標識進行標引。②綜合標引:即對壹個信息實體的所有局部主題或不同主題及其概念因素進行詳細標引。③補充標引:即除了對壹個信息實體的總體主題進行總標引外,還對壹些局部主題及其概念因素進行單獨標引。④關鍵標引:即對信息實體中與信息系統的性質、任務和目的相關的主題部分進行標引。
(3)檢查和審核,即對上述主題分析和主題標引的過程和結果進行檢查和審核,最終正式形成信息披露的結果。
3.4.5.2信息索引法
根據標引過程中給出的標記的不同形式和性質,信息標引通常可以分為分類標引和主題標引兩大類。
(1)分類標引。分類標引是對信息的內容或形式特征進行分類識別的方法。通過分類標引,可以將主題屬性為* * * *的信息類集合起來,按照各類信息之間的主題關系,將所有信息組織成壹個有層次、有組織的整體。從現代分類法的編制方法來看,分類方法主要有等級分類法、刻面組合分類法和混合分類法:
1)分層分類。這種分類是以文獻內容的學科性質為基礎,按照知識範疇的邏輯順序,由壹般到具體,由簡單到復雜,逐層劃分的層次體系。其主要特點是:按主題和專業集中文獻,從知識分類的角度揭示各種文獻在內容上的差異和聯系,提供壹種從主題分類中檢索文獻信息的途徑。
2)刻面組合的分類。這是壹種基於分析和綜合原理的分類類型。它的基本思想是:任何復合題目,無論多麽復雜,都可以分解成相應的基本概念;同時,它們也可以通過相應的基本概念的組合來表達。因此,不必在分類法中詳細列出所有主題,只需在類別表中按類別列出各種基本概念,並分配相應的編號即可。
3)混合分類。這種分類是上述兩種分類優點的綜合。在詳細列舉類表的基礎上,廣泛使用各種組合方法。如國際十進分類法。
上述層次分類法從古至今壹直廣泛應用於圖書館文獻的分類和檢索,在圖書情報領域至今仍廣泛使用。其優點是:強調知識的系統化組織,符合人們認識事物的習慣,方便用戶按學科體系檢索相關文獻信息;類目的樹形結構適用於文獻的排架管理和檢索工具的排列組織:通常使用阿拉伯數字和拉丁字母進行標識,具有通用性,使國際統壹分類實現資源共享成為可能。當然,層次分類體系也有局限性,如其架構的局限性和直接特異性差;不適合多角度索引和檢索;類別體系是固定的,是預先列出的,不能及時反映新學科、新事物,很難修改和補充。
(2)主題標引。主題標引是使用標準化或非標準化的自然語言作為信息主題標識的方法。根據選詞原則、組合方式、規範措施和編制方法。主題法可分為標題形態學、變形學、關鍵詞法和敘事形態學。
1)標題詞法。標題形態學是利用標題詞(標準化的事物名稱和名詞術語)作為信息主題內容的識別和檢索標識的方法。標題詞的來源主要是標引對象的名稱或標題中常見的定型名詞。標題詞的編制稱為標題表,標題詞法的主要特點是預先編制表格。標題詞以固定的組合方式組織在詞匯表中,按照建立的組合進行檢索。標題詞匯表的作用是從意義、詞形、詞與詞之間的關系和用法等方面管理和控制優化的標題詞。保證壹個事物只用壹個標題詞來表達,壹個標題詞只表達壹個事物或意義,避免使用過程中的混亂。標題形態學具有良好的直接性和特異性,通用性強,適合於特征檢索,但靈活性較差。
2)變形記。《變形記》主張用最基本的、不可分割的詞匯單位詞作為主題詞,可以從信息內容中提取出來,然後標準化,表達壹個獨立的概念。比如“計算機軟件”不是單位詞,而“計算機”和“軟件”是單位詞。在英語中,單位詞往往是壹個詞。《變形記》的突出特點是:強調詞匯的單位化;強調後期結合。雖然《變形記》提高了主題法的靈活性,但由於過分強調詞匯單位化、詞匯加工方法不合理、容易產生錯誤組合、誤檢率高等原因,實用性不強。
3)關鍵詞法。關鍵詞法是直接從信息資料的標題、摘要或正文中提取能表達主題概念的有意義的信息單元(關鍵詞)作為主題詞,然後按詞序依次排列進行信息檢索的方法。關鍵詞排序可以形成主題檢索的索引體系,例如《科學引文索引》中的“旋轉主題索引”,其關鍵詞是從文獻的標題中提取出來的。關鍵詞法不受詞庫控制,快捷簡單,適合計算機組織和檢索信息。但缺點是關鍵詞法的用詞不規範,影響了信息的查全率和查準率。
4)敘事。敘詞表是從敘詞表中選取敘詞表,通過概念組合來描述信息材料的主題,使標引和檢索達到更高程度的索引的方法。詞典編纂的顯著特點是多個描述符可以形成任意邏輯組合,構成多種檢索問題。敘事學吸收了上述幾類學科方法的優點,具有直觀、具體、靈活、標引準確、檢索方便等優點,在文獻檢索中得到了廣泛應用。目前國內外大多數檢索工具和數據庫都使用敘詞表。常用敘詞表有INSPEC敘詞表、原子能科技中文敘詞表、國防科技敘詞表、地質中文敘詞表、中文敘詞表。
信息存儲
信息是抽象的,必須附著在某種載體上才能表現出來。將信息附加到載體上的過程就是存儲信息的過程。
信息存儲的意義和作用
信息存儲是指將經過處理的信息按照壹定的規則記錄在相應的信息載體上,並按照壹定的特征和內容屬性將這些載體組織成系統的檢索系統的過程。信息存儲的意義和作用如下。
(1)有利於* * *。信息存儲後,用戶可以享用信息庫,反復使用,提高了信息的利用率。
(2)檢索方便。將處理後的信息存儲起來形成信息庫,為用戶檢索所需信息提供了極大的方便。
(3)有利於信息的集中管理,增加信息資源的擁有量,開發高層次的信息資源。
總之,在存儲信息時,壹定要充分考慮檢索的方便性和高效性,做到有條不紊,分類合理,檢索清晰,取之容易。
3.4.6.2信息存儲的主要技術
傳統信息存儲技術是指紙質印刷存儲技術,現代信息存儲技術主要包括縮微膠片存儲技術、音像存儲技術、計算機存儲技術和光盤存儲技術。它們具有存儲容量大、密度高、成本低、存取方便等優點,因此被廣泛應用。
(1)紙張存儲技術。紙質存儲技術是最常用、使用時間最長的存儲技術。但它有很多缺點,如存儲信息密度低、體積大、占用空間多、紙張易燃燒、受潮、發黴、蟲蛀、風化等。,而且不容易保存。
(2)縮微存儲技術。縮微存儲技術是指用相機將印刷品的內容縮微到膠片上,然後再沖洗成縮微膠片進行存儲。縮微膠片存儲技術的主要優點是:①存儲密度高,可以節省90%的用紙信息存儲空間。②儲存方法簡單,成本低,經濟實惠。③保質期長,通常在環境中可達50年,在標準條件下可達數百年。④微電影忠於原著,不容易出錯。與其他存儲方式相比,其錯誤率為0。⑤利用縮微技術可以對規格不統壹的原始文件進行規範化管理。縮微技術還可以與計算機技術和通信技術相結合,實現自動檢索。它的缺點是:只有借助微型閱讀器或微型閱讀器復印機才能閱讀,無法對照閱讀,所以保存條件非常嚴格。
(3)音視頻存儲技術。視聽存儲技術是指以錄音或錄像的方式記錄和存儲信息的壹種信息存儲技術,包括錄音存儲技術、錄像存儲技術和膠片存儲技術。
(4)光盤存儲技術。光盤存儲技術是利用激光和計算機將各種信息數字化,轉換成光信號並記錄在光盤上存儲信息的壹種新型存儲技術。光盤存儲技術具有以下特點:①存儲密度高、容量大;(2)價格低廉,易於復制;(3)經久耐用,儲存壽命長。光盤密封良好,不應受到灰塵、有害氣體和電磁場的影響。而且采用激光進行非接觸式接入,使用壽命超過10年。它的主要缺點是誤碼率比較高。
(5)計算機存儲技術。計算機存儲技術是指利用計算機的內部和外部存儲器來存儲信息的技術。根據其在計算機中的作用,計算機的內存可分為內存和外存。其中,內存直接與CPU打交道,主要特點是速度快、容量小、價格高;外存主要是內存的備份和補充,被人們廣泛使用。其特點是存儲容量大,成本低,可永久離線存儲信息。
3.4.7信息分析
信息分析是信息組織過程中不可缺少的壹部分,是通過已知的信息來提示客觀事物運動規律的過程。其主要任務是信息研究者借助壹定的方法和手段,在更深、更全、更全面、更適用的層面上將原始信息概括成全新的信息內涵,以滿足用戶解決特定主題的需求。
3.4.7.1信息分析功能
信息分析有四個基本功能:整理、評估、預測和反饋。
(1)排序功能:收集整理信息,使之由無序變為有序。
(2)評價功能:評價信息的價值,從而去粗取精,去偽存真。
(3)預測功能:通過分析已知修改稿的內容,獲得未知或未來的信息。
(4)反饋功能:根據用戶的實際消費效益,對預測結論進行審核、評估、修改和補充。
壹般來說,這四個基本功能是密切相關的。信息整理和評估是信息分析的兩個基本功能,是為實現預測和反饋功能做準備。預測和反饋是信息分析的兩個特征功能,是信息整理和評價功能的進壹步擴展和延伸。
信息分析方法
信息分析方法是信息分析的工具,是實現信息分析的手段。雖然信息分析的內容千差萬別,規模和範圍也各不相同,但它們的共同目標都是圍繞著具體的決策問題。通過對問題發展歷史和現狀的深入分析和研究,揭示其發展規律,預測其發展前景和趨勢,這就決定了各種分析方法的共同特點和屬性。信息分析方法主要包括定性分析和定量分析。
(1)定性分析法。定性分析法,即邏輯法,是以邏輯推理和辯證分析的技術為基礎,根據已知信息,通過比較、分析綜合、歸納推理等壹系列邏輯手段,揭示事物發展規律和因果關系的研究方法。定性分析的優點是推理嚴密,直覺強。但主要缺點是:其結論只是壹種沒有定量解釋的定性傾向,不夠具體和詳細,不能完全適應技術經濟或工程項目、市場預測等需要定量研究的課題。
(2)定量分析方法。定量分析方法,即數學方法,是運用基礎數學、數理統計、應用數學以及其他壹切數學處理和計算的研究方法的總稱。這些方法的突出特點是:能夠對事物進行定量描述,並顯示其發展的具體程度;在用數學方法研究事物之間的關系時,研究者直接接觸的是公式或模型等事物的同態系統,而不是事物本身。但是,定量分析方法也有其適用條件和局限性:數學計算中使用的邊界條件是人們根據客觀事物抽象或假設的,在確定最終結論時要審查或驗證這種抽象或假設是否合理或符合客觀實際;數學方法中使用的各種參數數據來自客觀統計和主觀評價,因此數學方法研究的結果只在信息分析研究的結論中具有相對意義;客觀事物往往是多參數、動態的復雜系統,而任何客觀事物的同態系統本質上都是壹個近似的、靜態的、簡化的系統。
由此可見,邏輯方法和數學方法各有千秋。在信息分析研究中很難將它們完全分開。壹般來說,定性分析是定量分析的基礎,旨在為定性分析的結論提供論據,確認定性分析的結果。在具體的信息分析活動中,他們傾向於將兩種方法結合起來。