HTTP(Hyper Text Transfer Protocol),即超文本傳輸協議是壹種Internet上最常見的協議,用於傳輸超文本標記語言(HTML--Hyper Text Markup Language)寫的文件,也就是我們通常說的網頁,通過這個協議,我們可以瀏覽網絡上的各種信息,在瀏覽器上看到豐富多彩的文字與圖片。
WWW的核心——HTTP協議
眾所周知,Internet的基本協議是TCP/IP協議,目前廣泛采用的FTP、Archie Gopher等是建立在TCP/IP協議之上的應用層協議,不同的協議對應著不同的應用。<BR> WWW服務器使用的主要協議是HTTP協議,即超文體傳輸協議。由於HTTP協議支持的服務不限於WWW,還可以是其它服務,因而HTTP協議允許用戶在統壹的界面下,采用不同的協議訪問不同的服務,如FTP、Archie、SMTP、NNTP等。另外,HTTP協議還可用於名字服務器和分布式對象管理。
2.1 HTTP協議簡介
HTTP是壹個屬於應用層的面向對象的協議,由於其簡捷、快速的方式,適用於分布式超媒體信息系統。它於1990年提出,經過幾年的使用與發展,得到不斷地完善和擴展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的規範化工作正在進行之中,而且HTTP-NG(Next Generation of HTTP)的建議已經提出。
HTTP協議的主要特點可概括如下:
1.支持客戶/服務器模式。
2.簡單快速:客戶向服務器請求服務時,只需傳送請求方法和路徑。請求方法常用的有GET、HEAD、POST。每種方法規定了客戶與服務器聯系的類型不同。
由於HTTP協議簡單,使得HTTP服務器的程序規模小,因而通信速度很快。
3.靈活:HTTP允許傳輸任意類型的數據對象。正在傳輸的類型由Content-Type加以標記。
4.無連接:無連接的含義是限制每次連接只處理壹個請求。服務器處理完客戶的請求,並收到客戶的應答後,即斷開連接。采用這種方式可以節省傳輸時間。
5.無狀態:HTTP協議是無狀態協議。無狀態是指協議對於事務處理沒有記憶能力。缺少狀態意味著如果後續處理需要前面的信息,則它必須重傳,這樣可能導致每次連接傳送的數據量增大。另壹方面,在服務器不需要先前信息時它的應答就較快。
2.2 HTTP協議的幾個重要概念
1.連接(Connection):壹個傳輸層的實際環流,它是建立在兩個相互通訊的應用程序之間。
2.消息(Message):HTTP通訊的基本單位,包括壹個結構化的八元組序列並通過連接傳輸。
3.請求(Request):壹個從客戶端到服務器的請求信息包括應用於資源的方法、資源的標識符和協議的版本號
4.響應(Response):壹個從服務器返回的信息包括HTTP協議的版本號、請求的狀態(例如“成功”或“沒找到”)和文檔的MIME類型。
5.資源(Resource):由URI標識的網絡數據對象或服務。
6.實體(Entity):數據資源或來自服務資源的回映的壹種特殊表示方法,它可能被包圍在壹個請求或響應信息中。壹個實體包括實體頭信息和實體的本身內容。
7.客戶機(Client):壹個為發送請求目的而建立連接的應用程序。
8.用戶代理(User agent):初始化壹個請求的客戶機。它們是瀏覽器、編輯器或其它用戶工具。
9.服務器(Server):壹個接受連接並對請求返回信息的應用程序。
10.源服務器(Origin server):是壹個給定資源可以在其上駐留或被創建的服務器。
11.代理(Proxy):壹個中間程序,它可以充當壹個服務器,也可以充當壹個客戶機,為其它客戶機建立請求。請求是通過可能的翻譯在內部或經過傳遞到其它的服務器中。壹個代理在發送請求信息之前,必須解釋並且如果可能重寫它。
代理經常作為通過防火墻的客戶機端的門戶,代理還可以作為壹個幫助應用來通過協議處理沒有被用戶代理完成的請求。
12.網關(Gateway):壹個作為其它服務器中間媒介的服務器。與代理不同的是,網關接受請求就好象對被請求的資源來說它就是源服務器;發出請求的客戶機並沒有意識到它在同網關打交道。
網關經常作為通過防火墻的服務器端的門戶,網關還可以作為壹個協議翻譯器以便存取那些存儲在非HTTP系統中的資源。
13.通道(Tunnel):是作為兩個連接中繼的中介程序。壹旦激活,通道便被認為不屬於HTTP通訊,盡管通道可能是被壹個HTTP請求初始化的。當被中繼的連接兩端關閉時,通道便消失。當壹個門戶(Portal)必須存在或中介(Intermediary)不能解釋中繼的通訊時通道被經常使用。
14.緩存(Cache):反應信息的局域存儲。
2.3 HTTP協議的運作方式
HTTP協議是基於請求/響應範式的。壹個客戶機與服務器建立連接後,發送壹個請求給服務器,請求方式的格式為,統壹資源標識符、協議版本號,後邊是MIME信息包括請求修飾符、客戶機信息和可能的內容。服務器接到請求後,給予相應的響應信息,其格式為壹個狀態行包括信息的協議版本號、壹個成功或錯誤的代碼,後邊是MIME信息包括服務器信息、實體信息和可能的內容。
許多HTTP通訊是由壹個用戶代理初始化的並且包括壹個申請在源服務器上資源的請求。最簡單的情況可能是在用戶代理(UA)和源服務器(O)之間通過壹個單獨的連接來完成(見圖2-1)。
圖2-1
當壹個或多個中介出現在請求/響應鏈中時,情況就變得復雜壹些。中介由三種:代理(Proxy)、網關(Gateway)和通道(Tunnel)。壹個代理根據URI的絕對格式來接受請求,重寫全部或部分消息,通過URI的標識把已格式化過的請求發送到服務器。網關是壹個接收代理,作為壹些其它服務器的上層,並且如果必須的話,可以把請求翻譯給下層的服務器協議。壹個通道作為不改變消息的兩個連接之間的中繼點。當通訊需要通過壹個中介(例如:防火墻等)或者是中介不能識別消息的內容時,通道經常被使用。 圖2-2
上面的圖2-2表明了在用戶代理(UA)和源服務器(O)之間有三個中介(A,B和C)。壹個通過整個鏈的請求或響應消息必須經過四個連接段。這個區別是重要的,因為壹些HTTP通訊選擇可能應用於最近的連接、沒有通道的鄰居,應用於鏈的終點或應用於沿鏈的所有連接。盡管圖2-2是線性的,每個參與者都可能從事多重的、並發的通訊。例如,B可能從許多客戶機接收請求而不通過A,並且/或者不通過C把請求送到A,在同時它還可能處理A的請求。
任何針對不作為通道的匯聚可能為處理請求啟用壹個內部緩存。緩存的效果是請求/響應鏈被縮短,條件是沿鏈的參與者之壹具有壹個緩存的響應作用於那個請求。下圖說明結果鏈,其條件是針對壹個未被UA或A加緩存的請求,B有壹個經過C來自O的壹個前期響應的緩存拷貝。
圖2-3
在Internet上,HTTP通訊通常發生在TCP/IP連接之上。缺省端口是TCP 80,但其它的端口也是可用的。但這並不預示著HTTP協議在Internet或其它網絡的其它協議之上才能完成。HTTP只預示著壹個可靠的傳輸。
以上簡要介紹了HTTP協議的宏觀運作方式,下面介紹壹下HTTP協議的內部操作過程。
首先,簡單介紹基於HTTP協議的客戶/服務器模式的信息交換過程,如圖2-4所示,它分四個過程,建立連接、發送請求信息、發送響應信息、關閉連接。
圖2-4
在WWW中,“客戶”與“服務器”是壹個相對的概念,只存在於壹個特定的連接期間,即在某個連接中的客戶在另壹個連接中可能作為服務器。WWW服務器運行時,壹直在TCP80端口(WWW的缺省端口)監聽,等待連接的出現。
下面,討論HTTP協議下客戶/服務器模式中信息交換的實現。 1.建立連接 連接的建立是通過申請套接字(Socket)實現的。客戶打開壹個套接字並把它約束在壹個端口上,如果成功,就相當於建立了壹個虛擬文件。以後就可以在該虛擬文件上寫數據並通過網絡向外傳送。
2.發送請求
打開壹個連接後,客戶機把請求消息送到服務器的停留端口上,完成提出請求動作。
HTTP/1.0 請求消息的格式為:
請求消息=請求行(通用信息|請求頭|實體頭) CRLF[實體內容]
請求 行=方法 請求URL HTTP版本號 CRLF
方 法=GET|HEAD|POST|擴展方法
U R L=協議名稱+宿主名+目錄與文件名
請求行中的方法描述指定資源中應該執行的動作,常用的方法有GET、HEAD和POST。不同的請求對象對應GET的結果是不同的,對應關系如下:
對象 GET的結果
文件 文件的內容
程序 該程序的執行結果
數據庫查詢 查詢結果
HEAD——要求服務器查找某對象的元信息,而不是對象本身。
POST——從客戶機向服務器傳送數據,在要求服務器和CGI做進壹步處理時會用到POST方法。POST主要用於發送HTML文本中FORM的內容,讓CGI程序處理。
壹個請求的例子為:
GET /zju/index.htm HTTP/1.0
頭信息又稱為元信息,即信息的信息,利用元信息可以實現有條件的請求或應答 。
請求頭——告訴服務器怎樣解釋本次請求,主要包括用戶可以接受的數據類型、壓縮方法和語言等。
實體頭——實體信息類型、長度、壓縮方法、最後壹次修改時間、數據有效期等。
實體——請求或應答對象本身。
3.發送響應
服務器在處理完客戶的請求之後,要向客戶機發送響應消息。
HTTP/1.0的響應消息格式如下:
響應消息=狀態行(通用信息頭|響應頭|實體頭) CRLF 〔實體內容〕
狀 態 行=HTTP版本號 狀態碼 原因敘述
狀態碼表示響應類型
1×× 保留
2×× 表示請求成功地接收
3×× 為完成請求客戶需進壹步細化請求
4×× 客戶錯誤
5×× 服務器錯誤
響應頭的信息包括:服務程序名,通知客戶請求的URL需要認證,請求的資源何時能使用。
4.關閉連接
客戶和服務器雙方都可以通過關閉套接字來結束TCP/IP對話