心理測試中的人機對話I .人機對話:人才測評領域的新變化
信息化是壹場革命。它帶來了人際交往方式的改變和人類思維方式的轉變。因為“什麽是社會(無論其形態如何)?是人與人交流的產物。”信息社會、網絡社會、虛擬空間的興起,加強了人們多方面的交往,促進了人們豐富的社會關系的形成,對人的發展產生了巨大的影響。信息技術創造的“虛擬現實”環境為人們提供了壹個練習角色的絕佳場所,人們可以在其中“轉換角色”,假設自己是不同的角色,體驗不同角色的需求和情緒,並根據自己對網絡社會中角色規範的理解來練習自己的角色。總之,信息化帶來了交往方式、生存方式、教育方式等方面的變革,為人格和能力的提升提供了進壹步發展的可能,也帶來了人才評價理論和方法範式的重大轉變。
信息化表現在人力資源管理領域,是HR流程的“e”。各類人才測評軟件的開發和應用是其中的壹個亮點。這些基於人工智能、信息技術、高級編程語言和多媒體技術的評價工具,不僅“e”了壹般的評價方法,而且使它們建立在壹個強大的技術平臺上,大大提高了壹般人才評價方法的應用範圍。坦率地說,人機對話是通用人才評價理論和方法在計算機和網絡中的實現,具有重要的現實意義:當信息技術取代了人類的操作,使評價任務或過程自動化;信息技術在擴展人的工作時,使評價任務或過程信息化;當信息技術用於重組時,它使評估任務或過程發生了根本的變化。
壹般的人才評價需要在真實的、沈浸式的刺激-反應條件下實現。然而在實際的人才測評中,這往往是我們力所不及的。因為現實中很多場景是可遇而不可求的。比如地震、山洪等突發事件考驗個人的應急能力,是不可預知的。有些場景,即使可以刻意營造,也是成本高昂,對測試雙方都有威脅的,比如對飛行員的訓練和測試。這些局限性在其他領域也同樣存在,並促使人們開發新的逼真模擬場景的方式。隨著計算機技術的發展,這壹過程可以在虛擬空間中普及。人機對話評價是對信息化挑戰傳統評價理論和方法的回應。既能使被測試對象獲得自我認知,又能使其在對話過程中獲得學習經驗;它不僅是壹個評價的過程,也是壹個學習的過程。由於人機對話具有許多其他評價方式難以具備的優點,因此在各方面都得到了廣泛的認可。這從網絡測評的火爆就可以看出,體現了大眾對人機對話測評的認可和參與。近年來,人才測評領域針對不同的測評對象推出了很多測評軟件。測評技術中的心理測試、專業筆試、系統仿真、人工智能專家系統,都已經在人機對話中初步實現。這些都預示著人機對話在評價中應用的廣闊前景。
二,人機對話:通用人才評價方法的推廣
壹個常見的誤解是,人機對話只是將人才評價的方法轉移到計算機上,這似乎與壹般人才評價方法的應用(基於人與人之間的互動)沒有什麽區別。的確,在過去,各種人才評價方法的應用大多是基於人與人之間的直接互動。即使是紙筆評價等看似間接的交互評價,也不過是借助壹個或幾個中介的“刺激-反應”評價。從哲學的角度,特別是馬克思對人類社會發展的廣義分類,這種評價的直接互動基礎有其局限性。因為傳統社會的根本特征是基於人與人之間的依賴,在這個社會中,通過人與人直接互動的鏡子,我真的可以更準確地反映“鏡中的自己”。而在信息時代的市場經濟條件下,社會的本質特征轉化為人對事物的依賴。在這個社會中,人與人之間的關系在某種程度上是建立在物-人-物的相互作用之上的。表面上反映了物與物之間的關系,實際上更深刻地反映了人與人之間的社會關系。這是否定之否定。在信息社會,這面鏡子就是“虛擬現實”(錢學森稱之為“精神鏡子”)。評價手段的變化是基於網絡化、信息化的人機對話評價方式的興起。然而,在人機對話和人機關系的背後,人與人之間的社會關系仍然在起作用,只是這種社會關系是通過虛擬空間表現出來的。
無論是從設計流程、操作程序、數據收集與處理、評價結果解讀、話語體系解讀等外在方面,還是從評價的理論與技術基礎上,都不難看出,與壹般的人才評價方法相比,“人機對話”方法並不是壹種具體的評價方法,而是許多人才評價方法在計算機上的再現。可以實現通用人才評價方法的綜合,為其提供更廣闊的舞臺。這種再現不是基於純粹的技術,而是基於對信息時代社會交往新的基本趨勢的把握和壹般評價方式的利弊轉換。壹般的評測方法,如面試、文檔處理等,都有各自的相對優勢和適用領域,但也有相同的缺點,人機對話正好可以從各個方面進行改進:
第壹,經濟制約。有些評價方法被認為適合“高級人才”的評價,不僅僅是因為它們科學、優雅、可靠,還因為壹個非常現實的考慮:經濟原因。比如測評中心技術,融合了小組討論、文檔處理、結構化面試等測評方式,整個實施過程耗費了大量的人力、物力和時間,對測試人員的要求很高。簡而言之,經濟因素決定了許多人才評價方法實施的難度,並限制了它們的適用範圍。而人機對話可以在壹定程度上解決類似的困境。人機對話評價系統因其強大的數據處理和情景模擬能力,可以模擬現實中的多種評價方式,使評價隨時隨地大規模進行。規模效應首先帶來的是經濟成本的節約和機會成本的降低。
第二,人為因素的幹擾。人才評價的客觀性和科學性在壹定程度上取決於評價方法的恰當選擇和正確應用。但有些人為幹擾與方法本身無關,只與方法運行的技術平臺有關。比如人才評價對信度和效度的追求壹直在進行。如何最大限度地實現評價中的價值中立、過程客觀、程序公正,往往是壹個令人頭疼的問題。典型的例子就是高考。其間制度措施不多,但往往差強人意。自從實行網絡遠程錄取和網上錄取公示制度後,那些曾經傷透了心的故事就很少發生了。人機對話提高了很多評價方法的境界,在這裏就表現出來了。可以提前充分考慮人為因素的幹擾,采取技術措施屏蔽和消除,並“倒逼”整個評價理念和體系發生改變;另壹個關鍵的好處是,即使不能完全排除人為因素的幹擾,至少可以明確評價的信度和效度,以及如何持續改進。總之,面對不可避免的謬誤,人機對話可以讓我們更容易理解:誤差有多大,犯錯的概率有多大,避免錯誤的關鍵措施在哪裏。這些都不同程度地困擾著壹般的人才評價方法。
第三,作坊式經營的尷尬。壹般的人才評價,哪怕是多種評價方式的組合,往往也擺脫不了作坊式的氛圍。這是因為:從根本上說,壹般的人才評價方法不能不建立在經驗和直覺判斷的基礎上。經驗和直覺很重要,但還不夠。舉個例子,壹個老農通過嘴品嘗哪種玉米是原生玉米,哪種玉米是雜交玉米,而壹個科研人員通過基因檢測鑒定這兩種玉米的結果似乎差不多。他們都識別了玉米的品種,而且前者可能更快更直接。但是科技含量不壹樣。因為這些評價基本上得不到準確詳細的數據,更談不上建立評價研究的數據庫。這就決定了傳統評價的實施不可能是漸進的,評價方法的組合往往千差萬別,難以獲得整體的協同。表現在評價領域,即各行業各自為政的評價,老死不相往來;各類人才評價的規範難以建立;從各種測評中獲得的有價值的數據被閑置,無法享用;缺乏不同性別、不同年齡、不同地區、不同行業的人才測評量化比較。沒有強大的人才評價數據平臺的支撐,作坊式的評價難以與國際接軌,無法與國際交流和競爭。比如西方幾家知名的評估咨詢機構,之所以能立於不敗之地,很大程度上是因為他們的做法背後有長期積累的數據平臺的支撐。反觀國內,分評、單評、遊戲評比比皆是。這種狀況制約了評價的可持續發展。“人機對話”評價方法的應用,或許可以逐漸擺脫這種可悲的局面。因為它可以持續收集評價數據,形成強大的評價數據庫;它可以實現在線評價數據的交換,為評價提供數據支持,使評價從間歇過程向連續過程轉變。總之,人機對話是數字化測評時代的前奏。
第四,應對時代的困惑。信息社會的到來為人才評價提出了新視角和新思維,也帶來了評價方法的新問題和新思考。比如網上辦公的普及,數字社區的建立,信息化政府的建設,對人們的觀念產生了很大的影響。它要求評價方法、內容和形式有新的發展。人機對話為應對這壹挑戰提供了新的途徑。壹般的人才測評方法,尤其是心理測試,在人機對話中被廣泛使用。這不僅是因為心理測試的尺度容易實現人機對話,還因為心理變化作為現代社會快速變化的反映,往往更深刻地反映在人本身。轉型社會,最深刻的變化是人的變化。要把握人才評價的根本,就要看到人的根本是人本身。信息社會的人才評價需要適應人自身的深刻變化,因此必須回應評價的動態性、追溯性、人性化、服務性、便利性、簡潔性、長期性和指導性。而這些新的需求正是壹般的評估方法難以應對的。人機對話及其技術的發展為評價領域的這些問題提供了壹些答案。動態的網絡交流、交互式的人機對話、日益人性化的人機界面、日益強大的計算機數據處理和仿真能力,使得通用評價方法在人機對話中獲得了新的內涵和新的形式。比如領導人才素質測評的公文處理測試,應該也可以在網上實現。因為很多政府機關都實行了無紙化辦公,它與傳統的公文處理有很多不同。從長遠來看,這不僅是改變評價內容的能力,也是人機對話的方式。
三,人機對話:理論基礎和特點
人機對話不僅僅是單純的技術表達,在發展中也有自己的理論基礎。認識到這壹點,有利於正確理解人機對話評價的相對優勢和可能的劣勢。除了壹般人才測評方法的理論假設外,人機對話的理論基礎還包括:
認知心理學理論。認知心理學起源於行為心理學的反叛,帶來了心理測驗理論的新發展。它將心理學與計算機相結合,產生了壹個全新的人工智能領域;它用信息加工的觀點來解釋人的心理過程,比行為心理學的假設前進了壹大步,使評價的假設從“刺激”變成了?反應型”轉變為“生產型”;它借用了信息論、控制論、計算機、仿生學等新興學科的理論,把人才評價放在了壹個更先進、更科學的領域;它使心理測驗回歸被遺忘的語義解釋傳統,重新審視傳統的評價觀點,並在計算機上“復活”。認知心理學理論在人機對話評價中的應用拓寬了評價的視野,更新了評價的方式,是對實證主義評價範式的揚棄。這些都使得人機對話作為壹種評價方式轉向,有了堅實的理論基礎。
非智力理論。人才評價發展的新趨勢是越來越重視對非智力因素的評價。實用智能的概念就是壹個明顯的例子。根據斯騰伯格提出的三種智力理論,人類智力有三種類型,即:①合成智力。也就是說,在壹個結構化的、定義明確的上下文中解釋信息的能力;②經驗智力。即從不同角度看待問題、從不斷變化的場景解釋信息和解決實際問題的能力;③情境智力。即適應變化環境的能力和操縱談判系統的能力。非智力理論為人機對話的應用提供了理論支持:壹般的評價方法只能在簡單的文字和圖片上假設情景,且僅限於合成智力和經驗智力的評價,而人機對話使非智力因素的再現和檢驗成為可能,使人才評價更加廣泛、層次化和有針對性。
項目反應理論。為了達到最佳的評價設計,項目反應理論的實踐不同於經典測量理論。它可以預先估計出被測能力範圍內擬測的估計標準誤和信息函數,然後從題庫中選取被測能力水平的題型。這為人機對話的個性化奠定了理論基礎。計算機自動控制測評的測試精度代替人工,平衡題型內容,調整測試長度,實現自動選題;人機對話可以快速實現評測的優化目標:測試長度最短;測試信息功能最大;測試偏差最小;測試時間最短;測試可靠性最高;所獲得的分數的分布與目標分數的分布具有最佳的擬合度。人機對話的很多優勢都是基於項目反應理論。比如可以實現電腦化的自適應測評,讓後面的測評題的呈現隨時依賴前面題的回答(傳統的自適應測試方法是改變起點和終點,極其笨拙);可以根據不同的評價對象建立不同的規範等等。項目反應理論使人機對話更加科學實用。
人機交互理論。人機對話中評價的主客體能夠相互學習,很大程度上得益於人機交互。人機對話的壹個重要特點就是用人?人機交互的沈浸感,根據評價對象的反應,不斷學習和選擇不同的模擬場景,有針對性地應用測試項目。模擬、實時、主動的計算機三維動態圖像和聲音使測試成為壹種動態交互,賦予評價對象逼真的效果;評價可以實現自助、實時監控,適應自助開放培訓課堂的要求,自主選擇時間進行自助培訓,消除評價對象的心理負擔,提高評價質量。人機交互理論消解了只有直接面對面評價才可靠可信的偏見,為人機對話的合法性提供了新的依據和辯護。
人機對話的技術特征在某種程度上取決於決定評價的特征。但是人機對話的特點遠遠超出了純技術的範疇。隨著信息技術的飛速發展,人機對話也在不斷變化。評價理論和技術的進步正在向場景化方向發展,具有強烈的現實導向和實踐導向,試圖在真實環境中評價人的外貌。人機對話的特點也是圍繞這個方向。具體來說,人機對話評價模式的特點如下:
(1)評估的可視化。專家人工智能裝置和仿真系統的應用,使評價人機對話生動直觀,提高了人才參與評價考核的興趣和積極性,克服了評價主體差異帶來的影響。(2)評價的簡單性。人機對話評價可以提取最簡單的評價項目,最大限度地覆蓋評價要素。特別是該模擬裝置能夠對復雜的評價要素和項目進行科學的提取和總結,使其變得簡單科學,更易於操作和評價,實現了評價設計的復雜性和評價結果的簡單性的統壹。(3)評價的安全性。人機對話測評的尺度和條目基於大量的題庫,測評的數據具有分級保密性;測評中可增加測謊內容,並註明測評結果的適用範圍和註意事項;(4)科學評價。人機對話評價可以隨時檢驗評價的可靠性和有效性,保證評價數據的科學性和準確性,排除人為因素,使評價結果真實可靠,公開、公平、公正,提高評價和診斷質量。通過人機對話獲得的大量數據為以後評價的持續改進打下基礎,保持評價的連續性。(5)評價的經濟性。人機對話測評可以節省大量人力物力,節省培訓時間,降低成本。(6)評價的有效性。人機對話評價可以實現人機交互中雙方的學習。它不僅可以集成評價和評估,還可以在評估後立即打印評估結果。還可以實現評監分離,將評價結果交由專家評議,保證評價結果的合理合法適用。
四、人機對話:應註意的問題
人機對話不是壹切。人機對話本身所依據的理論基礎和技術手段的不完善,人機對話評價的局限性,人機仿真和實踐的區別,人和機器的關系?很多因素,比如人的因素仍然主導著計算機系統,決定了人機對話仍然存在很多問題:
第壹,信息化是壹把雙刃劍。首先,計算機自適應測試雖然簡化了評價過程,把重點變輕了,把多變少了,但也把越來越多的工作變成了數字化、符號化的選擇和閱卷。評價越來越成為圖表等符號的解釋和說明,評價的世界越來越被這些物化的數字符號所制約和融化,評價雙方的互動退守在這些數字符號的背後,這些都容易導致對評價主體的語言能力、創造性思維能力乃至道德判斷和選擇能力產生不同程度的誤解。此外,在自由的電子網絡空間中,人格與現實生活是不壹致的,而在同樣的電子網絡空間中,這種人格的“自我認同”在人機對話的評價中可能會被打破、分裂和扭曲,從而可能導致評價中的多重人格和人格分裂,導致評價的失序。
第二,信息泛濫和排擠的評價。人機對話可以產生大量數據。如果不能熟練、專業地處理這些數據,往往會出現信息混亂。在人機對話中,過多的評價信息淹沒了評價主客體,評價方法消解了評價目的。用Rothzak的話來說,就是:“信息無處不在,但沒有思考的頭腦...過多的信息會排擠思想,使人在空洞分散的事實面前眼花繚亂,無所適從”。這時,信息“拜物教”和計算機“拜物教”應運而生,信息作為主體的異己力量,與主體對立。信息化評價容易使人過分沈迷於評價技術,忽視和回避生活世界中雙方的感受和交流,混淆“人機關系”和“人際關系”,混淆“現實實踐”和“虛擬實踐”兩種不同的檢驗標準,造成評價目的和手段的二律背反。
鑒於人機對話應用中的壹些誤區,迫切需要端正對人機對話的態度:
第壹,要註意評測軟件本身可能存在的問題。人機對話的評價離不開測試軟件的應用。軟件設計是否成熟,決定了人機對話的成熟程度。目前很多測評軟件,尤其是心理測評軟件都是從西方引進的,其理論和方法多以西方心理學為中心。問題是,就連美國著名心理學家g·墨菲也不得不承認,西方心理學的大部分問題只存在於西方歷史中?西方的地理,經濟,軍事,科學背景?在有意義的問題範圍內。據統計,西方人才測評軟件多達15000種。如果在本土化的基礎上不加修改直接套用,往往會出現問題。即使是自研的評測軟件,因為測試的原因,也經常出現不好用、格式不壹致等問題;至於設計思路上的問題,會在人機對話中間接表現出來。據調查,各單位開發的現有測評軟件,大部分在易用性方面還沒有完全實現,如即時幫助、個人答題系統、群體數據處理系統、數據篩選系統等,測評報告不完善、功能模塊不全、保密性不強,亟待解決。
第二,要防止過分迷信測評軟件的傾向。任何評測軟件都是建立在壹定的理論框架和具體技術之上的,不可能十全十美。所謂“智者醉心於耳聞”,人機對話超越了“傳統”的評價方式,同時也播下了局限性的種子。比如在面對面的互動中忽略了對各種細節的把握和對生活的態度;盲目相信軟件的程序,忽視主客體雙方的能動性的僵化思維;它跨越了紙筆考試中的“語言陷阱”,卻有陷入“人機關系”陷阱的危險;網絡模擬的沈浸感,讓雙方都有可能“夢裏做客,為家鄉出壹份錯”;依賴計算機得出的評測結果,執著於人機對話得出的數據,忽略了評測常識。這些傾向都值得警惕。
第三,要防止過度的商業化取向。人機對話系統開發周期長,技術要求高。由於種種原因,目前人機對話的實現率很低,出題者或審題者得不到合理的經濟利益,而且往往很大程度上侵犯了版權,得不到必要的法律保護。這樣,我們就不得不過度依賴人機對話軟件及其評測來盈利,這將吞噬其科學性和可信度,使人機對話的評測急功近利,難以形成良好的外部環境,引導評測工作向更廣更深的方向發展。用馬克思的話說,過度的商業化傾向給人機對話帶來了太多的利潤,但也給它蒙上了太多的恥辱。如何平衡人機對話的專業性、易用性、標準化和商業化,還需要進壹步研究。
;