1981年,武漢大學等人發表了《新華字典》詞集內詞根頻率的統計結果。65438-0984年,國家文字改革委員會和武漢大學公布了《辭海》範圍內漢字筆畫、部件、結構動態統計分析結果。
1985年,國家文字改革委員會和山西大學公布了人類姓氏用字抽樣統計分析結果。
1986北京航空航天學院和新華社利用計算機技術,發表了基於大型語料庫的漢字使用頻率和流通頻率新統計。北京師範大學、上海交通大學、北京語言學院等。分別發表了基於大規模語料庫的現代漢語詞匯使用頻率統計。北京大學計算機語言研究所還建立了以漢語語法為中心的全面、翔實、便捷的漢語語料庫和詞屬性數據庫,對漢字編碼鍵盤輸入技術的發展起到了重要的推動作用。
90年代以後公布的漢字鍵盤輸入系統相關國家標準有GB13000.1《信息技術多八位編碼字符(UCS)》、GB18030《信息技術信息交換用漢字編碼字符集基本集擴展》和GB18031《信息技術數字鍵盤漢字輸入通用》。GB15834《標點符號用法》和GB/T18220-2000《信息技術通用鍵盤漢字輸入通用要求》即將出版。語委發布的規範有GF3001《信息處理GB13000.1漢字部件規範》、GF 3002《GB 13000.1字符集漢字筆順規範》、GF3003《信息處理通用鍵盤》。
以下是從第壹代輸入法到微軟輸入法的壹些介紹:
第壹代漢字編碼輸入法
電子工業部第六院於1983年正式公布了第壹個中文磁盤操作系統CC-DOS,在中文信息處理史上具有劃時代的意義。CC-DOS是PC-DOS的擴展和修改。在廣泛使用的CC-DOS 2.1版本中,有簡拼、前綴後綴碼、快速碼、定位碼輸入法,已經覆蓋了包括音碼、形碼、音碼、數字碼在內的主要輸入法類型,為我國計算機應用的普及起到了開創性的作用。
當時使用最廣泛的輸入法是簡拼和聲母、韻母編碼。簡拼是壹種純音碼,使用壹種介於全拼和雙拼之間的拼音方法,用三個或三個以上的字母壓縮元音。前綴後綴碼是純形碼,包含97個部分,分為52類。部件到鍵盤字母的映射沒有太多規律可循,內存很大;編碼時,前綴和後綴只取壹個成分。對於未列出的變形組件,用戶需要猜測它們所屬的鍵位。這兩種方法都不支持關聯或短語,並且都有許多重復的代碼。因此,在輸入時,選擇和翻頁的操作非常頻繁,眼睛需要不斷地掃描提示行,才能在眾多的重碼中找到需要的單詞,輸入起來很累,速度很慢,更不可能實現盲打。
快碼是通過壓縮拼音加碼實現的,壹定程度上可以分散重碼。因為快碼的編碼方式沒有規律可循,所以壹直沒有真正應用。位置碼需要通過記憶6763個漢字和符號的數字碼才能完整輸入,所以除了當時沒有其他輸入方式的標點符號外,基本不被任何人使用。
另壹種早期的漢字編碼輸入法是電報碼。電報碼是4位等長碼方案,使用的碼字範圍從0000到9999,可表示10000個字符(包括漢字、字母和符號)。電報代碼沒有重碼,但是編碼的規律性不強,很難記憶。所以完全是為了郵電部門已經熟悉電報碼的人的需要而移植到電腦裏的,對普通漢字輸入者沒有任何意義。
1986,聯想集團與聯想漢卡同時推出聯想漢字環境。起初,人們用聯想法來加快漢字的輸入。當時還沒有短語輸入法,聯想技術讓人耳目壹新。漢字輸入過程由原來的編碼改為->;翻頁-& gt;選擇-& gt;密碼...變成代碼-& gt;選擇-& gt;選擇...,所以後來很多輸入法都采用了這種技術。但是,按照現代漢字編碼輸入技術的標準,聯想技術還有兩個致命弱點。壹個缺點是,如果後面要輸入的單詞和之前已經輸入的單詞不能組成壹個短語,那麽關聯就會失敗。另壹個軟肋是聯想選型中人機交互過於頻繁。雖然平均碼長縮短了,但實際輸入速度會下降。
簡而言之,第壹代漢字編碼輸入法的特點是:在DOS環境下,以單字為單位進行輸入,在屏幕下方提供專門的提示行,顯示大量的重復字,導致頻繁的翻頁和選擇操作;使用數字鍵選擇重復單詞,使用ALT+數字鍵重復選擇提示行中出現的重復單詞;即使是極其常用的標點符號的輸入,也需要使用定位碼,非常不方便;聯想技術的采用提高了輸入效率,但作用相當有限;通過復合功能鍵ALT+Fn(F1-F12)進行各種輸入法之間的切換(包括切換到英文);支持全角和半角模式,但不支持中文標點;不支持短語輸入,也不支持自定義短語。
第二代漢字編碼輸入法
1986年,四通公司與三井物產株式會社合作推出四通MS-2400中文電子打字機,宣告了中國專業電子打字時代的到來。隨著四路打字機的廣泛使用,捆綁在四路打字機上的五筆字型輸入法首先傳播開來,隨後劉為民發明的捆綁在四路打字機上的雙音輸入法也在當時廣泛使用。
吳彼字體是最典型的純形碼組件類方案。在吳彼字體中,部件通常被稱為字根。吳彼字體采用130基本偏旁。基本偏旁按筆畫分為五類,對應通用鍵盤上的五個區域。每個類別又分為五組,每組對應壹個鍵盤字母。在壹個漢字中,根與根之間的關系可以分為四種:單根、散根、連根和交叉根。拆分漢字時應遵循“以大為主,兼顧直覺,能接能不接,能散能不散”的原則。吳彼字庫將漢字分為三種類型:鍵名漢字、詞根漢字和非鍵名漢字,分別適用不同的編碼規則。另外,單詞編碼有壹、二、三級簡碼,取對應全碼的前壹、二、三個字母組成。吳彼字體將短語分為三種類型:二字、三字和多字。兩個單詞按順序取每個單詞的前兩個根來編碼。三個字按順序取前兩個字的第壹個根和最後壹個字的前兩個根編碼。多字按順序取第壹、第二、第三、最後壹個字的第壹個根進行編碼。
吳彼字體具有非常復雜的編碼規則,以換取GB2312-80字符集中較低的重復率。當采用強制簡碼時,可以進壹步降低低重碼率。將短語編碼放入所有碼字的剩余編碼空間,實現混字編碼。只要收錄的詞組數量不大,重復的可能性就比較小。壹般的吳彼字體本身不具備造字功能。吳彼字體的這些特點恰好滿足了專業打字的需求,也成為其在專業打字時代大受歡迎的重要原因之壹。
盡管吳彼字體在市場上取得了巨大的成功,但其存在的問題也不容忽視。首先,吳彼字體很難學,也很容易忘記。除了復雜的編碼規則,它還有許多需要記住的例外。五筆打字員打字時卡在壹些常用字裏是很常見的。這時候就需要臨時切換到拼音輸入法。其次,吳彼字體的擴展性差。當字符集從GB2312-80過渡到GBK和GB18030時,當詞組數量增加時,碼長為4的吳彼字體碼位會出現大量重碼,使其失去重碼率低的優勢。吳彼字體采用四碼自動上屏策略,無重碼。4碼重碼的增加迫使打字員將目光從手稿上移開以確認他們的輸入,從而降低了輸入速度。最後,吳彼字體最致命的弱點是其糟糕的標準化。張孝存等人對此提出了激烈的批評:“吳彼字體違背了語言文字的規範。在漢字的劃分上有很大的隨意性,對國民的基本文化素質有負面影響。它對規範漢字教育的影響與其應用範圍的擴大成正比[20]。”
雙音輸入法是壹個巧妙的純音碼[23][25]。雙音輸入法最大的特點是“以詞定詞,反向聯想”,以緩解純音碼模式下單字重復過多的問題。因為兩個字的數量比較多,壹般總能找到壹個兩個字,它的第壹個字就是妳要輸入的字。如果這兩個字在提示行的第壹個候選位置,可以省略選擇鍵;否則,您需要使用數字鍵來選擇。如果需要的是整個兩個字,可以加壹個空格鍵輸入第二個字。也就是說,如果使用雙拼,利用“以詞定詞”的技術,在常用詞的輸入中平均擊鍵次數可以達到2.5次,基本避免了傳統拼音+聯想模式下掃描提示行、翻頁、選擇的問題。在雙音輸入法中,對於三個字和四個字,把每個字的聲母作為代碼輸入,必要時加空格。對於不認識的字,可以輸入“\”調用“手寫模擬”。雖然您可以自定義該短語,但它不支持在線構詞法。造詞時,需要使用外部文本編輯器,按照定義的格式輸入代碼和相應的短語。
雙音輸入法是拼音漢字輸入史上的壹大進步,在當時受到很多非專業打字員的歡迎。但是,它也有壹些嚴重的缺點,以至於幾乎沒有人再使用它了。首先,雖然相比傳統拼音在輸入效率上有了很大的提升,但相比後來的智能ABC等句子級拼音輸入法還是有相當大的差距。另外,很多詞在“以詞定詞”時可以由多個詞來確定,而有些詞卻很難找到詞來確定,用戶往往會感到無所適從。雖然雙音輸入法提供了很多其他的方法來解決文字輸入的問題。比如鄧、郭、姚等姓氏的輸入有六個輔助規則。記住這些方法並判斷什麽時候采用什麽方法並不容易。因為單詞只能離線制作,自定義短語不方便。
第三代漢字編碼輸入法
到了90年代末,隨著微型計算機價格的進壹步降低,存儲和處理能力的進壹步增強,Windows圖形操作系統的普及和互聯網的興起,用戶界面變得非常友好,微型計算機大規模進入我國普通百姓家庭,進入中小學教育,真正實現了微型計算機在我國的極大普及。
微機的普及使打字成為每個人的基本技能,就像寫漢字壹樣;需要有人打字其實是文盲的表現,就像需要有人代筆壹樣。這造就了壹個龐大的非專業打字員群體。打字員作為壹種職業正在迅速消失。壹般用戶打字時的操作模式是“想打字”,與專業打字員的“瞎打字”模式完全不同。“盲打”要求操作者盡量少看屏幕,輸入法提供的反饋信息只是在操作者不能“盲打”時偶爾派上用場;操作者要打字的時候總是看著屏幕,輸入法提供反饋的方式和反饋信息的多少都會對操作者的輸入活動產生很大的影響。Windows圖形操作系統為豐富人機界面提供了前提條件,可以滿足多樣化反饋信息的需求。
現代微機強大的存儲和處理能力,為新的存儲密集型和處理密集型輸入法的誕生提供了物質基礎。輸入法程序不再局限於DOS時代的64KB常駐內存。千兆計算速度使復雜的智能算法能夠投入運行。硬盤的容量不僅從兆擴展到千兆,而且訪問硬盤的速度也比DOS時代大大提高。把龐大的詞庫存儲在硬盤上,快速查找,不再是問題。
中小學廣泛開展計算機教育後,學生從小就開始學習打字。漢字編碼與語言教育的關系被提了出來。最低要求是漢字編碼不能和語言知識沖突。理想情況下,漢字的編碼輸入應該與語言知識的學習相結合,相互促進。
在上述背景下,第三代漢字編碼輸入法應運而生,其指導思想是:規範、易學、易用、盡量保持輸入速度。在此期間,智能拼音輸入法的研究高潮叠起,也出現了以筆畫或筆對為輸入單位的純形碼,以及基於聲母和筆畫(或筆對)的拼音形碼[29]-[48]。
(1)智能拼音輸入法
智能拼音輸入法按其實現原理可分為基於理解、基於語用統計、基於模板匹配和基於上下文四種類型。
智能ABC是目前Windows操作系統上應用最廣泛的準句子級拼音輸入法,因為它轉換的是詞組和短語,而不是整句。智能ABC最大的特點就是自定義短語和調整重復單詞的順序非常方便。用戶只需要按照自己的思路輸入,輸入時不需要手動分詞。系統會自動從前到後逐個分詞。當沒有短語時,系統會自動以單字模式顯示重復的單詞供用戶選擇;壹旦用戶選擇並形成壹個新單詞,系統就能記住它。當系統分詞不正確或者系統提供的詞不是用戶需要的時候,用戶也可以修改,系統也可以記住用戶所做的修改。經過長時間的使用,如果用戶沒有改變,系統逐漸適應用戶的使用習慣,使得用戶的輸入過程變得舒適。
智能ABC也有很多需要改進的地方。首先,輸入時可以隨意使用全拼、短拼、混合拼,導入器可以隨時進行音詞轉換。有太多的方式讓用戶知道哪個是最好的。它看起來非常靈活,但實際上它給了用戶優化輸入的任務。但是大部分用戶都不是這方面的專家,不可能很好的完成這個任務,導致走了很多彎路或者不良低效的輸入習慣。其次,音字轉換的準確率不高,句子變化頻繁,導致輸入速度不理想,即使使用雙拼也不如自然碼高效。
微軟拼音是真正的句子級音字轉換智能輸入法,是微軟自然語言處理技術多年科研成果的結晶。微軟拼音采用拼音作為漢字的輸入方式,用戶不需要專門的學習和培訓就可以輕松使用和掌握這種漢字輸入技術。微軟拼音采用基於句子的整句轉換模式,用戶可以連續輸入整句拼音,無需人工分詞和選擇候選詞,既保證了用戶思維的流暢性,又大大提高了輸入效率。微軟拼音提供的人機界面很有特色。可以在正在輸入的文本的插入光標處嵌入組詞窗口,減少了用戶在輸入時視線的移動頻率,大大提高了輸入法的易用性。逐鍵轉換並提示轉換結果,這樣用戶就不必自己決定何時轉換。用戶可以輸入的代碼長度沒有限制。當系統長度超過上限或遇到句號時,系統會自動轉換,讓用戶可以不間斷地繼續輸入。微軟拼音因為語境廣,可以達到很高的轉換準確率。微軟拼音默認拒絕用戶輸入短拼和混合拼,可以引導用戶養成良好的輸入習慣。
微軟拼音也有壹些問題。首先,在編碼輸入錯誤或者轉換不正確的情況下,在句子中進行編輯是比較繁瑣和低效的。其次,在壹個壹個的換鍵時,已經正確轉換的內容往往會被錯誤的修改,用戶還要隨時監控輸入內容的正確性,在轉換內容多的情況下非常累。另外,微軟拼音沒有提供加快單詞輸入的方法,也沒有提供輸入未知單詞的方法,是不完整的輸入法。
基於筆畫(或筆對)和/或首字母的輸入法
利用筆畫和聲母這兩個最簡單的漢字特征信息,可以大大提高輸入法的學習[12]。但是,漢字的筆畫壹般分為五種。筆畫種類太少,必然增加編碼長度,從而影響輸入速度。因此,如何縮短碼長,提高輸入效率,成為這種輸入法能否成功的關鍵問題。
福建雙筆畫碼軟件開發有限公司開發的雙筆畫碼是壹種基於筆畫的純形碼。為了克服筆畫類型太少的問題,在雙筆畫碼中引入了壹種新的筆畫類型“十字”,使筆畫類型擴展到六種。取碼時,每兩筆按順序取壹筆組成壹支筆對,* * *可以組成36支不同的筆對,在鍵盤上相應的鍵位區選擇鍵位輸入。此外,雙筆畫規範還規定,病字旁的代碼,“口”、“手側”、“日”應作為壹個整體。根據漢字不同結構的組合形狀,漢字分為三種基本字體,即左右型、上下型和綜合型。無論是哪種漢字,都是按照四碼來編碼的。雙碼短語的輸入方法是:用兩個字輸入每個字的前兩個碼;三個字輸入前兩個字的首碼和末碼,四個字及以上輸入第壹、二、三、末字的首碼。
二筆碼的優點是:與傳統的部件輸入法相比,內存減少很多;使用筆對和36鍵編碼後的平均碼長也相當短;如果不按筆對,而是按單筆畫,就可以非常輕松地把雙筆代碼移植到數字鍵盤上。但雙筆畫碼的缺點也非常明顯:作為壹種筆畫輸入法,其取碼和編碼規則復雜,例外較多,學習起來還是很吃力的;上排數字鍵用於編碼,不方便敲擊,與常用數字輸入沖突,影響實際輸入速度。
陳勁松先生發明的二筆輸入法是目前廣泛使用的輸入法之壹。是基於聲母和筆畫的輸入法,也可以簡單的基於筆畫輸入。二筆輸入法的30個編碼字符分布在通用鍵盤上的6個區域,即5個雙筆區和1個單筆區。根據雙筆畫或單筆畫的第二筆畫,按照橫、豎、左、點、折的順序定位區域。但是設置部首的10鍵需要記憶。二筆輸入法根據字體結構將漢字分為單字和組合字。輸入漢字時,第壹碼取漢語拼音的第壹個字母,筆畫取第二碼,最多四碼。如果少於四碼,就應該全部拿下。如果不能雙劃,就應該單劃。專著不需要拆分;第壹碼取拼音首字母,第二碼按筆畫順序取筆畫碼,最多四碼。組合的漢字被分成兩半。按照漢字筆順的規則,第壹部分是前半部分,第二部分是後半部分。第壹碼取拼音首字母,第二碼前半段取第壹、二筆,第三碼後半段取第壹、二筆,第四碼後半段取第三、四筆。二筆輸入法詞組的編碼規則是:兩個字取每個字的前兩個碼,三個字取第壹個字的前兩個碼和後兩個字的前兩個碼,四個及以上字取前三個碼和後兩個碼。
二筆輸入法的優點是:編碼規則比二筆碼簡單,只用30個編碼字符;采用聲母和筆畫兩種漢字特征信息編碼,增強了對同碼詞的識別能力,提高了輸入效率。對於不認識的單詞,也可以全形輸入;如果不按筆對而是按單筆畫,也可以非常輕松地移植到數字鍵盤上。但是,二筆輸入法仍然存在壹些問題:由於使用筆對和偏旁部首,需要區分單字和組合字進行不同的編碼,學習和使用仍然很困難。
數字鍵盤編碼輸入法
到目前為止,我國手機保有量已超過3億部,手機短信產值超過50億元。手機用戶數量已經超過PC用戶,使用手機輸入漢字的人數遠遠超過使用通用鍵盤輸入漢字的人數。
目前,美國特傑公司的T9拼音和T9筆畫輸入法、加拿大紫源公司的詞能筆畫輸入法、摩托羅拉公司的iTap輸入法壟斷了中國大陸及港臺地區的手機輸入法市場。然而國外的手機數字鍵盤輸入法卻差強人意。以筆畫輸入為例,iTap用9筆,字符可以用8筆,T9用5筆。同樣的筆畫,不同的手機可以放在不同的位置,輸入速度不理想。
為了打破國外手機輸入法壟斷中國手機市場,手機輸入法不規範的尷尬局面。由中國中文信息學會主辦,金碼出版社(香港)有限公司承辦的首屆中國手機中文輸入大賽暨漢字數碼輸入技術應用高峰論壇於2004年6月5438+065438+10月21日在人民大會堂舉行,為期三天。32支隊伍中,23支隊伍參加了模擬手機漢字數字碼輸入比賽,9支隊伍參加了手機漢字輸入比賽。除了已經參賽的數字編碼方案外,還有王永民先生的五個數字筆畫[49]和鄭先生的左右數字筆畫[50]更受關註。下面只介紹應用最廣泛的T9拼音和T9筆畫,以及在首屆手機中文輸入大賽中獲得冠軍的金碼和流行數碼。
本質上,T9拼音是壹種早期的全拼全聯想的通用鍵盤輸入技術。其最重要的創新在於,可以根據手機鍵盤上的按鍵組合來判斷是否可以組合成合法的普通話音節,從而避免了傳統的多次按鍵輸入壹個拼音字母的弊端。但是,當組合鍵適用於多個合法的普通話音節,並且默認的普通話音節不是用戶所需要的時,用戶仍然必須手動選擇它。此外,冗長的拼寫、需要按1鍵才能進入選擇狀態以及聯想導致的過多人機交互都使得T9拼音的輸入效率非常低,對於普通話不太好的人來說非常困難。
T9筆畫分為橫、豎、撇、點、折五類,分別用1、2、3、4、5表示。記錄漢字時,按筆順輸入,壹個壹個提示,每屏幾個,高頻優先。最長輸入可達12筆,支持聯想。因為用五個鍵分別代表五個筆畫,所以不需要像T9拼音壹樣對組合進行智能判斷,內部處理邏輯非常簡單。T9筆畫充分利用了不等長碼豐富的筆畫信息和較短的碼位,可以直接選擇重復碼字,因此其實際輸入效率高於T9拼音。
流行的數字碼[51]用10個數字編碼單詞。除了用1,2,3,4,5分別表示五種筆畫外,還用6,7,8,9,0來表示交,插,八,小,口五類部件。單字按筆畫順序取第壹、二、三、四、後五碼,不足時取實際碼長,詞組碼長為6位。流行的數字碼使用了相當多的筆畫組合作為部件,但由於分類清晰,比很多同類輸入法更容易記憶,而且細致的編碼規則降低了重復率,使其在競爭中脫穎而出。但需要註意的是,它使用的組件很多,編碼規則也不簡單,學習難度還是挺大的。
金色代碼用九個數字對單詞進行編碼。除了用1、2、3、4、5分別表示五筆外,還用6、7、8、9表示口、十、八、唰四類部件。編碼時區分了前綴和後綴,也區分了單個字符和組合字符的區別。當提示行不為空時,0,*和#用作選擇鍵。金碼最大的特點是當用於編碼的數字與輸入碼不能形成另壹個字碼時,可以用數字鍵選擇同碼的字,大大增加了輸入法的選鍵能力,縮短了動態平均碼長;結合高頻率預見的不等長碼使用,輸入時基本不用翻頁,進壹步提高了輸入效率。但沒有區分前綴和後綴的標準,往往因人而異;動態使用剩余編碼鍵選擇重碼單詞,也造成選擇鍵位置變化過大,增加了人機交互的負擔。
以上是我從事計算機工作以來,接觸到的壹些比較熟悉的輸入法。我想知道他們是否能幫助妳。