近十年來,漢字編碼的先行者們以極大的熱情分析總結了幾乎所有的漢字音形組合。但始終沒有得到大眾的普遍認可,編碼也從“叫好不讓座”變成了“沒人叫好”。語言對於專業入門人員來說可以是壹個沒有意義的符號,也可以用等價的數字來代替。但是,對於大眾來說,語言是生命,是情感,是音、形、意的綜合體,是壹個能聽、能說、能讀、能寫的整體。
漢字輸入法既是文字的加工過程,也是漢字文化的學習和傳播過程。解決輸入法只是開始,弘揚中國傳統文化的計算機應用才是目標。
漢字編碼的基礎準備
“編碼”的定義是信息按照壹定的規則被賦予指定的代碼,按照相反的規則可以恢復出原來的信息。編碼不是壹種語言,也不能取代它。從語言的角度看,漢字編碼的基礎準備還存在壹些不足:
第壹,零件無名。國標中的640個部件,有近壹半不習慣發音或稱謂,或者雖已有“稱謂”,但不為大眾所知,無法用簡潔的自然語言描述。
第二,只拆不接。中國人常用兩種方法來說明和解釋漢字,即“李木子張弓長”的拆分法和“革命革體”的聯想法。對於難以拆分和描述的“跨重”結構漢字,更多使用的是借詞的解釋方法。然而,大多數漢字編碼方法只使用了“字符拆分”的概念。
第三,形聲的劃分。語言的原則是“音碼合壹,字音壹致”,單純的符號表達不利於交流和記憶。
“編碼”是工業時代的產物,試圖用統壹的規則來轉換字符。專業人士掌握電報碼,甚至各種密碼都不難。對於大眾來說,熟練需要時間,應用需要條件。
零件在計算機中沒有位置
部件是漢字的基礎,漢字部件應該是學習漢字的必備。但是,漢字部件的實用性似乎並沒有引起社會的重視。
這些組件沒有安裝在微型計算機中。
元器件規格可以進入教學內容嗎?
零件的標題什麽時候解決?
1997 65438+2月,國家標準漢字部件公布。現在四年多過去了,但是在商用電腦中已經找不到這些組件的“字庫矩陣”標準和軟件產品。所以從網絡傳播到傳統出版,很難在組件層面討論文字,包括文字的信息化,文字的起源。
我們使用的部件規範包括各種常用和生僻符號,北洋政府公布的1918的音標,還有日語、俄語、希臘語字母。偏差是沒有中文成分的完整列表。
中文信息產品也是產品,所有產品都要測試。但是,目前為止制定的很多測試“輸入法”的標準,在某種意義上只是為了約束那些想隨意創新的“編碼”人。相反,為什麽壹直沒有壹個語言和電子信息領域都能認可的標準和步驟表?這壹計劃不僅要公開、快速地實施,還要兼顧多個專業的交叉,適應不斷創新的信息技術和社會需求。
信息化就是社會的信息化。我們做了很多規劃,設立了很多部門,但是在思維習慣上還是試圖用傳統的農業方式或者工業化的方式來解決信息化的問題。零部件信息化的落後就是壹個充分的例子。
零件的歸納分類,類別的減少和增加
在信息時代,要完成理想的漢字數字化,還必須認真考慮部件的“簡化”。
壹支軍隊有幾千個軍官,幾百個陣地,但只要有10以上的軍銜,就可以調用任何軍官,指揮陌生人作戰。對於漢字部件,是否也應該創造壹種更合理的適合信息時代的部件分類和命名?
如果說,因為元素周期表和元素的名稱、符號代碼,可以促進化學反應的表達,使化學走出方士和煉金術士的歧途。那麽,在“數字地球”的時代,如此多的漢字仍然缺乏通俗的讀音和標準的編碼,難道不能認為是“數字化”的壹種斷層嗎?
對於具有26個字母的筆形輸入,必須對560個部件進行匯總、合並和排序。當然,這裏的歸納合並並不是壓縮或修改部件本身的筆畫,而是賦予相似的部件相同的標題和文字,從而完成“減數增類”。
《漢字部件規範》中的“筆形”壹詞曾指出,楷書漢字的筆形按筆勢和走向可分為幾十種,基本類型有:橫、豎五類。
筆者以為,就筆形而言,除了“橫豎點折”之外,至少還可以增加壹類,暫稱為“組合”。把“折筆加分”部分“呃?”諸如此類,這些部分還沒有標題,可以用“他”字及其賦值代碼“V”來描述。這樣,就可以方便地描述和輸入壹種漢字,如“讓主管走私人道路”。
“等”和“學”這兩個詞的第壹個成分不會單獨使用,總是跟在另壹半或壹個後面,從成分賦值的角度來看不方便。既然相當壹部分零件已經失去了意義,那麽在零件分類時,是否可以優先考慮“合並”以方便使用和記憶?
構件的“減量增類”操作既要考慮構件賦值的簡單性,又要適合人的思維習慣;還需要避免在整個單詞中使用賦值代碼。因此,恢復零件的標題不僅是作家的任務,也是信息產業義不容辭的責任。
從編碼到輔助語言
漢字輸入編碼實際上是中西文字的“分界線”。“分割線”源於古代地面州縣與天上某壹區域的對應關系(《辭海》第721頁),漢字與西文的對應自然有著文化內涵深厚的“分割線”。
但在實際操作中,編碼往往只突出了文字的轉換過程和數字化,不同程度地忽略了文化觀念和人的發揮能力。
漢字信息化不僅僅是傳統的“電子化”和“機械化”,還在設備和技術上做文章。漢字信息化還包括提升“毛筆”時期的書寫理論,不能按照現行的現代書寫應用規範完全替代符號,不能選擇2000年的書寫規範;也不能將1980的語言應用模式視為漢字信息化的符號賦值規範。特別是恢復非成字部件的稱謂,要選擇3000年前漢字產生初期該部件最活躍時期的信息作為漢字信息化的符號賦值依據。
借詞命名部件和組合單詞
通過《十裏碼》的發展,認為漢字信息化最重要的任務是漢字部件的“名和調”,即“址”。如果可以用簡潔的自然語言描述漢字書寫的全過程,漢字輸入的編碼甚至部件的“直觀排序”規則都將“迎刃而解”。(目前是筆畫和筆順的二次排序)
中文字符輸入的流行解決方案應該具有以下特征:
1,使用的漢字基本部件應有規範的標題、通俗讀音或助記符;
2.漢字編碼采用音碼同步賦值,按音標鍵碼;
3.“分詞”和“借詞解釋”或“助記音”的組合(因為計算機編程叫“助記符號”);
4.用1或2個字符給部件賦值,采用簡單明了的取碼規則;
為了實現基於語言的輸入方法,十裏碼為29種未知或非發音嘗試了9種發音(助記符)和分配碼,包括:
傅註音為“泉”(滴水泉),賦碼為Q;
旅(7號、8號)的助記音為“旗”,賦值碼為Q;
第三、四筆,助記音為“腿”,賦值碼為t;
Moo,助記音為“側門”,賦值碼為cm;
,Bi,助記音為“剪刀”,賦值碼為JD;
啊?助記音為“魚鉤”,賦值碼為yg。
當然,這種“助記音”還有其他的方案,發音不是主要的,而是為了讓“成分”好記。比如“國”也有“寶”的讀音,但要解決整體編碼賦值的平衡問題。這個問題也應該在以後的組件標題分配中考慮。如果“部件稱謂”賦值合理,可以直接用於輸入編碼和漢字教學。
5.將常用的連詞、代詞等詞定義為編碼中的單字高頻詞。
漢字是壹種韻律語言,單字、雙字節、多字節交替出現,單字連詞、代詞在文中約占7-10%。因此,在使用成分記憶法的基礎上,選擇單字連接詞作為編碼單字高頻詞是壹種創新。
按照26個英文字母的順序,高頻詞是:壹個人才,壹個工廠,如果說在嘴裏,和人壹樣重要。
應該先給部件調音,然後根據聲音給代碼。由這些部件組成的單詞可以用部件發音(俗稱開音)序列的集合來表示。比如旅的古字形,就是很多人集中在飛軍的旗幟下,其部件讀作“方、牛、齊、滿”,其賦字序列自然形成,即讀音的聲母命名為:fnqr。
通過單詞借用和單詞分組來解釋具有重疊結構的漢字部件,並且在實施例中使用了大約150個部件。零件和零件借詞的賦值特征如下:
革命(GM),革命(GM);
體(stt),體(ST);
雨(yll),雨露(yl)。
十力碼的分類和賦值方法
從語言學的角度來看,詞義和發音都有多樣性。人們習慣於用不同的方式描述同壹件事。例如,不同的人可以稱呼同壹個人的名字、職位、職稱、資歷、相對地位、教育程度,甚至身體特征,而不會產生誤解。難道不能也用人們的語言習慣來描述不同特點的漢字嗎?至少可以對漢字數字、天幹地支符號、無名部分、重疊部分進行分類,確定不同的賦值描述方法。完成的《十裏碼》將漢字分為數字、天幹地支、自然音、形體、
自定義的助記符,用詞組解釋的成分等。
其中,數字分量賦值的公式為:壹個A,兩個B,三個(開始)聯想;
三讀:三三四五五六五;十分完美;(八)BJ避京)
編號和分配代碼是:
壹個A,兩個B,三個SS,四個SW,五個WL,六個LQ,七個QB,八個BA,九個JS和十個SQ。
傳統數字都差不多,1字符重復壹次,比如壹個AAB,兩個BBS接SSQ。
馬世莉與傳統文化
60年前,中國新儒學的哲學創始人熊十力先生試圖復興和恢復富有創造性、生動活潑和富有活力的民族文化生活。為了紀念熊十力先生對中國文化的貢獻,這種漢語輔助語言被命名為《十裏碼》。
隨著信息技術的飛速發展,中國文化的現代化也應該提升到壹個新的高度。漢字輸入應從工業化的符號處理轉變為語言現代化的發展範疇,以適應整個民族和歷史的需要。在創新機制的驅動下,迫切需要把寫作、編碼、軟件等專業結合起來,不僅要解決輸入法,還要面向信息時代中文的未來。
我們應該處理好傳統與現代化的關系,以及外來文化與本土文化的關系。要使中華民族文化適應現代化的發展和社會的要求,使傳統和現代化達到辯證統壹。任何輝煌的文化,如果不能適應現實生活的需要,停止創新,就會因為創造力的枯竭而逐漸消亡。另壹方面,創新也必須適應人類進化的規律,工具只是人類能力的延伸,不應該成為替代品。
面對文明與文化、傳統與進步的問題,拋棄傳統文化遺產的“進步”能算是我們的驕傲嗎?中國悠久的文化是中華民族的強大凝聚力。我們有責任在數字革命中維護和發揚中國的傳統文化,將現代化與傳統有機結合,其中漢字的使用是最重要的壹部分。