Total Pageviews

Sunday, 4 August 2024

漢字王國:從打字機鍵盤、拼音系統到電腦輸入法的問世,讓漢字走向現代的百年語言革命

 

進入電腦時代(一九七九年)
轉換輸入與輸出

即使看不到七月的陽光,支秉彞(Zhi Bingyi)也能感覺後背和被汗濕透的薄草蓆之間的悶熱感覺。只有一公分厚的草蓆是房裡唯一的家具。在這間臨時搭建的「牛棚」裡,時間無疑過得極為緩慢。那是一九六八年,文化大革命已經爆發兩年了。上海正逢反常的熱浪,人們咒罵著這隻「秋老虎」。除了炎熱,支秉彞還得擔心更多的事情。他被貼上「反動學術權威」的標籤。在文化大革命期間,數百萬人被羅織各種罪名而枉死或被送去勞改,上述的標籤便是其中一種罪名。支秉彞還認為自己是人民中的一員嗎?難道他沒有像別人告訴他的那樣背叛了群眾嗎?

就在四年之前,支秉彞還擔任政府第一機械工業部新成立的上海電工儀器研究室主任,這是當年最有保障的職位之一,而他每天都按時到班。新中國成立初期,第一機械工業部負責製造重型工業機器,爾後分出四機部,主管電子通訊技術。支秉彞的專業是度量電:提高一台設備各個零件的性能來專注於精密儀表和電子建模。

支秉彞安靜謹慎,堅忍不拔,資質也頗高。他獲得了德國萊比錫大學的物理學博士學位,但為了返回中國而拒絕了美國的工作機會。支秉彞曾在中國的兩所大學任教,後來協助制定中國具有里程碑意義的十二年科學技術發展規畫。這項計畫將電子、電腦科技、自動化和遙控作為發展目標科學家和技術人員被認為能替國家指導的社會主義經濟做出貢獻。對他們而言,這是充滿希望的時期。

支秉彞在一九六八年七月被捕,此後便不得從事研究、閱讀新聞與聯繫摯愛的德國妻子。他以前習慣與同事一起研究方程式和工程問題,但此情此景不再,唯一陪伴他的,乃是牢房牆壁的八個大字,提醒身為囚犯的他在面對看守者時唯有兩種選擇:「坦白從寬,抗拒從嚴。」

問題不在於是否坦白,而是坦白什麼和坦白多少。許多囚犯學會了承擔錯誤,深入探索自身靈魂,仔細檢查每一項記憶,以便找出可能的不當行為,譬如:拉高嗓子對學生吼叫,研究時無意間傳播褻瀆的西方意識形態,以及不尊重上級。毛澤東一九五一年的早期思想改革鼓勵這種意識形態的自我改造,並且在文化大革命期間大規模推廣。寫著階級口號和譴責話語的大字報占滿了公共場所。大學演講廳、圖書館與實驗室被工作坊、工廠和農場取代,遵循教學、研究、生產結合的政治宗旨。隨著課堂教學停止,某些校園便成為公開認罪的場所。學生批鬥老師,朋友鬥爭朋友,孩子批判父母。老師被迫跪在學生(如今是毛澤東的年輕紅衛兵)面前,承認他們的資產階級思想罪行。被告者遭到群眾審問,群眾會對有罪者拳打腳踢。他們只要無法正確背誦毛主席語錄,便會被大聲呵斥、吐口水和掌摑。這些人的脖子上掛著厚重木牌,掛著牌子的細鐵絲已經嵌進他們的肉裡。就連老人或病患也未能倖免於這些惡名昭彰的「批鬥大會」。

對知識分子階級的清算才剛開始,任何受過教育的人都必須屈服於階級鬥爭的信條以及「四人幫」(共產黨的激進集團)的意志。許多人被送到農村接受艱苦的勞改。他們撿拾糞便,頂著炎熱天氣和雨水翻犁休耕地,但幾乎沒有口糧可吃。他們得在身兼再教育中心的營地裡遵守最嚴格的軍事紀律。毛澤東的反知識分子運動極為成功,此舉激勵了柬埔寨共產黨總書記波爾布特(Pol Pot)。他在一九七五年至一九七九年之間在柬埔寨發動了一場類似的運動,殺死了所有戴眼鏡的人,因為眼鏡是資產階級知識分子的罪證。

支秉彞在牛棚裡盯著牆上的八個大字。有一天,他看到的不再是不祥訊息,而是構成這些訊息的筆畫和漢字。他開始注意每個漢字末端的墨水在哪裡變粗、出現大片污漬或逐漸消失。每一筆都在他眼中重新出現,每一筆都是充滿新謎語的謎團。支秉彞發現,儘管字由人手所寫,但每個漢字本質上都是重複組合相同抽象的筆畫和點。

「俾斯麥.杜」可能會根據這項發現,依照筆畫的方向、長度和外觀相似度對筆畫進行分組。然而,支秉彞的下一個想法卻激發出不同的點子。如何將這些人造筆觸轉譯成可以輸入電腦的編碼語言(coded language)?當然,這並非第一次有人想將漢字有系統地轉換為電碼。在一個多世紀以前,在另一座監獄,亦即北京皇城被尿液浸透的牢房裡,德.埃斯卡伊拉克伯爵也思考過同樣的問題。一九二五年,王景春在巴黎的大理石大廳裡將編碼語言視為國家主權問題而進行激烈的辯護,張德彝和威基傑則嘗試將其作為電報加密。然而,這些人都不曾想到要為機器(電腦)提出解決方案。他們的解決方案都是針對人類:如何組織漢字,讓人更容易書寫和學習,以及減少記憶或查詢漢字時的負擔和耗費的時間。支秉彞腦海裡卻想著不同的問題:如何用電腦可以讀取的語言(二進位碼的零和一)來呈現中文?支秉彞習慣為他的電氣設備建立電腦模型,所以會多次想起這個問題。

為了趕上一九七〇年代先進世界的技術水平,中國已經開始製造能夠處理大規模計算、篩選大量資訊並協調複雜操作的機器。首先必須收集用於計算和控制飛行路徑、軍事目標和地理定位或追蹤農業和工業產出的數據。然而,所有現存的紀錄、文件和報告都以中文撰寫。漢字若想融入計算時代,顯然必須以數位方式呈現。西方的計算科技也正朝著正文處理(text processing)和通訊的方向發展,而不僅是進行大規模的計算。將人類語言轉換為數位形式,乃是下一個尖端領域。蘇聯和美國在冷戰期間進行軍備競賽,雙雙提高了計算科技的水準。要讓中文融入電腦,確保中國不會被排除在外,這點至關重要。

電腦需要精確的輸入,不能容忍不一致和例外異常。所有阻礙早期創新者的漢字特質,譬如:字庫規模龐大,有複雜的筆畫、聲調、同音異義詞,以及難以分割,這些再再為漢字數位化帶來了新的挑戰。可執行指令只能為「是」或「否」的形式,亦即流經電腦控制板電路電流的開啟或關閉。中國無法依靠任何局部解方或補丁來渡過這個難關。在支秉彞被監禁期間,中國正陷入歷來最大的社會和政治動盪,幾乎無法替未來投入資源。然而,對於中國這個遠遠落後西方世界的國家而言,科學和技術不僅是障礙,它們也被認為至關重要,可以幫助國家擺脫落後的情況以及加速現代化進程。中國在探索計算時代方面投入了雙倍資金,它在前進的道路上有無數的障礙,而且可能在推動雄心勃勃的計畫之前,就慘遭漢字扼殺。

挑戰是多方面的:要設計一套易於人類記憶和使用的代碼,並且可以透過打孔帶或鍵盤輸入機器;要找到一種方法,讓機器能夠儲存識別和複製漢字所需的大量資訊;要能夠在紙上或螢幕上精確檢索和重建漢字。

支秉彞知道他可以解決第一步,也是關鍵的一步:如何以最好的方式將中文輸入機器。這就表示要找到一種方法讓操作員和機器都能理解的語言來表示每個漢字:作為一組有限的零和一,直接輸入機器,或以電腦程式語言已經建構的字母形式輸入。後者似乎更可行。然而,將漢字映射到字母會立即引發其他的問題:需要用多少個字母才能以唯一的方式編碼一個漢字?漢字的拼寫是否應該像首字母縮略字一樣縮寫?縮略字的基礎應該是什麼?漢字、部件或筆畫?

支秉彞需要一支筆和紙來檢驗每項假設,但看守者連衛生紙都不給他,更別說讓他寫字了。他環顧四周,看到了牢房裡唯一能用的物體:一個茶杯。支秉彞用這個樸素的祭祀器皿,開始了朝聖之旅。他每天用偷來的筆,盡可能在啞光陶瓷杯蓋上刻下漢字,然後用一組可能的羅馬字母去測試每個漢字,最後再將杯蓋擦乾淨。他一次將幾十個漢字擠到曲面上,依靠記憶來追蹤愈來愈多的漢字。

他打算讓每個漢字都與代表它的字母代碼有某種直觀但獨特的關係。有兩種已知的方法可以辦到這一點,亦即透過聲音或形狀。支秉彞的前輩,比如「俾斯麥.杜」、王雲五和林語堂,更喜歡基於形狀的分析,將筆畫和部件重新排列成可分類的類別,但拼音的採用使拼音法成為國家和國際語言的標準化政策。

雖然拼音解決了拼音標準化的問題,但並未解決舊問題。其一,它使同音異義詞的問題變得更糟,因為現在有很多漢字拼寫以後有同樣的字母形式。字母只有二十六個,不同漢字發音的拼寫方法就只有這麼多,所以比數千個單獨的不同漢字會更快消耗殆盡。支秉彞決定利用最好的語音羅馬化和基於形狀的線索,讓他的編碼過程盡量可預測與合乎邏輯。這種想法注定不會在監獄裡腐爛。

一九六九年九月,支秉彞被釋放。十四個月以後,他還是沒能證明自己有足夠的罪責。或許他的書面供詞平淡無奇。寬待他有好幾個原因,其一是支秉彞與菁英學術科學機構(中國科學院)沒有密切的聯繫。儘管科學院最初享有毛澤東的福澤,但到了一九六〇年代,學院的輝煌幾乎全部褪去。它是大規模迫害和恐怖活動的目標,僅在一九六八年就至少有二十名學者和科學家自行了結性命。學院成員人數銳減,只剩下原來的一小部分,人不是被清洗,就是慘遭監禁。倖存者被送到鄉下去餵豬和種稻。隨著受教育的菁英大量減少,中國的高水準科研普遍陷入停滯,但國防技術除外,這些技術大多是祕密開發的。

為了重歸社會,支秉彞釋放後被分配到低級崗位,負責掃地、在工廠研磨工具,以及在倉庫前站哨。他發現自己成為無名小卒是一件幸事,於是又回頭鑽研編碼方案。他把倉庫當成書房,存放他搜刮的外國期刊文章與報紙。他得知日本在解決這個問題上有所進展,因此甚感興奮。就像中文打字機所做的那樣,他們使用部首來定位和檢索漢字,並將其打在電腦螢幕上。然而,日語鍵盤有三千六百多個漢字,每個字占用一個鍵,根本不切實際。澳洲的一家公司也使用部首系統去檢索漢字。他們使用更普通的三十三個鍵的鍵盤,透過一個鍵去隨時擷取將近二百個漢字,這比日語鍵盤更為進步,但對於中文來說仍嫌不夠。然後,美國的實驗模型使用四十四個鍵,正如支秉彞後來所知,麻薩諸塞州的文字基金會(Graphic Arts Research Foundation)正在進行一項更雄心勃勃的計畫,打算將中文印刷電腦化。同時,臺灣學者也在發展繁體字輸入系統。

支秉彞深受鼓舞。他的獨立工作與前述的計畫齊頭並行。然而,多數方案仍然無法擺脫笨重的鍵盤。他們要輸入整個漢字或部首,因為他們沒有像拼音這種真正標準的羅馬化系統(拼音在海外尚未廣為人知)或其他將漢字分開並重新組合的更為一致方式。將漢字拆解為部件,對於特定的漢字檢索索引和打字機鍵盤設計確實有用,但並未直接轉換為處理計算機的程序。

支秉彞記得基於形狀方法的優點,其漢字偏旁有助於直接識別整個漢字。「俾斯麥.杜」先前展示過如何使用筆畫來組織圖書館的卡片目錄,而林語堂的方案則根據漢字的書寫方式,確立了不同的筆畫模式。支秉彞為了將那套有用的原則整合到他的編碼方案,決定根據漢字部件(表意文字中更簡單的字符)去檢索漢字,方法是使用每個部件拼音的第一個字母。

這個想法又花了兩年才得以落實。漢字通常可拆解為二到四個部件,總共有三百至四百個部件。杜定友在一九三〇年代曾指出,多數漢字可以拆分為垂直或水平兩半以及其他的幾何形狀。這便替每個漢字產生兩到四個字母的字母代碼,表示每個漢字在傳統的英文鍵盤上最多只需要按四次鍵。相較之下,英語單字的平均長度接近四點八個字母。因此,支秉彞讓字母在處理單一的表意文字時比處理英語更有效率。這套系統也巧妙解決了方言差異和同音異義詞的問題。由於代碼只採用第一個字母,而非漢字的完整讀音,因此多數的區域語音變化並不重要。四字母代碼的作用如同漢字不同部分的首字母縮略字。支秉彞基本上使用字母作為代理,透過部件而非單字去拼寫。

他按照手寫順序去排序每個漢字的部件。按部件進行編碼,提供了脈絡和重要線索,故可減少歧義和重複代碼的風險。兩個漢字具有相同部件(甚至以相同字母開頭的部件)且這些部件以完全相同的順序出現的可能性極低。

支秉彞透過字母化的部件去索引漢字,讓人更容易輸入中文(只要你知道如何書寫漢字),並且創建了更系統化的人機介面(human-machine interface)。例如,在他的系統中,有十三個筆畫的「路」字可以分解為四個部件:口、止、攵和口。分離每個部件的第一個字母,便可得到KZPK的字元碼(character code)。茲舉「吳」這個常見姓氏為例,它可以快速拆解為口和天,產生KT的字元碼。

字母拼字一旦由漢語以這種方式介導,便不再屬於語音系統,而是語義拼字系統,每個字母其實代表一個漢字,而非聲音。這種索引法也能擴展,用來表示漢字組。茲以「社会主义」(shehui zhuyi)為例。這個短語包含四個漢字,標記每個漢字的第一個字母,便可以將其編碼為四字母序列,亦即SHZY。我們也可考慮另一個常被引用的短語,亦即組成「中华人民共和国」(Zhonghua renmin gongheguo)的七個漢字,可以編碼成ZHRMGHG,非常簡單。

支秉彞的編碼系統也可能包括不全然是語音的屬性。附加字母可以將整個漢字的發音或其形狀模式添加到基於部件的基本四字母代碼中。「路」的讀音為「lu」,因可分為垂直的兩半,所以具有左右結構。這兩個特徵都可以用擴充代碼KZPKLZ來表示。對漢字資訊的編碼愈精確,代碼就愈有用。支秉彞系統的這些擴充對於機器翻譯以及從儲存資料中檢索資訊的中文應用程式極為重要。

一九七八年,支秉彞在中國的科學期刊《自然雜誌》上正式介紹他的「見字識碼」(On-Sight)編碼系統。他將這套系統描述為拓撲系統(topological system),而所謂拓撲,便是從部件的幾何形狀去推斷。使用二十六個字母的四字母代碼,組合搭配之後可產生四十五萬六千九百七十六個唯一代碼。支秉彞聲稱他的系統具有類似於摩斯電碼的效率,亦即快速、直覺且易懂。

毛澤東於一九七六年去世之後,人們熱中於追求科學和技術,因此這項壯舉便傳揚開來。一九七八年七月十九日,上海《文匯報》的主編在頭版欣喜宣布:「漢字進入了計算機」。

電腦終於可以「理解」方塊字了。中國歷經十多年的孤立,如今終於有機會與世界溝通,並以數位方式管理自己的資訊流。支秉彞的發明也大大鼓舞了士氣。毛澤東已死,「四人幫」則被指控犯下叛國罪和反革命罪。中國需要療癒傷口,人民則需要一個理由,相信共產黨仍然可以帶領他們前進。新領導人鄧小平很快便宣布「四個現代化」,其中三個領域是農業、工業和國防,第四個則是科學技術,而科學技術將決定前三者最終能否成功,並且成為共產黨的新意識形態的試金石。

操作員可以透過支秉彞的代碼將中文輸入計算機。然而,這只是數位化過程的三分之一。在支秉彞的時代,電腦終端機缺乏現今常見的互動式圖形螢幕,因此它們被編程為可接受使用者的命令來執行自動化任務。使用者在鍵盤上輸入字母或字元碼,然後終端機會將其轉換為對應的位址碼(address code)。位址碼會告訴電腦的字元產生器(character generator)應該輸出什麼點陣圖(bitmap,小方塊網格),它可以輸出電腦螢幕上的像素(pixel),也可以輸出成墨點(dots of ink,亦即點陣〔dot matrix〕)。

為中文開發輸入輸出系統仍有兩個障礙。輸入代碼的方案很快便會在中國和世界各地如雨後春筍般冒出來。當時最能讓MacBook與PC通訊的方式,莫過於普遍共享的內部程式碼。無論收件人身在何處、使用何種設備或口操何種語言,要確保他們可以閱讀文件檔案或文字訊息將是另一項艱鉅的任務,需要一個由敬業的電腦工程師組成的國際團隊持續努力到二十一世紀方能完成。

支秉彞提出創新方案之後,中文編碼的研究便呈現爆炸式增長,足以和先前漢字索引競賽的狂熱媲美,而研究中文編碼,旨在解決處理漢字的另一項挑戰。此時,昔日的漢字和索引改革者大多已經不在。多數人不是死亡,便是流亡在外。不少人自詡為民族主義者:王景春在加州波摩納去世;林語堂於一九六〇年代和一九七〇年代分別在臺灣和香港任教;文化大革命爆發之際,「俾斯麥.杜」正在病床上療養,當時全國大學教育皆已停辦,他心愛的圖書館也已關閉。支秉彞在文化大革命黑暗十年的知識荒原上重新點燃了火炬,為解決輸入漢字的問題指明了道路。下一個難題是要如何將漢字轉換為數位輸出(digital output)。

◎二○一六年古根漢獎得主
◎現任耶魯大學東亞語言文學與比較文學系教授
◎北美華語語系文學研究的重量級學者
◎文化史學家、現代中國文學專家

畢業於哈佛大學東亞語言與文學系、現任教於耶魯大學東亞語言文學與比較文學系的石靜遠教授,是北美漢語研究圈的重要學者之一。她除了是耶魯大學東亞研究中心委員會成員,也是耶魯北京中心顧問委員會及美國華人博物館董事會的成員。其教學方向主要為中國現當代文學和華語語系文學,研究興趣廣泛涵蓋離散與華語語系研究、區域研究、比較文學和中國科技史。石靜遠與史書美、王德威等三位教授均提倡成立「華語語系文學」,以期華語文化圈多元的創作風貌能從而獲得彰顯。石靜遠豐碩的學術成果廣獲學界讚賞,包含哈佛學會、德國洪堡基金會、美國梅隆基金會、哈佛大學拉德克利夫高等研究院,以及史丹佛大學行為科學高等研究中心、普林斯頓高等研究院及古根漢基金會等組織的殊榮及讚譽。著有《失敗、國家主義與文學:中國現代文化認同的建構》(Failure, Nationalism, and Literature: The Making of Modern Chinese Identity)、《中國離散境遇裡的聲音和書寫》(Sound and Script in Chinese Diaspora)等;曾主編《全球華文文學》(Global Chinese Literature: Critical Essays)。

書名《漢字王國:從打字機鍵盤、拼音系統到電腦輸入法的問世,讓漢字走向現代的百年語言革命》
作者:石靜遠(Jing Tsu)
出版社:麥田
出版時間:2024年7月

No comments:

Post a Comment