電腦逼人類進步 制勝就靠「突發奇想」

發表日期 : 2017-12-29

來源: Cheers快樂工作人

30年的研究經歷,王冠三熬過了AI技術不被重視的停滯階段,也見證了近期的爆炸性發展。身為一位講究實證理性的科學家,他卻始終相信,每一次的瘋狂奇想,都可能帶來意想不到的收穫。
 

「你聽過什麼是“cocktail party effect”嗎?」接近中午,在稍嫌嘈雜的咖啡館角落坐定,原本在採訪中的角色應該是「答題」的王冠三,突然湊近桌面,貌似嚴肅地拋出這個問題。他的聲量不大,但一字一句還是足以讓人聽得清楚。

「雞尾酒會效應嗎?是什麼意思?」當下,記者有點措手不及。

「你看這裡環境音這麼複雜、附近有這麼多人同時在說話,你還是可以專注在你想聽的聲音上;但電腦就不像人類一樣能忽略其他雜音。我早期做語音辨識時,只要噪音一大就完了,電腦什麼都聽不出來。現在技術進步了,但還是沒辦法做到和人類一樣的程度,這就是“cocktail party effect”。」

「上完一課」後,王冠三往後身體一仰,放鬆地靠向椅背,神情一派心滿意足。

王冠三目前的身分是美國微軟研究院全球學術服務董事總經理,同時也是首席研究員。他最主要的業務,是運用微軟開發的搜尋引擎Bing和智慧型個人助理Cortana,協助研究機構更有效地蒐集學術知識。換句話說,王冠三的工作,就是持續訓練智能服務的「讀」、「寫」、「思考」能力,讓電腦能大量閱讀網路內容、自行整理歸納要點、判斷使用者需求,進而提供相應知識。

語言,在人類文明中扮演著極其關鍵的角色。因為任何「知識」或「智慧」,若沒有語言這項媒介,都無法被傳遞、累積。同樣的,科學家在開發「人工智慧」的過程中,如何教導只懂程式語言的電腦理解自然語言,進而學習人類智慧,也成了最重要的基礎工程。

王冠三,就是一位擁有超過30年教學經驗的「語言老師」;只不過他的「學生」是電腦程式,而非真人。一開始,王冠三教的是「基礎會話」;最近10年,他則專門傳授「進階讀寫」。

今天,「自然語言處理」已成為一般人在日常生活中最常接觸的人工智慧應用。除了智慧手機內建的語音助理之外,居家聲控系統、能表達情緒的機器人,也都是先讓電腦「聽懂人話」,接下來才能根據指令,做出適當反應。而王冠三的職場經歷,恰好見證了這項人工智慧科技,從早期發展、一度停滯不前,到近年產生爆炸性突破的過程。

王冠三與「語言教學」的第一次接觸,是就讀台灣大學電機工程學系時修習「語音處理」課程,當年的授課教授,是被譽為「語音辨識先驅」的中研院院士李琳山。在那個沒有雲端、硬體運算速度也極為有限的年代,電腦只能辨識最簡單的句型,而且還經常出錯;但自從上過那門課以後,王冠三日思夜想的,就是如何「教電腦聽話」,30多年來,從不曾在研究領域上「移情別戀」。

雪貂模擬人腦,教機器聽話

台大畢業之後,王冠三遠赴美國馬里蘭大學(University of Maryland)繼續攻讀電機工程,博士論文主題是「人類接收聲音信號的大腦皮質反應」,希望參考人腦處理聽覺的運作,替電腦建立一套程式模型,克服「雞尾酒會效應」這類問題。

為了獲得大腦反應數據,王冠三還尋求獸醫系學生協助,在每週麻醉雪貂做實驗時,替雪貂的腦部裝上追蹤器蒐集資料,想藉著分析動物實驗數據,模擬人腦運作。

1990年代初期,美國電信業者與銀行發現,大部分尋求客服專線的客戶,通常只是想打一通對方付費電話,或是查詢信用卡與帳戶金額。如果能開發出一套系統,讓電腦辨識簡單的句型以及基本數字,就可以大幅降低客服人員人事成本。這恰好是王冠三多年來的研究專長,因此,他在拿到博士學位後,立刻受到電信公司延攬。

當年,語音辨識最大的障礙就是雞尾酒會效應。當客戶用公用電話撥打客服專線時,系統可能因周遭靜音干擾,無法辨識。王冠三仿效人腦處理聲音信號的模型,確實有效提升了語音辨識的成功率。

但光是排除噪音的干擾還不夠,在幅員廣大的美國,不同地區的不同人種,各有獨特的口音和腔調。

這類發聲的細微變化,在聽慣英語的客服員耳裡當然不是問題,對機器來說,卻是足以產生錯亂的重大差異。「你和台灣的外省老兵說話,一開始會不適應,幾句話之後就沒問題了,但電腦永遠聽不懂對方在說什麼,」王冠三至今仍記得當年的挫折感。

反覆撞牆的困境,因為一通越洋對話,意外獲得了突破。某一天,王冠三用長途電話和台灣親戚聯繫,也許是接線端出了差錯,那整通電話裡,王冠三都聽見有人在另一條線上用英語交談;有幾次,那不知從何而來的「背景音」,甚至蓋過他們的中文對話。

人類手上的工具是前所未有的powerful,只要不斷out of box,就能永遠走在機器前面。

跳槽微軟,開發語音辨識

掛上電話後,王冠三突然靈光一閃:「因為我知道對方大概在講什麼,就算有幾個字被干擾、聽不清楚,我也很容易從前後文推敲出整句話的意思。如果我先寫幾個信號,告訴電腦對方可能說什麼,或許就能克服口音這個問題。」

領悟到教導電腦「語意」,比要它們精確辨識出「語音」更重要之後,不久,王冠三決定跳槽到微軟。因為當時微軟的主力軟體商品Windows 95開始提供語音控制及語音辨識輸入功能,讓不擅長鍵盤打字的使用者,可以對著麥克風說話,讓電腦像打字祕書一樣代為鍵入文字。

「這個服務,是透過大量語言文本,『猜』大家的話怎麼講,把常用的對話元素放進去,提高電腦的辨識度。」王冠三解釋:「先建立一些常見範本,譬如說商用信件、醫生診斷書、聲明稿,這些模型就像是電腦的『基礎知識』,有了知識後,辨識語音就比較容易。」

儘管發現了建構語意模型能有效提升電腦對人類語言的理解,但在21世紀初期,包括自然語言處理在內的人工智慧發展,卻仍受限於軟硬體,始終難有重大的突破。

「電腦的儲存空間和現在比起來很小,你想找兩個禮拜長度的錄音檔訓練電腦,就不知道要裝多少個硬碟;更何況,當年的網站也很少,很難在網路上找到足夠資料,」王冠三形容,當時的科學家像是找到了訓練電腦的訣竅,卻苦於找不到足夠的教材讓電腦反覆練習。

技術停滯,意味著沒有立即商業效益,自然難以獲得資源挹注。王冠三回憶,有一陣子,他曾經頻繁往來台灣與美國,為的就是說服以台灣企業為主的硬體商,為每台桌上電腦與筆電裝置麥克風,讓使用者習慣語音控制,進而使研究人員獲得更多的資料。

「但對方總是先拒絕,說裝麥克風會增加美金幾分錢成本;好不容易裝了,也是用最便宜的麥克風,錄音品質很爛的那種,」他苦笑著說。

「教材不足」的窘境,終於因為搜尋引擎日漸普及,而逐漸改善。王冠三解釋,網友每一次使用搜尋引擎,就像是透過鍵盤與電腦程式對話,比如有人搜尋「台北」,電腦會發現這是地名,但並不清楚網友搜尋的理由,只能猜測性提供最相關網站,例如台北市政府;但當搜索資料逐漸累積,電腦就能根據經驗判斷,搜尋台北最常見的目的可能是訂機票、找飯店,進而優先顯示相關結果。

當網路上的資訊愈來愈多,王冠三進一步將研究重心轉往「語意」發展。與此同一時間,人工智慧理解語言的能力也開始突飛猛進。

「在小學階段,學生可能經常需要老師指導;但到了大學或研究所,學生通常都能自己學習,教授只要適時提點一下就好,」王冠三這麼解釋。

機器是幫手也是進步助力

隨著在語意辨識技術上愈做愈有心得,人工智慧也開始成為電腦科學界的熱門課題,相關研究多不勝數,連頂尖科學家也很難掌握所有最新趨勢,這時,王冠三又有了個點子:「乾脆教電腦去讀最艱深的學術論文,看看能讀得怎麼樣?」這個靈光一閃,意外催生了全新的「微軟學術服務平台(Microsoft Academic Service)」。

這項服務的原理是設定範圍,讓電腦程式在網路上盡可能搜尋資料,並且摘要整理,等於是替研究人員做完「文獻檢閱」苦工。未來,這項系統甚至可透過比對不同論文,協助學術機構與期刊認證論文是否涉嫌抄襲。

但王冠三強調,這些令人驚豔的智慧應用,源頭仍是來自人類創意,「電腦不會自己想到去讀學術論文,是我們發現大量蒐集資料的需求,才運用科技建立了平台,」他說。

王冠三的妻子是位藝術家,從未學過程式語言,但這幾年她作畫時,也開始運用專業軟體模擬調色、放大局部細節,提升創作效率,這證明了:運用科技絕非少數人的專利。對於與電腦共同成長的年輕世代來說,只會更加得心應手。

「過去,我一直想辦法把電腦訓練得更聰明,更接近人的智慧;但未來,會是電腦逼著人類進步。」王冠三不諱言,當下人類與電腦的關係,和過去已經大不相同。人類以往看重的計算速度、記憶力,甚至工作耐力,在人工智慧年代,跟電腦比已不再是優勢。

即使如此,身為「老師」的王冠三,倒不會因「學生」的進步而恐懼。「人類手上的工具是前所未有的powerful(有力),只要不斷out of box(跳脫框架思考),就能永遠走在機器前面,」王冠三的自信,來自於他過去30年來的每一次「突發奇想」。

當然不是每個人都像王冠三一樣,能做個不斷優化電腦人工智慧的教練或導師;不過,至少可以試著當個「同學」或「隊友」,和愈來愈聰明的電腦攜手合作,打場漂亮的團體戰,這絕對不是難事!

您可能會喜歡