《經(jīng)濟(jì)學(xué)人》近日刊登文章,稱計(jì)算機(jī)在翻譯、語音識(shí)別和語音合成上都獲得了很大的進(jìn)步,但它們?nèi)匀徊涣私庹Z言的含義。以下是原文內(nèi)容:
“對不起,戴夫,恐怕我不能這樣做。”電影《2001:太空遨游》里,電腦“哈爾9000”冷冰冰地說。它拒絕給冒險(xiǎn)出艙的宇航員戴夫•鮑曼開門,這個(gè)情節(jié)反應(yīng)了人們對智能計(jì)算機(jī)的擔(dān)憂。
1968年該片上映時(shí),可以與人類交流自如的計(jì)算機(jī)似乎就像人類登上木星那樣遙不可及。在那之后,我們已經(jīng)取得了巨大進(jìn)步,制造出了可以和人交談的機(jī)器,這些機(jī)器可以做出接近于自然語言的回應(yīng)。即便如此,溝通也仍然存在困難。如果《2001:太空遨游》使用的是當(dāng)前的語言技術(shù),那么對話就會(huì)是這樣:“打開艙門,哈爾。”“我很抱歉,戴夫。我聽不懂你說的話。”“打開艙門,哈爾。”“戴夫,我在eBay上搜索了‘艙門’,結(jié)果如下……”
可以處理突發(fā)事件、具有創(chuàng)意,能真正進(jìn)行交談的計(jì)算機(jī)仍然距離我們很遙遠(yuǎn)。當(dāng)被問及哈爾、終結(jié)者這種機(jī)器人會(huì)帶來怎樣的影響時(shí),人工智能(AI)研究者只會(huì)付之一笑。雖然除了少數(shù)套話式的任務(wù)之外,當(dāng)前的語言技術(shù)還遠(yuǎn)遠(yuǎn)不能取代人類,但最終它們也會(huì)變得比較好用,為人類提供一些幫助,這樣我們可以把更多的時(shí)間放在自己覺得有趣的事情上了。在之前60年里,大多數(shù)這類項(xiàng)目的成果都很令人失望,但在過去幾年里,我們?nèi)〉玫倪M(jìn)展開始比較接近早期開拓者的期望了。
語音識(shí)別取得了顯著進(jìn)步。機(jī)器翻譯也從“效果滑稽”變得“很有希望”,可能不久之后,機(jī)器翻譯的結(jié)果只需要人類進(jìn)行少量的編輯就可以達(dá)到不錯(cuò)的水平。電腦個(gè)人助理,比如蘋果Siri、亞馬遜Alexa、谷歌(微博)Now和微軟小娜,它們可以理解各種各樣的問題,并且以一種自然的方式提供準(zhǔn)確而有用的回答。 Alexa甚至可以回復(fù)“給我講個(gè)笑話”這樣的問題,但它必須要調(diào)用一個(gè)笑話數(shù)據(jù)庫才行。計(jì)算機(jī)是沒有幽默感的。
蘋果在2011年推出Siri的時(shí)候,這個(gè)語音助理的效果令人失望,所以很多人都沒有使用它。咨詢公司Creative Strategies表示,即使有95%的智能手機(jī)用戶嘗試過使用個(gè)人助理,但只有約三分之一的智能手機(jī)用戶會(huì)定期使用它。很多用戶可能不知道Siri已經(jīng)獲得了多大的改善。
1966年,約翰•皮爾斯(John Pierce)在美國的貝爾實(shí)驗(yàn)室工作,他引領(lǐng)團(tuán)隊(duì)研發(fā)了第一個(gè)晶體和第一顆通信衛(wèi)星之后,獲得了極高的聲譽(yù),因此被分派了一個(gè)任務(wù):審查美國科學(xué)院的自動(dòng)語言處理技術(shù)。在那之前的一段時(shí)間里,學(xué)者們信誓旦旦地說,要不了幾年就可以實(shí)現(xiàn)自動(dòng)語言翻譯。
但皮爾斯的報(bào)告給他們潑了一盆涼水。該報(bào)告回顧了過去十年里機(jī)器翻譯和自動(dòng)語音識(shí)別的進(jìn)展,然后總結(jié)說,語言技術(shù)研究的成果被夸大了,專家的信誓旦旦并不可靠。皮爾斯在1969年寫道,資助者和研究人員經(jīng)常自欺欺人,“并沒有獲得簡單、清楚、確實(shí)的成果”。在那之后,美國政府在這個(gè)領(lǐng)域投入的資金大大縮水,語言技術(shù)研究進(jìn)入了二十年的冬眠期。
賓夕法尼亞大學(xué)語言學(xué)教授、語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,擁有海量人類語言文本和錄音)負(fù)責(zé)人馬克•利博曼(Mark Liberman)說,從冬眠中蘇醒是正常的。利博曼對語言技術(shù)的歷史非常了解。以前,研究人員對自己的研究方法守口如瓶,并且會(huì)用一些難以評估的方式來描述研究成果。但從20世紀(jì)80年代開始,美國國防高級(jí)研究計(jì)劃局的查爾斯•韋恩(Charles Wayne)鼓勵(lì)他們嘗試“共同作業(yè)”。
逐步發(fā)展
研究人員會(huì)對一套做法達(dá)成了共識(shí),無論是讓計(jì)算機(jī)進(jìn)行語音識(shí)別,辨別說話者的身份,對文本進(jìn)行情緒分析,還是開展語法分解、語言識(shí)別、手寫識(shí)別或是其他各種任務(wù)。他們需要列出一些需要改進(jìn)的指標(biāo),并且要共享用來訓(xùn)練軟件的數(shù)據(jù)集,讓外部人員來測試他們得出的結(jié)果。這樣一來,整個(gè)過程就變得更加透明了。資金再次涌來,語言技術(shù)開始逐步獲得改善,雖然進(jìn)展比較緩慢。
語言技術(shù)的很多早期方法(特別是翻譯)陷入了一個(gè)概念性的死胡同——基于規(guī)則的方法。在翻譯中,這意味著嘗試編寫規(guī)則來分析源語言的句子文本,將其分解成一種抽象的“語言”,并根據(jù)目標(biāo)語言的規(guī)則來重建它。這些方法最初看起來很有前景。但是語言中模糊和不規(guī)則的東西太多,所以這種翻譯系統(tǒng)就變得非常復(fù)雜,而且效果也不如人意。但是在應(yīng)用了統(tǒng)計(jì)方法(通常被稱為“蠻力”方法)之后,幾乎所有的語言技術(shù)都獲得了很大的提升。
這種方法需要軟件搜索大量的數(shù)據(jù)、尋找模式,并從先例中學(xué)習(xí)。例如,在解析語言(將其分解為語法組件)的時(shí)候,軟件需要學(xué)習(xí)人類已經(jīng)解析完成的大量文本,然后利用學(xué)到的東西,對以前沒有見過的文本如何解析做出最佳猜測。在機(jī)器翻譯中,軟件學(xué)習(xí)人類已經(jīng)翻譯過的數(shù)以百萬的例句,然后尋找模式。在語音識(shí)別中,軟件從人類的語音錄音和相應(yīng)的文字轉(zhuǎn)錄結(jié)果中進(jìn)行學(xué)習(xí)。由于處理器的性能不斷提高,存儲(chǔ)數(shù)據(jù)的成本下降,以及可用的數(shù)據(jù)出現(xiàn)了爆炸性增長,這種方法最終產(chǎn)生了效果。
數(shù)幾十前就已經(jīng)問世的數(shù)學(xué)技術(shù)開始大顯身手,掌握了大量數(shù)據(jù)的大公司必然可以從中受益。BabelFish這樣的在線工具給出的翻譯結(jié)果常?;尚?,令人失望,但谷歌翻譯的讓人覺得很有信心,蘋果也說服了數(shù)以百萬計(jì)的iPhone用戶在手機(jī)上和Siri對話。最大的進(jìn)步是從大約五年前,由數(shù)字神經(jīng)網(wǎng)絡(luò)(DNN)加持的深度學(xué)習(xí)出現(xiàn)的時(shí)候開始的。
DNN經(jīng)常被說成具有和人類大腦類似的特質(zhì),是在軟件中相互連接的“神經(jīng)元”,在學(xué)習(xí)過程,不同的連接可以變得更強(qiáng)或者更弱。但是語言技術(shù)公司Nuance的研究主管尼爾斯•蘭科(Nils Lenke)認(rèn)為,“DNN實(shí)際上不過是一種數(shù)學(xué)模型”,業(yè)界在幾十年前就已經(jīng)理解它的基本原理了。真正改變的因素是硬件。幾乎是在一種偶然的情況下,DNN研究人員發(fā)現(xiàn),用圖形處理單元(GPU,視頻游戲中流暢地渲染圖形靠的就是它)來處理神經(jīng)網(wǎng)絡(luò)效果極佳。
在計(jì)算機(jī)圖像中,基本的小形狀根據(jù)相當(dāng)簡單的規(guī)則移動(dòng),但是形狀和規(guī)則的數(shù)量都很多,需要進(jìn)行大量的簡單計(jì)算。DNN搜索數(shù)據(jù)進(jìn)行學(xué)習(xí)的時(shí)候,GPU就被用來微調(diào)分配給DNN中“神經(jīng)元”的權(quán)重。這種技術(shù)已經(jīng)為各種深度學(xué)習(xí)的質(zhì)量帶來了巨大飛躍,包括手寫識(shí)別、面部識(shí)別和圖像分類。現(xiàn)在研究者用它們來改進(jìn)各種語言技術(shù),通常會(huì)出現(xiàn)高達(dá)30%的效果提升。在這種情況下,語言技術(shù)已經(jīng)從“能用”變得“比較好用”。但是到目前為止,沒有人知道它要怎樣才能從“還不錯(cuò)”變得“一直很出色”。
能說話的機(jī)器
電影《機(jī)器人總動(dòng)員》(WALL-E)描寫了在未來,所有的人類都生活在一架太空飛船里,那時(shí)候,由于環(huán)境惡化,地球已被遺棄。人類的種種需要都由機(jī)器來照顧,人類只需要躺在智能懸浮椅子享受就可以了,所以所有人都變得肥頭大耳。即使是船長也不是真的在指揮飛船,真正的飛行員是一個(gè)智能機(jī)器人,名叫Auto,它說話很尖刻。就像很多科幻小說的情節(jié)一樣,Auto最終也篡了權(quán)。
說話是人類的顯著特征之一,所以你很難想象機(jī)器可以像人類一樣真正交談,除非把它們設(shè)想為超級(jí)智能。但如果它們超級(jí)聰明,沒有人類的缺陷,那又很難想象它們不會(huì)接管一切權(quán)力了——這樣似乎不僅對它們好,而且對人類也好。即使是在一個(gè)相當(dāng)美好的未來中,比如《機(jī)器人總動(dòng)員》中的未來,所有的工作都交給機(jī)器來做,你也很容易看到,如果生活太缺乏挑戰(zhàn),這對人類也是沒什么好處的。
幸運(yùn)的是,可以說話的機(jī)器可以幫助人們完成很多枯燥的任務(wù)。機(jī)器變得越來越善于處理那些例行公事型的麻煩事情。很快,用戶就可以使用語調(diào)自然的語音命令來讓機(jī)器辦理事情了。曾經(jīng)一段時(shí)間,在一戶家庭中,只有一個(gè)人知道怎么用計(jì)算機(jī)或者錄像機(jī)。后來,圖形界面(圖標(biāo)和鼠標(biāo))和觸摸屏使這樣的技術(shù)讓科技產(chǎn)品的使用變得很簡單。風(fēng)險(xiǎn)投資公司Andreessen Horowitz的Frank Chen認(rèn)為,人與機(jī)器之間的自然語言接口,是向所有人提供信息和服務(wù)的一個(gè)新進(jìn)展。他說,硅谷正在進(jìn)入人工智能技術(shù)的黃金時(shí)代。20世紀(jì)90年代,早期技術(shù)公司建立網(wǎng)站的時(shí)候,它們并不知道為什么要這么做,只是覺得應(yīng)該這么做。同樣,現(xiàn)在每家公司都在努力發(fā)展自然語言技術(shù)。然而他也說,“從語音領(lǐng)域角度來看,我們好像是在1994年。”
而1995年即將到來。這并不意味著人們以后僅僅通過交談的方式與電腦溝通。網(wǎng)站并沒有讓電話變得過時(shí),移動(dòng)設(shè)備也沒有讓臺(tái)式電腦變得過時(shí)。所以,當(dāng)人們可以和機(jī)器進(jìn)行語音交互的時(shí)候,有時(shí)候還是會(huì)繼續(xù)使用文本交互方式。
不是所有人都會(huì)選擇語音交互。例如在日本,人們會(huì)避免在公眾場合進(jìn)行語音交談,因此Siri在上班時(shí)間使用率較低,但在晚上和周末比較高。語音技術(shù)的發(fā)展是件好事,用戶不用打字就可以寫作,老年人可能也會(huì)發(fā)現(xiàn)用語音輸入比在小鍵盤上打字更加容易一些。而不會(huì)打字的幼兒現(xiàn)在也可以和機(jī)器說話了。
打字困難的殘障人士也將從中受益。微軟的一款新設(shè)備可以幫助肌萎縮性側(cè)索硬化(ALS,病人身體幾乎不能動(dòng),但頭腦正常)患者用他們的眼睛在屏幕上選擇字母的方式“說話”。其中的關(guān)鍵是預(yù)測文本、學(xué)習(xí)用戶的習(xí)慣,并且改進(jìn)預(yù)測方式。有經(jīng)驗(yàn)的用戶每分鐘可以說大約15個(gè)單詞。
人們甚至?xí)で髾C(jī)器的陪伴。微軟在中國推出的聊天機(jī)器人小冰學(xué)會(huì)了如何回話可以讓交談持續(xù)得更久。沒有人會(huì)認(rèn)為小冰是人類,但它確實(shí)能讓用戶變得比較“暢所欲言”。
另一個(gè)可能從該技術(shù)中受益的是規(guī)模較小的語言社群。計(jì)算機(jī)網(wǎng)絡(luò)可能會(huì)出現(xiàn)一種“贏家通吃”的效應(yīng):如果有很多好的軟件都是英語或者中文的,那么較小的語言在網(wǎng)上就變得價(jià)值很小。因而這些語言的生存可能會(huì)受到威脅。但瀕危語言聯(lián)盟的羅斯•佩林(Ross Perlin)指出,有了新軟件,研究人員可以用更快的速度把小語種記錄下來。而足夠多的數(shù)據(jù)為小語種資源的開發(fā)帶來了可能性。硅谷巨頭已經(jīng)對自己的軟件進(jìn)行了幾十種語言的本地化;在神經(jīng)網(wǎng)絡(luò)的幫助下,制作的新版本的速度提高了。
自然語言技術(shù)的興起存在兩個(gè)重大問題:一是影響隱私,二是會(huì)顛覆很多工種。
越來越多的設(shè)備總是處在“聆聽”狀態(tài)。數(shù)字助理(比如Alexa、小娜、Siri和谷歌助理)會(huì)被默認(rèn)設(shè)置為等待提示狀態(tài),你說“Hey,Siri”或“OK,谷歌”,就可以激活它們。但是,衣服口袋里有這樣一個(gè)永遠(yuǎn)在線的麥克風(fēng),不免會(huì)讓注重隱私的人感到困擾。而用具體某個(gè)用戶的語音、詞匯、書面文檔和習(xí)慣來訓(xùn)練語言軟件,改進(jìn)它的效果,也存在著類似的問題。
每家大公司的位置服務(wù)——就連手機(jī)中檢測微小位置變化的加速度計(jì)——都在不斷改進(jìn)它們猜測“用戶的需求是什么”的準(zhǔn)確性。如果一個(gè)數(shù)字助理的行為讓人感到驚訝(“藥劑師就在附近——你想買更多的痔瘡膏嗎,史蒂夫?”)可能很多人都想要重新思考一下,是新服務(wù)的方便性更可取呢,還是保護(hù)隱私更重要??萍脊究梢栽谶@方面發(fā)揮一些作用,為用戶提供更多的選擇;最新的iPhone面朝下放在桌子上的時(shí)候,語音助理就不會(huì)被激活。但是黑客肯定也會(huì)找到一些方法來突破這類關(guān)卡。
另一個(gè)大問題是工作崗位。只要一個(gè)工作是例行性的,它就會(huì)有可能被自動(dòng)化。一個(gè)很好的例子是客戶支持服務(wù)。當(dāng)人們聯(lián)系公司,尋求幫助的時(shí)候,最初的對話常常都是一些例行問答。員工需要驗(yàn)證客戶的身份,然后按照既定程序處理問題。而語言技術(shù)現(xiàn)在已經(jīng)足夠成熟,可以承擔(dān)大量這樣的任務(wù)。
在一段很長的過渡時(shí)期中,仍然是需要人類參與這些工作的,但他們所做的事情不再是例行公事。 Nuance是一家銷售自動(dòng)化網(wǎng)上/電話幫助系統(tǒng)的公司,它對語音生物識(shí)別技術(shù)(客戶說一句“我的聲音就是我的密碼”就能識(shí)別身份)非??春谩T摴镜母呒?jí)經(jīng)理布雷特•博蘭尼克(Brett Beranek)說,這種系統(tǒng)使用約200個(gè)參數(shù)來識(shí)別說話者身份,可能比指紋識(shí)別系統(tǒng)更安全。它也不像客戶和支持人員使用PIN、密碼和安全問題進(jìn)行多步驟識(shí)別那么乏味。英國銀行巴克萊向??屯瞥隽诉@種客戶支持服務(wù)后,五個(gè)月內(nèi)的注冊率達(dá)到了84%。
Datalingvo公司道德尼基塔•伊萬諾夫(Nikita Ivanov)說,智能手機(jī)上的數(shù)字助理犯一些錯(cuò)誤無傷大雅,但商業(yè)應(yīng)用對錯(cuò)誤的容忍度接近于零。Datalingvo是一家硅谷初創(chuàng)公司,可以回答和企業(yè)業(yè)務(wù)數(shù)據(jù)有關(guān)的、使用自然語言提出的問題。如果用戶想要知道在加利福尼亞州上個(gè)月的哪些在線廣告銷售量最大,該軟件則會(huì)自動(dòng)將轉(zhuǎn)換為數(shù)據(jù)庫查詢。但在幕后,Datalingvo的工作人員會(huì)進(jìn)行人工審查,以確保這個(gè)查詢是正確的。因?yàn)檫@種技術(shù)在早期確實(shí)會(huì)犯下錯(cuò)誤,得出一些不準(zhǔn)確的數(shù)據(jù),而用戶可能會(huì)因此做出錯(cuò)誤的決策,所以需要人工進(jìn)行審查。
這個(gè)過程也可以反向工作:不是用自然語言輸入來產(chǎn)生數(shù)據(jù),而是用數(shù)據(jù)來產(chǎn)生語言。 Arria是一家總部位于倫敦的公司,它制造的軟件可以將電子表格中的數(shù)據(jù)自動(dòng)轉(zhuǎn)換為書面描述,并且提供趨勢報(bào)告。該公司首席戰(zhàn)略官馬特?格勞德(Matt Gould)認(rèn)為,首席財(cái)務(wù)官員可以用它來給董事會(huì)撰寫常規(guī)性的分析報(bào)告,把時(shí)間節(jié)約下來做更具創(chuàng)意的事情。
牛津大學(xué)經(jīng)濟(jì)學(xué)家卡爾•貝尼迪克特•弗雷(Carl Benedikt Frey)研究了人工智能可能對勞動(dòng)力市場的影響,他得出結(jié)論說,受沖擊最小的工作是那些在復(fù)雜的社交互動(dòng)中對創(chuàng)造力和技能要求更高的工作。但不是每個(gè)人都有這些特質(zhì)。呼叫中心需要的人數(shù)會(huì)減少,因?yàn)楦嗟娜粘9ぷ鲗⒂勺詣?dòng)化系統(tǒng)來完成,不過那些棘手的查詢工作仍然會(huì)由人類來處理。
以前也出現(xiàn)過類似的事情。谷歌搜索最初誕生的時(shí)候,幾秒鐘就會(huì)返回搜索結(jié)果。如果人工進(jìn)行搜索,可能需要幾個(gè)小時(shí)、幾天或幾年的時(shí)間。谷歌搜索幫了研究員、圖書館員或記者的大忙。這樣的創(chuàng)新并沒有摧毀這些工作崗位,只是改變了它們。
機(jī)器可以幫人們做一些苦差事,讓大家有時(shí)間和精力去做更有趣的事情,不僅如此,它們甚至可以創(chuàng)造一些額外的工作機(jī)會(huì)。但是,對于不能適應(yīng)這種變化的人來說,這也是非常痛苦的過渡。社會(huì)變革(婦女解放,勞動(dòng)力市場的全球化等)帶來了動(dòng)蕩,一些人因此陷入了困境。當(dāng)催生這些變化時(shí)的是機(jī)器時(shí),而且當(dāng)這些機(jī)器看起來越來越像人類的時(shí)候,事情也會(huì)變得越發(fā)艱難。人們對待沒有生命的東西已經(jīng)很擬人化了:你肯定看到過一些人對著電腦大喊大叫。機(jī)器說得越多,它們就越是給人一種善解人意的感覺,用戶就越容易將把它們當(dāng)作人來看待。
這提出了一個(gè)深層次問題:語言被廣泛視為人類最獨(dú)特的特征之一,人工智能研究人員堅(jiān)持說智能機(jī)器的思維方式和人不一樣,但如果它們能像人一樣傾聽和談話,那么它們算是什么呢?當(dāng)人類教會(huì)機(jī)器使用語言的時(shí)候,人和機(jī)器之間曾經(jīng)明顯的界限就會(huì)變得模糊。
更多信息請關(guān)注微信公眾號(hào): “OK智能制造” 請掃描下方二維碼并加關(guān)注!