僅用36小時就構建了這個有用的在線翻譯工具


2019-11-22 08:50:08

在線翻譯


hillinda.space是一個由四個波士頓地區學生組成的團隊的心血結晶,并且是HackHarvard 2019的獲勝者,這確實是時代的標志。 

該應用程序背后的概念相對簡單:該應用程序使用Google Translate和較新的Google Cloud產品將表格從英語翻譯成另一種語言,并將用戶的響應翻譯回英語。 

使Phillinda.space成為有趣的案例研究的原因是,它由兩年前才問世的機器學習產品提供支持,這些產品易于使用,精明的學生能夠在黑客馬拉松的36小時期限內構建功能應用程序。

由哈佛大學主辦的HackHarvard有很多知名贊助商,包括Google Cloud。團隊成員Rishab Nayak告訴Slator,盡管從屬關系在團隊選擇使用Google Translate的過程中發揮了作用,但最終決定取決于Google Translate支持的語言數量。

“盡管在某些語言對中它不是最準確的,但它仍然比您所能找到的(其他翻譯引擎)使用的語言多得多,后者僅適用于特定對。” Nayak說。

該團隊使用Flutter開發了該應用程序,Flutter是Google于2018年12月正式發布的開源UI軟件開發框架。

離線機器翻譯

Phillinda.space與類似應用程序的不同之處在于,它在用戶的Android或iOS設備上而不是在云上執行翻譯。盡管Flutter并未正式支持此類離線工作,但另一款Google產品Natural Language確實支持,即使沒有Internet連接,也可以使用該應用程序。Nayak說,Flutter和自然語言的這種結合使Phillinda.space能夠提供設備上的翻譯。

但是,從PDF文件提取字段需要在云上完成。該應用程序的API當前托管在Google App Engine上。用戶提供原始PDF,Google App Engine上的API會將PDF的字段以其語言返回給用戶。此時,用戶以他們自己的語言填寫表單,并將他們的響應發送回API。然后,用戶可以使用PDF的原始語言下載表格及其回復。

在黑客馬拉松期間,多語種團隊能夠使用以下7種語言檢查其應用程序的質量:荷蘭語,英語,法語,德語,印地語,葡萄牙語和西班牙語。該應用程序現在可以在59種不同語言之間進行翻譯。團隊承認,Google Translate并不總是提供完美的翻譯,并且內容的質量取決于語言對。

納亞克說:“我不會說它是完全準確的,但是它的效果足夠好,以英語為母語的人可以理解它是翻譯,并加一點鹽就可以理解。”

該應用程序不僅僅提供文本翻譯。它還具有語音轉文字和文本轉語音功能,以適應殘障用戶。

Nayak解釋說,有視力障礙的人通常很難導航PDF,但是Phillinda.space可以將PDF轉換為帶注釋的完整字段列表,用戶可以滾動瀏覽這些字段。然后,畫外音功能可以用Google翻譯和用戶設備支持的任何語言大聲讀取字段。

對于畫外音功能,該團隊最初嘗試使用Google的Cloud Text-to-Speech API,但由于黑客馬拉松的時間限制,學生們選擇使用Flutter編寫代碼,以使用Android和iOS提供的語音集。

OCR困境

在Android或iOS上沒有相應聲音的語言帶來了挑戰。當前的修補程序使用英語語音來發音非英語單詞。但是該團隊認為這不會長期有效,因為英語語音的默認發音會干擾母語人士對翻譯的理解。Nayak說,團隊目前正在研究的更好的解決方案是生成聲音并將其流式傳輸到設備。

Phillinda.space旨在處理計算機生成的表單(特別是簽證申請,盡管現在可以使用任何計算機生成的表單),并且暫時無法從拍攝的表單中提取字段。Nayak將表單的文本和字段之間的關系描述為“一個非常復雜的OCR(光學字符識別)問題,許多公司都在試圖解決這一問題,但沒有人真正有解決方案。”

Nayak還告誡不要將應用程序用于醫療表格,因為誤譯可能會給患者帶來福祉。

納亞克說:“有些醫學術語是非常專業的,基本的翻譯系統無法翻譯這些術語。” “除非我們提出自己的自定義表示形式,否則我們不建議將其用于醫療表格。”

借助HackHarvard獲勝的動力,該團隊于2019年11月14日在波士頓大學建筑實驗室參加了一場推銷活動,目的是尋找志趣相投的學生為該項目做出貢獻。另一個誘因?可能會吸引一些資金,這可能會幫助團隊參加其他活動,招募人才,并希望在2019年底之前發布該應用程序。