3d开机号和试机号|福利彩票3d走势图
關閉
當前位置:首頁 - 未命名 - 正文

Google新推出的這款app,是專門給聽力障礙群體用的

Orange 2019-05-06 254°c

  “全球約有 4.66 億耳聾和聽力障礙患者,這是非常巨大的一個數目,如果把這個數字當成是一個國家的人口的話,這個‘國家’就是世界人口第三大國了。”

  遠在美國的 Google AI Research Group 高級產品經理 Sagar Savla,通過遠程視頻參與了一次在中國舉行的采訪會議。采訪中,他展示了上述讓人意想不到的統計數字。

  借助技術的力量,普通人得到了能力增強,能完成過去做不到的事情,比如 Sagar 可以借助實時視頻串流跨洋交流。在科技公司做產品的 Sagar,想讓聽力障礙群體也能受惠于技術進步。

Google AI Research Group 高級產品經理 Sagar Savla

Google AI Research Group 高級產品經理 Sagar Savla

  Live Transcribe 是什么?

  Sagar 和他的團隊已經邁出了第一步——Live Transcribe。Live Transcribe 是一個 Android 端的 App,能將自動生成字幕功能引入日常對話,幫助聽力障礙人群融入即時口頭交流。這款 App 已于 2019 年 2 月底發布,目前支持 70 多種語言并覆蓋全球 80% 以上的人群。

  如上所述,全球有 4.66 億耳聾和聽力障礙患者。過去,他們想要參與即興對話和社交場合,得提前預訂昂貴的手動轉錄服務,成本頗高,Live Transcribe 用技術來解決了這個問題。

  Live Transcribe 基于 Google 過去幾十年的自動語音識別(Automatic Speech Recognition,以下簡稱 ASR )技術積累,能把人類的語音信號轉變為相應文本。YouTube 上的自動字幕生成,就是應用 ASR 技術的結果。

  (安靜環境下 Live Transcribe 實時字幕轉錄普通話測試)

  2018 年,Sagar 利用 20% 的工作時間開啟了 Live Transcribe 這個項目。“開始不久我們立刻意識到,這其實是一個非常切實的項目。因為在 Google 也有一些聾人員工,他們拿到這個產品后幾乎無時無刻不在使用。啟動一個月后,我們就把這個項目固定下來了,建立了相應的產品開發團隊。”Sagar 對 PingWest 品玩回溯起項目的發展。

  值得一提的是,美國國家級院士 Dmitri Krakovsky 也加入了 Live Transcribe 項目組,他天生就是聾人,已經研究 ASR 30多年。

  Live Transcribe 是怎么運行的?

  過去,基于 ASR 的轉錄系統一般都需要計算密集型模型、詳盡的用戶研究以及昂貴的連接服務費用。

  為了降低用戶使用自動連續轉錄服務的成本,Sagar 團隊將 Live Transcribe 背后的神經網絡模型分別部署在設備端和云端(Google Cloud)。

  設備端的是卷積神經網絡模型,主要做聲音分類的工作,能辨別 570 個聲音類別,比如嬰兒哭聲或玻璃破碎聲。

  云端的神經網絡模型規模大得多,主要做語音轉錄成文字的工作,由三個部分組成。

  第一部分是聲學模型,能夠從音節的角度辨析說話者所說的是“Hi”還是“Hello”。

  第二個部分是發音模型,可以根據識別出來的音節做拼接或組合,組成實際的單詞。第三部分是語言模型,根據識別出來的單詞添加適當的標點符號和停頓,以符合人類語言使用習慣。

  基于云端神經網絡做語音轉錄的好處是,對設備性能要求沒這么高。Sagar 告訴 PingWest 品玩:“這意味著,Live Transcribe 在一些性能較弱的低端設備上也可以正常運行。”

  理想狀態下只要有互聯網接入,能使用 Google 服務,語音轉錄延遲都可以控制在 200 毫秒以內。Sagar 對 PingWest 品玩表示:“在一些網絡接入速度沒這么快的第三世界國家,聽覺障礙人群其實愿意花一點時間來獲得更加準確識別的效果。因為如果沒有這款產品的話,他們是很難聽見的。”

  落地遇到的問題

  落到實際用戶使用場景,Sagar 團隊要解決的問題不止設備性能和網絡連接。

  Sagar 團隊與加拉德特大學共同發起了用戶體驗研究,考慮了幾種不同的設備:計算機、平板電腦、智能手機、小型投影儀,甚至還有 VR/AR 眼鏡。“考慮到產品能夠具有普惠性,最終選擇了成本比較低廉,大家都用得起的一種設備——智能手機”。

  “第二個我們要解決的問題是,實時顯示字幕的時候是否要顯示字幕轉錄的置信度(轉錄后文字的可信程度)。”Sagar 說。

  一開始,他們曾嘗試用顏色來代表轉錄文字置信度,黃色代表高置信度,綠色代表中等置信度,而藍色代表低置信度,白色單詞為新文本。

  Sagar 團隊最終放棄了顯示置信度:“經過測試,我們發現這種方式會給用戶造成一個錯覺,好像同一顏色的是一個詞組。”

  第三個要解決的問題是環境噪音,又稱之為“雞尾酒會問題”:在一個派對場景中,有很多人在交談,機器很難識別正確的談話對象。

  “為解決此問題,我們構建了一個指示器,用于顯示相對于背景噪聲的用戶說話音量。”Sagar 說:“較亮的內部同心圓代表噪聲層,代表當前環境所處的噪聲級別。外部同心圓表示麥克風對說話人聲音的接收狀況。用戶可借此收到即時反饋,了解麥克風的接收狀況,以便其調整手機位置。”

  將來,Sagar 團隊會繼續改善“雞尾酒會問題”的解決方案,讓對話者的聲音更好地從多個說話對象中分離出來。Sagar 說:“Live Transcribe 也不排除會出 iOS 版本,讓更多受眾用上這項服務。”

標簽:
Orange 6573文章 0評論 主頁

資深媒體人

請你留言

必填

選填

選填

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。


  用戶登錄
 
3d开机号和试机号 好运彩票安卓 重庆时时彩官网 福建时时彩开奖号码 188比分直播吧篮球比分 龙王捕鱼机 重庆快乐10分钟玩法 今天的双色球现场直播 极速十一选五平台 一肖中特免费公开资料中特 真人龙虎斗攻略