亞馬遜正在通過Sumerian大舉進軍增強現(xiàn)實和虛擬現(xiàn)實。這是一個完整的開發(fā)應用,可為智能手機和頭顯開發(fā)AR和VR應用,而且不用多久,開發(fā)者就可以通過Sumerian開發(fā)直接運行在你瀏覽器的AR/VR應用。
在這些體驗之中,Sumerian可以創(chuàng)建充滿“Host”的沉浸式虛擬世界,一種由驅(qū)動亞馬遜Alexa的相同人工智能提供支持的3D角色。
Sumerian是一種跨平臺工具。亞馬遜沒有選擇開發(fā)自家品牌的設(shè)備或頭顯,而是為市場提供集成服務。Sumerian基于開源網(wǎng)絡標準,并且支持蘋果ARKit和谷歌ARCore,這意味著應用開發(fā)者可以開發(fā)出運行在安卓,iOS,Oculus Rift和HTC Vive等平臺的Sumerian應用。
作為Amazon Web Servics(AWS)的新成員,Sumerian采用了基于用量的定價模型而非訂閱模型,而且Sumerian可以連接至其他AWS服務。
亞馬遜于2017年11月推出了Sumerian的預覽版,并計劃在5月正式上線。在這之前,PCMag深入探訪了Sumerian和數(shù)款早期的消費者應用。以下是映維網(wǎng)的具體整理:
亞馬遜Sumerian的總經(jīng)理Kyle Roche向我(Rob Marvin)演示了這個3D應用開發(fā)平臺。我體驗了Sumerian的拖放應用編輯器和3D對象庫,用于編寫復雜動畫場景腳本的Visual State Machine,以及創(chuàng)建人工智能Host的過程。對于Host,你在這些虛擬體驗中時將能與它們進行完整的對話。
我同時與負責亞馬遜AR/VR,AWS Mobile,Serverless Computing和物聯(lián)網(wǎng)部門的副總監(jiān)Marco Argenti進行了交談。亞馬遜對Sumerian寄以厚望,并且認為結(jié)合了AI的增強現(xiàn)實和虛擬現(xiàn)實將在我們的聯(lián)網(wǎng)未來扮演重要角色。
1. 為什么亞馬遜要押寶AR和VR?
亞馬遜從來都不畏懼進軍一個全新的領(lǐng)域。我們只需看看全食(Whole Foods),亞馬遜視頻,或者他們在醫(yī)療保健和醫(yī)藥行業(yè)的努力即可明白這一點。
Roche開玩笑說,Sumerian這個名字取自于科幻小說《雪崩》(亞馬遜同時正在將其改編成影視作品),而“Host”的概念則源于HBO的科幻劇《西部世界》。但Argenti表示,亞馬遜決定進軍AR/VR是因為三個關(guān)鍵的要素:智能手機AR的興起;VR在B2B市場的廣闊機遇;這可以幫助AWS用戶解決一系列的痛點。
Argenti解釋說:“信號已經(jīng)足夠明顯,所以我們開始進入設(shè)計Sumerian的過程。典型的亞馬遜做法是,我們以逆向的方式先研發(fā)消費者用例,然后組建一支構(gòu)建產(chǎn)品的開發(fā)團隊。”
B2B應用包括交互式數(shù)字招牌(如《銀翼殺手:2049》中會說話的巨大全息圖廣告),虛擬培訓,以及一系列的工業(yè)物聯(lián)網(wǎng)用力,比方說利用傳感器來創(chuàng)建數(shù)字孿生和復雜的模擬。Argenti同時強調(diào)了智能手機AR已經(jīng)通過ARKit和ARCore來到了一個關(guān)鍵的臨界點。
他說:“在與現(xiàn)實交互和探索周圍的世界方面,攝像頭正在日益變成一項十分強大的工具??焖俚膱D形處理器可以實時疊加信息,而傳感器可以幫助構(gòu)建一個3D現(xiàn)實。其思想是,數(shù)以億萬計的用戶擁有一個高質(zhì)量,高分辨率的情景感知傳感器。”
2. 亞馬遜是如何構(gòu)建Sumerian?
亞馬遜最初是在2016年下旬開始思考AR和VR可以為AWS用戶帶來的幫助,然后在大約一年后的AWS re:Invent大會中亮相了一個預覽版。在這期間的時間里發(fā)生了幾件事情。
首先,亞馬遜收購了一家破產(chǎn)的瑞典初創(chuàng)公司Goo Technologies。他們的3D開發(fā)環(huán)境Goo Create成為了Sumerian集成開發(fā)環(huán)境(Integrated Development Environment,IDE)的基礎(chǔ)。
Goo Create的視覺三維建模同樣是基于網(wǎng)絡的云服務,但亞馬遜更進一步,他們將后端遷移到了AWS。將其構(gòu)建在已有的可擴展云基礎(chǔ)架構(gòu)基礎(chǔ)上存在大量益處,但重要的是這可以大幅縮短延遲。Roche表示,Sumerian最大的賣點之一是,對于一個如其強大的編輯器,你無需下載或安裝任何東西。在演示期間,Sumerian可以在數(shù)秒內(nèi)完成瀏覽器URL的加載。即使是進行實時自然語言處理(NLP)和渲染精巧的動畫也不會減慢其速度。
作為一個低碼開發(fā)平臺,Sumerian可以支持幾乎沒有開發(fā)經(jīng)驗的用戶,而程序員和數(shù)據(jù)科學家可以通過可編程的API和Sumerian的命令行界面來自定義場景和編寫復雜的應用邏輯。
Argenti表示:“我們渴望一種你點擊一下就可馬上進入場景的體驗。然后為你提供可以拖放對象的3D圖形工具。Sumerian是一個可以聯(lián)想當動作和事件發(fā)生時可以出現(xiàn)什么情況的視覺工具,這一切可能無需編寫任何一行代碼?!?/p>
3. 創(chuàng)建3D Sumerian應用
亞馬遜對Sumerian的整體設(shè)計理念是盡可能地鞏固創(chuàng)作體驗。Roche表示,他們希望可以掩蓋大量重復的開發(fā)任務,所以無論你最終選擇發(fā)行的平臺是什么,構(gòu)建Sumerian應用的基本過程都相同。
你可以選擇一個模板,或者直接開始創(chuàng)建一個新場景。Sumerian的部分默認模板包括辦公場所,培訓室和倉庫,貨船和戶外篝火等場景。主編輯器支持WebGL和WebVR,其布局方式與我們測試過的許多低碼工具相同。
左邊是一個實體面板。一個實體本質(zhì)上是數(shù)據(jù)庫中的一個表格,可幫助你管理導入應用程序的數(shù)據(jù)。下方則是asset窗口,你可以在其中搜索要拉入場景中的對象,或者打開Sumerian3D模型的完整asset庫。Roche表示,Sumerian提供了一系列的開源對象庫并且與Sketchfab API集成。亞馬遜也有興趣整合諸如TurboSquid和谷歌Poly AR/VR對象庫等平臺。你同時可以將自己的asset導入到Sumerian中,然后將它們放入場景。
Roche解釋說:“asset面板可以作為調(diào)整管道的拖放區(qū)。你可以拖放大多數(shù)常見的3D文件格式。我們會轉(zhuǎn)換它們,對它們進行優(yōu)化并為你儲存它們。我們在后端做的一件事情是,如果你在多個場景中使用相同的asset,我們實際上會為你創(chuàng)建一個參考鏈接?!?/p>
屏幕中間是主畫布,你可以將asset和3D模型拖放到場景之中。畫布的角落有一個按鈕,用于啟動場景的WebVR預覽。
其下方則是時間線編輯器,工作原理與視頻編輯工具類似。當你拖入動畫和聲音并使用Visual State Machine創(chuàng)建場景,Host行為和事件進程時,它們都會顯示在時間軸中,你可以通過時間軸調(diào)整一個狀態(tài)將如何過度至另一個狀態(tài)。
右側(cè)欄是inspector面板,其包含你正在查看的組件詳細信息,以及你可以如何定制它們。對于可能有一百種不同變體的模型而言,你可以在不實際觸及場景的情況下調(diào)整屬性和紋理等內(nèi)容。
4. 亞馬遜的策略:海納百川式的集成
Sumerian不僅在3D開發(fā)領(lǐng)域發(fā)支持Unity,Unreal和Vuforia這樣的平臺,同時還在更廣泛的AR/VR生態(tài)系統(tǒng)中兼容ARKit,ARCore和Windows Mixed Reality。Roche表示,Sumerian將“開發(fā)一次,隨處運行”的理念應用于AR/VR應用程序,特別是針對企業(yè)開發(fā)者。
Roche指出:“專業(yè)3D開發(fā)者或?qū)I(yè)動畫師都有一個合作的工作室,但大多數(shù)(AWS用戶)都是網(wǎng)絡或移動開發(fā)者,在工作中學習到像Unity這樣的工具。Unity很優(yōu)秀,但要真正精通它要比把他們的技能帶到3D困難得多。所以我們決定把重點放在這一部分?!?/p>
Sumerian支持多種核心開源標準:WebGL,WebAR,WebVR和即將推出的WebXR框架。 WebXR框架可以把AR/VR應用帶到不同平臺的所有設(shè)備與瀏覽器,而萬維網(wǎng)聯(lián)盟(W3C)將在未來幾個月內(nèi)投票批準WebXR。屆時,Sumerian應用將能夠直接在瀏覽器中運行。
在WebGL,WebVR和WebXR之間,Sumerian完全與平臺無關(guān),而且Sumerian已經(jīng)發(fā)布了本地wrapper來直接與ARKit和ARCore集成。Roche表示,Sumerian可以為任何支持WebVR的平臺構(gòu)建應用,這不僅只是包括OculusRift和HTCVive,同時還包括三星Gear VR和谷歌Daydream View等等。另外,Sumerian正在就WebXR與谷歌Chrome團隊進行緊密合作,開發(fā)基于瀏覽器的應用程序。
另一個主要角色是微軟。盡管亞馬遜尚未宣布Sumerian將與WMR生態(tài)系統(tǒng)集成,但Roche確實提到最新的微軟HoloLensRS4版本包含了WebAR支持,而這意味著Sumerian可以運行HoloLens的場景。亞馬遜同時在觀察Magic Leap和Meta等公司的頭顯。
Argenti說道:“我們做出了選擇,我們本可以進行自研,并推動開發(fā)者走向這條道路。但我們希望可以盡可能廣泛地支持一個巨大的市場。當一切都整合至WebXR時,完整的設(shè)備生態(tài)系統(tǒng)就會隨之而來。我們瞄準的是底層基礎(chǔ)?!?/p>
5. Sumerian的AI Host將改變一切
Host是Sumerian最獨特的賣點之一。Host是一種可以放置在AR或VR場景中的3D動畫角色。用戶可以向Host提出問題,而開發(fā)者可以編寫一套復雜的動作,行為,手勢和移動方向,因為它們可以進行對話,并且會圍繞場景四處走動。Roche指出,亞馬遜吸收了大量的靈感,包括《第二人生》和《模擬人生》等在線游戲。
Sumerian目前有兩個默認Host:克莉絲汀(Christine)和普雷斯頓(Preston)。但亞馬遜將在今年推出一系列的Host。這些AI角色存在很多細微的差別。Roche向我展示了一個關(guān)于克莉絲汀的演示,他將Host拖到場景之中,并打開inspector面板來定制她的情緒,面部表情和手勢。Sumerian可以自動生成手勢,Host會根據(jù)對話的自然語言處理進行對話。所以如果克莉絲汀對你說“嗨”,這可能會觸發(fā)揮手動作。
借助一個名為興趣點的系統(tǒng),你可以在編輯器中選中一個復選框,令Host的眼睛始終看著相機。所以如果你佩戴HTC Vive Pro在360度的空間中走動,Host將跟隨你。如果這是一款與智能手機攝像頭相關(guān)的AR應用程序,亞馬遜的Rekognition深度學習系統(tǒng)則可以運行面部分析,判斷你的位置和你的面部位置,然后令Host直接透過屏幕看著你。這會提供一種眼睛接觸的幻覺。
用戶還可以使用亞馬遜的Maya SDK從零創(chuàng)建自己的定制Host,但亞馬遜已經(jīng)提供了基本框架,方便你從中調(diào)整Host的外觀,口音和語調(diào)變化,以及語言等等。從長遠來看,亞馬遜正在考慮如何幫助用戶更輕松地創(chuàng)建Host。Argenti談到了用于第一人稱角色的Host生成器概念,或者使用面部識別來匹配渲染角色和真實人類。
Argenti表示:”結(jié)合Rekognition,如果我們在程序上盡可能多地生成這些角色,我們可以嘗試將你與最接近的角色進行匹配。我們可以拍攝你的照片并運行反向面部識別,并將其與隨機角色進行匹配,從而提供一個看起來像是你的Host版本?!?/p>
Argenti解釋了集成其他AWS服務可以令Host更加逼真,比如說Amazon Comprehend自然語言處理服務。Comprehend可以分析文本并提取諸如心情和情緒分析等元數(shù)據(jù)。所以根據(jù)對話者的情緒,Host可以有不同的面部表情或表達方式。
Argenti說:“如果對話者生氣了,也許Host可以令他們平復心情。不僅在我們傳達信息的方式上有所發(fā)展,我們通過深度情感分析來呈現(xiàn)這一點的方式上也有進步?!?/p>
6. Alexa背后的語音服務
能夠進行對話的Host才是好NPC。與在WMR中激活Cortana小娜的方式不同,你不能在Sumerian應用中通過說“Hey Alexa”來激活語言服務。相反,亞馬遜采用了Alexa背后的自動語音識別和自然語言理解API來幫助Host進行對話。
Sumerian與Amazon Lex和Amazon Polly進行了集成。Polly是一種文本到語音轉(zhuǎn)換服務,可將文本轉(zhuǎn)換為Host的語音腳本。Lex則是一個用于構(gòu)建會話界面的NLP引擎,這是Host理解和響應用戶說話內(nèi)容的方式。Sumerian目前已經(jīng)通過Polly支持了超過二十種語言,而且嘴唇同步功能可以令Host的嘴巴動作與語言或語音節(jié)奏相匹配。
Argenti說道:“當你沉浸在AR或VR中時,語音是一種真正有意義的媒介。如果你看到一個角色站在那里,我會希望與它進行交談。所以我們從人工智能團隊中挑選了兩個這樣的工具,并試圖將它們?nèi)烁窕N覀兿M麍鼍澳軌騼A聽并回應我們。因此,你可以像聊天機器人一樣將整個Lex流程拖放到角色上。從很多方面來講,它比構(gòu)建一項Alexa技能要容易得多?!?/p>
7. 沉浸式世界中的腳本邏輯
Sumerian的Visual State Machine是你設(shè)計復雜序列和虛擬模擬的工具。借助視覺時間線編輯器或完整的JavaScript界面,應用創(chuàng)建者和開發(fā)者就可以編寫腳本邏輯來控制場景中的Host或其他對象。例如,Sumerian包括一個可以編寫腳本的飛行無人機對象。
當你把真實世界的對象引入等式時,這一切都將變得更加復雜。由于Argenti同時負責AWS的無服務器計算和物聯(lián)網(wǎng)部門,他認為將Sumerian連接到Lambda和Greengrass這樣的AWS服務中可以為復雜模擬帶來更多可能性。Greengrass是機器學習模型在物聯(lián)網(wǎng)設(shè)備上進行本地運行的一種方式。我們可以設(shè)想一個根據(jù)工廠車間機器數(shù)據(jù)進行訓練的ML模型,然后我們把這種算法帶到Sumerian,并且使用AI來模擬同一臺機器。
Argenti說道:“AR和VR中真的可以存在一個模擬世界,每個角色或?qū)ο蠖寄芡ㄟ^現(xiàn)實世界中的機器學習訓練變得智能起來。最終,你將希望嘗試以最逼真的方式來重新創(chuàng)造現(xiàn)實。今天我們可以進一步靠近,但從行為角度來看,它還不足以模擬實際情況。”
8. Weatherbug的模擬氣象學家
當亞馬遜向我演示Sumerian應用時,我十分驚訝于他們展示的第一個應用是與天氣有關(guān)。
但正如WeatherBug總經(jīng)理Olivier Vincent所解釋的那樣,虛擬現(xiàn)實與天氣數(shù)據(jù)的結(jié)合比你想象中更為合理。由于人們已經(jīng)開始通過應用程序查看天氣狀況,天氣預報已經(jīng)丟失了其中一個亮點:站在天氣屏幕前的當?shù)靥鞖忸A報員。
Vicent說道:“天氣就是告訴你某個時間段內(nèi)某個地方將會發(fā)生什么,你可以在應用中以一種2D方式進行快速查看,但我們知道一直以來天氣預報員都十分受歡迎。所以我們的想法是以一種更加身臨其境的方式重新引入天氣預報員?!?/p>
WeatherBug構(gòu)建了一個包含虛擬新聞工作室的Sumerian場景,并配有一個主播臺和天氣屏幕。然后他們把克莉絲汀當作氣象學家。這款應用可以根據(jù)你的位置提取當前的天氣數(shù)據(jù),然后Host將以一種個性化的方式來向你播報天氣。在WeatherBug主應用中,Vincent啟動了一個展示曼哈頓3D模型的VR場景,這時克莉絲汀會向你播報天氣,并且提供最高溫度和最低溫度等其他信息,而你甚至可以看到飄落的雪花。
9. 艾迪生:虛擬看護者
位于新墨西哥州的健康管理科技公司Electronic Caregiver則開發(fā)了一款十分不同的Sumerian體驗。
這家公司為老年人提供了包含醫(yī)療幫助的可穿戴設(shè)備,他們同時開發(fā)了一種名為Addision Care的解決方案,目標是降低家庭護理成本,并使用會話式AI來評估老年患者跌倒的風險。Electronic Caregiver為藥店,醫(yī)院和臨床醫(yī)生推出了一個終端機,通過機器學習來分析患者的步態(tài)。他們開發(fā)的Sumerian體驗同時應用了一個自定義的Host:艾迪生(Addison)。Addison將會幫助用戶完成關(guān)于跌倒歷史的口頭調(diào)查問卷。
Electronic Caregiver的技術(shù)總監(jiān)Bryan Chasko表示:“讓老年人接受技術(shù)并不容易。隨著這方面越來越好,語音技術(shù)將會涉足這個市場,你將不再需要讓他們坐在鍵盤和鼠標前面,通過艾迪生,他們只需進行對話即可?!?/p>
Electronic Caregiver制作艾迪生已有數(shù)年時間,利用Amazon Lex和Polly來開發(fā)這個3D角色。該公司是其中一家?guī)椭鷣嗰R遜構(gòu)思可以通過Sumerian解決的難題,以及如何自動化AR/VR應用創(chuàng)建流程的AWS用戶之一。
Electronic Caregiver的一名虛擬開發(fā)者Judah Tveito表示,Sumerian將他們需要投入數(shù)月時間的流程轉(zhuǎn)化為只需幾次點擊的體驗。Chasko指出,該公司還在開發(fā)艾迪生移動應用。Electronic Caregiver將艾迪生定位為家庭虛擬護理人員。對于獨立生活的老年用戶,AI可以提醒他們服用藥物,或者在其跌倒或出現(xiàn)其他醫(yī)療緊急情況時自動撥打911(美國報警電話)。
Chasko說道:“我們認為這可以解決的最大問題之一是,老年人獨自生活時的隔離感,我們希望提供一個全天候的家庭環(huán)境,當你沒有與艾迪生對話并且在浴室跌倒時,只需大喊‘我需要幫助’就可以挽救許多生命?!?/p>
10. 賺錢機器:B2B和物聯(lián)網(wǎng)
亞馬遜談到很多關(guān)于交互式數(shù)字標識的場景。想象一下,當你在酒店大堂,商場或體育場中散步時,你可以在屏幕中看到陪你一起走動的Host。這聽起來可能有點令人毛骨悚然,但Host可以處理位置等情景信息,并將廣告轉(zhuǎn)變?yōu)閭€性化的對話。Argenti認為Host是公司品牌的虛擬擴展,可以根據(jù)業(yè)務需求進行改變。
亞馬遜正在為Sumerian的用戶探索一系列的B2B和物聯(lián)網(wǎng)應用。在工業(yè)方面,Argenti表示諾基亞整合了一個包含傳感器和可視化系統(tǒng),并將其用于監(jiān)測集裝箱內(nèi)的環(huán)境,這樣工作人員無需實際打開集裝箱即可測量內(nèi)部溫度和減震效果。
他說:“你可以想象這么一個AR世界:我們將數(shù)百萬臺設(shè)備連接到AWS,并從現(xiàn)實世界獲取大量的感官數(shù)據(jù)。然后,我們可以使用AR進行三角測量來識別對象,并在其上顯示相關(guān)信息。從服務和維修到監(jiān)控,安全等各種服務,這存在很大的適用性?!?/p>
Sumerian同樣存在廣泛的電子商務可能性。對于任何來自亞馬遜購物目錄的Sumerian 3D模型而言,如果將其添加到AR/VR場景中,你都有可能獲得開發(fā)者推薦費用。這是AWS上的企業(yè)和獨立開發(fā)者通過Sumerian應用實現(xiàn)營收的一種方式。
Argenti設(shè)想了Sumerian和亞馬遜零售部門之間的眾多交叉機會,他說:“我們可以利用我們零售團隊在家居裝飾,家用電子產(chǎn)品,以及其他高價值物品方面的一些工作來創(chuàng)建3D模型。然后你可以用它們來拍攝一個照片級真實的透視空間。我該如何設(shè)置一個現(xiàn)代化的閣樓呢?我們應該擺設(shè)什么家具呢?”
11. 一切都回到AWS
為所有AR/VR設(shè)備和平臺搭建橋梁是降低AR/VR開發(fā)門檻的一種明智方式,不僅對B2B公司是如此,對開發(fā)者來說都是如此。令亞馬遜大力發(fā)展Sumerian的一點是,這可以推動更廣泛地AWS服務采用。對于嘗試使用新服務的現(xiàn)有用戶,以及新Sumerian用戶來說都是如此。后者將開始使用亞馬遜的存儲,計算,處理,人工智能和其他服務,因為它們都融入了之中體驗。定價模式同樣很有吸引力,因為亞馬遜不征收預付費,AWS只按照你的使用量進行費用。
這只是所有流經(jīng)AWS大環(huán)路的一部分。數(shù)據(jù)來自于物聯(lián)網(wǎng)設(shè)備,通過AWS Lambda函數(shù)進行處理,部署在AWS Greengrass以進入訓練機器學習模塊的AWS IoT,并且最終作為3D模型成為Sumerian中的AR可視化。
12. 亞馬遜對AR/VR未來的展望
亞馬遜希望Sumerian能夠刺激行業(yè)制作3D大眾產(chǎn)品,以及降低成本。在AR方面,Argenti表示由于ARKit和ARCore的原因,基本的支持者已經(jīng)到位。他指出,當開發(fā)者提供足夠的應用和視頻內(nèi)容時,行業(yè)將出現(xiàn)一個拐點。在VR方面,亞馬遜希望看到的重大變化是硬件價格下降,變得輕便和無線。
Argenti說:“當這一切發(fā)生的時候,以及當你像佩戴眼鏡一樣佩戴VR體驗的時候,VR將實現(xiàn)騰飛。我認為它必須要像在平板電腦上觀看視頻或打開電視機一樣自然,只有這樣才能達到與其他媒介相同的主流消費水平。圍繞內(nèi)容創(chuàng)建者,廣告客戶,終端用戶,以及迎合這些用戶的公司來開發(fā)一個完整的生態(tài)系統(tǒng)就是具體的操作方式?!?/p>
Argenti還強調(diào)了VR和MR中沉浸感的重要性。亞馬遜為Sumerian設(shè)置的另一個目標用例是教育和培訓。他指出,無論你是在學習如何使用醫(yī)療設(shè)備,還是說學習新的語言,這一切都是為了令你感覺自己仿佛置身于一個真實的環(huán)境之中。
他說道:“你足不出戶就可以坐在一家法式小酒館里學習當?shù)卣Z言。Host會用法語與你進行對話。菜單是用法語書寫。然后在這個現(xiàn)實中,你可以觸摸一個菜單并看到相應的翻譯,將你的手指放在一個條目上即可看到單詞變成不同的語言。學習主要是情景化的學習,所以作為一種學習工具,能夠涉及你所有感官的體驗將十分強大?!?/p>
- QQ:61149512