新智元報道
編輯:拉燕 好困
【新智元導讀】Bing能識圖了!開局一張圖,需求都滿足。這波,GPT-4要輸麻了。
什么,微軟的Bing能識別圖片了? 還 是搶在了ChatGPT之前?
和當初只畫餅、不落地的GPT-4預覽相比,Bing這次可謂占盡了風頭。
有Reddit網(wǎng)友發(fā)現(xiàn),Bing的界面上突然就出現(xiàn)了個上傳圖片的選項。
據(jù)說,上傳一張圖片之后,Bing什么都能干。
不管是編程寫代碼、做題作圖,甚至看病,通通不在話下。
(但似乎還在小規(guī)模測試,比如小編就還沒體驗到)
看梗圖
在大量網(wǎng)友發(fā)現(xiàn)這項功能以后,最先測試的肯定是各種各樣的梗圖。
把梗圖輸入給Bing,看看它能不能分析出笑點在哪里。
比如下面這張圖片,一個男人在出租車后面熨衣服,而且車還在開著。
Bing表示,這圖里不同尋常的部分太多了。首先,在出租車上熨衣服很離譜,其次,男人穿的衣服和出租車顏色一致,是不是在暗示什么?或者是某種巧合?
第三,熨衣板固定在出租車上,這樣有不穩(wěn)定的風險。最后,男人正在熨的衣服是藍色的,和黃色撞色了,是不是在暗指什么?
能看出,Bing還是盡可能的捕捉到了圖片中的所有細節(jié),甚至分析的還挺有道理。
而在下圖這個「為什么要給神經網(wǎng)絡加層數(shù)?」的漫畫中,Bing也給出了自己的分析。
這個漫畫夸張了統(tǒng)計學習和神經網(wǎng)絡的差異,讓前者使用的嚴肅和技術性語言與后者的簡單直接建議形成對比,創(chuàng)造了一種幽默的并置效果。 總的來說,這個漫畫利用了與機器學習這兩種方法相關的刻板印象和常見看法,突顯了統(tǒng)計學習和神經網(wǎng)絡的不同。
當然,相同的圖片也在預覽版的GPT-4中展示過。
GPT-4一針見血地點出,這副漫畫諷刺了統(tǒng)計學習和神經網(wǎng)絡在提高模型性能方法上的差異。
但在另一組圖中,Bing似乎并沒有get到點。
Bing還裝模做樣的分析了分析,它說也許是接頭和包裝的反差?也可能是插頭的底下看著像一張臉。
甚至還沒話找話的分析了三幅圖片分別是什么,就是沒提梗在哪里。
不過,如果讓Bing去做一些客觀分析的話,比如識別線材品牌,結果還是非常準確的。
相比之下,GPT-4在逐個分析下面這組梗圖時,可以立馬反應過來——
圖里的這個「Lighting充電線」,看起來就是個又大又過氣的VGA接口,插在這個又小又現(xiàn)代的智能手機上,反差強烈。
寫代碼
當時GPT-4在畫餅的時候,最驚艷的就是它對代碼的超強的理解能力。
在演示中,Greg Brockman直接在紙上畫了一個草圖,拍個照,發(fā)給GPT-4說,給我按照這個布局寫網(wǎng)頁代碼,就寫出來了。
這個小哥也讓Bing試一試,能不能搞個同款笑話網(wǎng)站出來。
最終效果看起來還真不錯,雖然界面看起來沒多美觀,但是該有的都有。
程序代碼如下:
接著,小哥讓Bing繼續(xù)完善代碼,把對應的網(wǎng)頁給做出來。
Bing表示當然可以,只需微調代碼。但是指出了JavaScript并不是編譯語言,而是一種解釋語言。
所以不需要一個編譯器,只需要瀏覽器或者一個JavaScript的引擎就好了。
友情科普完,Bing也是成功完成了任務。
當醫(yī)生
下面這個用例就比較厲害了。
小哥直接拍了一張發(fā)紅手臂的圖片,問Bing自己得了什么病。
Bing直接判定為瘀傷,皮下血管破裂。
甚至還開出了很多方法來緩解癥狀:
·前24個小時貼冰袋,緩解腫脹和發(fā)炎。
·24小時以后加熱,促進血液循環(huán),清除淤血。
·把瘀傷的部分抬到比心臟高的位置,降低血壓和血液聚集。
·服OTC止痛藥。
·多吃富含維生素C、維生素K、鋅,以及菠蘿蛋白酶的食物,加速傷口愈合以及膠原合成。
·涂藥膏減輕瘀傷和發(fā)炎腫脹。
還是蠻專業(yè)的。
還有小哥發(fā)了一張組織的橫切面圖讓Bing來斷一斷。
Bing不僅識別出了圖片內容,還詳細的講解了一下什么叫組織,什么叫橫切面。
甚至還解釋了什么情況下會用到組織的橫切面圖。
接著小哥追問,你覺得是什么組織的切面?
Bing分析認為,這是肌肉組織的橫切面。
甚至,Bing還十分嚴謹?shù)刂赋?,自己不能單獨根?jù)一張圖,來判斷這個人是不是健康。
還有網(wǎng)友化身苦難中的大學生,讓Bing當個好老師,給他講講圖里是個什么玩意兒。
Bing表示,好好聽老師說(刪掉),這是腎元,主要有四個功能,分別是blah blah blah...
好家伙,以后這種梳理總結類的學習任務,直接甩給AI就完事了。AI永遠不會失去耐心。
甚至直接有人甩給Bing一道有關細胞減數(shù)分裂的題。
Bing表示,上傳的圖片是減數(shù)分裂的示意圖,從一個二倍體細胞分裂成四個單倍體細胞。
然后又從減數(shù)分裂的過程、意義進行了講解。
有時并不太靈光
當然,Bing的識圖功能目前還有不少改進的空間。
比如,小哥問圖中A框里有幾個×(根據(jù)圖例,A.trifida就是×)。
人眼一看是11個,可怎么Bing說的不對呢。
Bing說總共有9個,A框里5個X,B框里4個○,加起來一共9個。
說好的A框,說好的X呢!怎么又○又B框的。
再比如,這張《任天堂大亂斗》的游戲角色圖中,Bing只認出了其中的7個角色。
然后,小哥又問一個國際象棋的問題:「在這個開局里,白棋接下來該怎么走?」
但Bing一上來就回答錯了:「現(xiàn)在輪到黑棋走,至于白棋怎么走,取決于黑棋……」
網(wǎng)友趕緊更正稱,不對,你先看清棋子的位置,然后我再說一遍,現(xiàn)在是輪到白棋走。
然而,Bing這次依然沒有回答正確——在給出的位置中,有好幾處實際上都沒有棋子……
能看出來,Bing新添的識圖功能性能倒是挺強大。
開局一張圖,后面全靠強大的生成能力發(fā)揮。
事實性的識別和生成感覺問題不大,就是不知道未來有點文化隱喻的那一趴能不能做到更好。
參考資料:
https://.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618