日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>科技 >內(nèi)容

          GPT-4考90分全假!30年資深律師用ChatGPT打官司,6個(gè)虛假案例成笑柄

          2023-05-29 16:44:04來源:
          導(dǎo)讀 新智元報(bào)道編輯:桃子 拉燕【新智元導(dǎo)讀】ChatGPT又有什么錯(cuò)呢?美國律師向提交的文件中,竟引用了6個(gè)根本不存在的案例,反倒惹禍上身被制...


          新智元報(bào)道

          編輯:桃子 拉燕

          【新智元導(dǎo)讀】ChatGPT又有什么錯(cuò)呢?美國律師向提交的文件中,竟引用了6個(gè)根本不存在的案例,反倒惹禍上身被制裁。

          ChatGPT,真的不可信!

          在美國近來的一訟案件中,一位律師幫原告打官司,引用了ChatGPT捏造的6個(gè)不存在的案例。

          法官當(dāng)庭指出,律師的辯護(hù)狀是一個(gè)徹頭徹尾的謊言,簡直離了大譜。


          然而,律師為自己辯護(hù)中,甚至提交了和ChatGPT聊天截圖的證據(jù)。

          顯然,ChatGPT稱「這些案例都是真實(shí)存在的」。


          本為原告打的官司,自己竟惹禍上身,將受到制裁,這波操作瞬間在網(wǎng)上引起軒然。

          畢竟,GPT-4剛誕生時(shí),OpenAI放出它在律師資格答案(UBE)的成績,還拿到了90分。


          網(wǎng)友警告,千萬不要用ChatGPT進(jìn)行法律研究!??!


          還有人戲稱,要怪就怪你的prompt不行。


          律師承認(rèn)使用ChatGPT

          這訟的起始和其他許多案件一樣。

          一位名叫Roberto Mata的男子在飛往紐約肯尼迪國際機(jī)場的航班上,不幸被一輛餐車撞到膝蓋,導(dǎo)致受傷。

          由此,他便要這架航班的「哥倫比亞航空公司」(Avianca)。


          Mata聘請了Levidow,Levidow & Oberman律所的一位律師來替自己打這個(gè)官司。

          接手案子后,律師Steven A. Schwartz向提交了一份10頁的辯護(hù)狀。其中,引用了6個(gè)相關(guān)的判決:

          Varghese V. 中國南方航空公司

          Shaboon V. 埃及航空公司

          Petersen V. 伊朗航空公司

          Martinez 達(dá)美航空公司

          Estate of Durden V. 荷蘭皇家航空公司

          Miller V. 美國聯(lián)合航空公司


          原文件:

          https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf

          然而,讓所有人震驚的是,從案件本身,到司法判決,再到內(nèi)部引文,全是假的!

          為什么假?因?yàn)槭荂hatGPT生成的。


          這不,麻煩就來了。

          目前,對方律師考慮舉行聽證會,對原告律師進(jìn)行制裁。

          Schwartz律師,可以說已經(jīng)非常資深,在紐約從事法律工作已有30年。

          從他的話中得知,自己吃了大虧,竟是從來沒用過ChatGPT,由此沒有意識到它生成的內(nèi)容是假的。說來,還是太離譜 。

          原告律師Steven A. Schwartz在一份宣誓書中承認(rèn),他確實(shí)用了ChatGPT進(jìn)行相關(guān)研究。


          為了驗(yàn)證這些案件的真實(shí)性,他做了唯一一件合理的事:讓ChatGPT驗(yàn)證這些案件的真實(shí)性。

          他告訴法官,「自己無意欺騙法庭或航空公司」。



          當(dāng)他詢問ChatGPT這些案件的來源時(shí),ChatGPT先是為之前的表述不清道歉,但還是堅(jiān)稱這些案件都是真實(shí)的,可以在Westlaw和LexisNexis上找到。

          而對方律師也同樣堅(jiān)持,來自Levidow & Oberman律師事務(wù)所的原告律師是多么荒唐可笑,由此才引發(fā)了法庭對這個(gè)細(xì)節(jié)的重視。

          在其中一個(gè)案例中,有個(gè)叫Varghese的人中國南方航空有限公司。然而這件事壓根不存在。

          ChatGPT好像引用了另一個(gè)案件——Zicherman大韓航空有限公司。而ChatGPT把日期、案件細(xì)節(jié)什么的都搞錯(cuò)了。

          Schwartz此時(shí)才悔恨地表示,他沒有意識到ChatGPT可能提供假案件,現(xiàn)在他非常后悔用生成式AI來進(jìn)行法律研究。

          法官表示,這種情況前所未見,并將于6月8日舉行聽證會,討論可能的制裁措施。


          這件事情再次體現(xiàn)了一個(gè)很重要的事實(shí),那就是用完ChatGPT必須用其它來源進(jìn)行雙重,甚至三重查證。

          而AI模型在信息輸入上出現(xiàn)重大事實(shí)錯(cuò)誤已經(jīng)不是第一次了,谷歌的Bard也遇到過這種問題。

          90分?GPT-4成績被夸大

          還記得GPT-4剛剛發(fā)布那天,「小鎮(zhèn)做題家」在各項(xiàng)答案指標(biāo)上接近滿分的水平。

          尤其,在美國統(tǒng)一律師資格答案(UBE)中,GPT-4可以拿到90%水平,而ChatGPT(GPT-3.5)也僅拿到10%的分?jǐn)?shù)。


          但是,沒過多久,來自MIT的研究人員Eric Martínez發(fā)了一篇論文,重新評估了GPT-4在Bar答案中的表現(xiàn)。

          論文直言,GPT-4的律師答案成績被夸大了。


          論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311

          作者在文中提出了4組發(fā)現(xiàn),表明OpenAI對GPT-4在UBE的表現(xiàn),盡管明顯比GPT-3.5有令人印象深刻的飛躍,但似乎過于夸大。

          特別是,如果被當(dāng)作代表「百分位數(shù)下限范圍」的保守估計(jì)。更不用說,意在反映一位執(zhí)業(yè)律師的實(shí)際能力了。

          首先,GPT-4的律師答案成績,是與2月份諾伊州律師答案的應(yīng)試者相比較的。


          值得注意的是,這些考生都是復(fù)讀生,不難理解,他們的分?jǐn)?shù)可能會更差。


          其次,最近一次七月份答案的數(shù)據(jù)表明,GPT-4的UBE成績?yōu)?8%。

          第三,通過檢查官方NCBE數(shù)據(jù),并使用若干保守的統(tǒng)計(jì)假設(shè),估計(jì)GPT-4在所有首次答案中實(shí)現(xiàn)63%。

          最后,當(dāng)只考慮那些通過答案的人(即已獲得許可或待許可的律師)時(shí),預(yù)計(jì)GPT-4的表現(xiàn)將下降到48%。


          網(wǎng)友稱,更準(zhǔn)確來說,GPT-4應(yīng)該只有63分,或者68分。


          文中,作者還提供了深刻的見解,探討了將法律任務(wù)外包給AI模型的可取性和可行性。

          甚至,人工智能開發(fā)人員實(shí)施嚴(yán)格和透明的能力評估,以幫助確保安全和可靠的人工智能的重要性。

          要是,原告的那位律師看過這項(xiàng)研究后,說不定就不會吃大虧了。


          ChatGPT胡說八道

          歸根結(jié)底,ChatGPT能夠編造出6個(gè)不在的案例,還是因?yàn)樗逃械摹富糜X」問題。

          直白來講,就是張口胡說八道的天性所致。

          就連馬斯克都想拯救這個(gè)致命的問題,官宣推出了名為TruthGPT的AI平臺。

          馬斯克曾表示,TruthGPT將是一個(gè)「最大的求真人工智能」,它將試圖理解宇宙的本質(zhì)。


          然而,別管什么GPT,幻覺很難搞定。

          前段時(shí)間,OpenAI聯(lián)合創(chuàng)始人兼研究員John Schulman在演講「RL and Truthfulness – Towards TruthGPT」中,討論了幻覺產(chǎn)生的原因以及解決方案。


          根據(jù)Schulman的說法,幻覺大致可以分為兩種類型:

          1 模式完成行為,即語言模型無法表達(dá)自己的不確定性,無法質(zhì)疑提示中的前提,或者繼續(xù)之前犯的錯(cuò)誤

          2 模型猜測錯(cuò)誤

          語言模型代表一種知識圖譜,該圖譜將訓(xùn)練數(shù)據(jù)中的事實(shí)存儲在自己的網(wǎng)絡(luò)中。而微調(diào)可以理解為「學(xué)習(xí)一個(gè)函數(shù)」,能夠在知識圖譜上操作并輸出token預(yù)測。

          比如,微調(diào)數(shù)據(jù)集中,如果有包含「星球大戰(zhàn)是什么片?」這個(gè)問題,以及「科幻」這個(gè)答案。


          要是這一信息在原始訓(xùn)練數(shù)據(jù)中存在,那么模型就不會學(xué)習(xí)新信息,而是學(xué)習(xí)一種行為——輸出答案。而這種微調(diào)也被稱為「行為克隆」。

          如果「星球大戰(zhàn)是什么片?」這一問題的答案不是原始訓(xùn)練數(shù)據(jù)的一部分。即便不知道,模型也會學(xué)習(xí)正確答案。

          但問題是,使用這些不在知識圖譜中的答案進(jìn)行微調(diào),就會讓模型學(xué)會編造答案,即產(chǎn)生所謂的「幻覺」。

          相反,要是用不正確的答案去訓(xùn)練模型,就會導(dǎo)致模型知識網(wǎng)絡(luò)隱瞞信息。

          網(wǎng)友熱評

          此事一出,各位網(wǎng)友也是各抒己見。

          Kim表示,不光是ChatGPT,其實(shí)人類也愛用想象來彌補(bǔ)知識盲區(qū)。只不過ChatGPT能裝的更逼真。關(guān)鍵在于,要搞清楚ChatGPT知道什么、不知道什么。


          Zero提出了一個(gè)很有建設(shè)性的提議,那就是:以后ChatGPT再舉事例,后面得附上來源鏈接。


          Francis表示,早說過了,ChatGPT是一種生成式人工智能。意味著它會根據(jù)輸入的問題生成回答。無論它有多能模仿人類在理解問題后的精彩回答,也改變不了ChatGPT本身并不理解這個(gè)問題的事實(shí)。


          Tricorn認(rèn)為,這位原告律師不應(yīng)該把鍋扔給ChatGPT,是他自己用錯(cuò)了。應(yīng)該是把事例當(dāng)作prompt的一部分輸入進(jìn)去,然后讓ChatGPT填補(bǔ)中間缺環(huán)的論證部分。


          還有網(wǎng)友稱,用ChatGPT要上點(diǎn)心,要不下一個(gè)超級碗就是你了。


          這就是活靈活現(xiàn)的證據(jù)。ChatGPT等人工智能工具做人類的工作,真的是可能直接導(dǎo)致我們的大災(zāi)難。


          對于ChatGPT這個(gè)表現(xiàn),你怎么看?

          參考資料:

          https://.theverge.com/2023/5/27/23739913/chatgpt-ai-lawsuit-avianca-airlines-chatbot-research

          https://.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.htm

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章