日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>汽車 >內(nèi)容

          字節(jié)OpenAI賬號被封禁,這事兒到底誰錯(cuò)了?

          2023-12-19 17:47:19來源:
          導(dǎo)讀 不知道各位差友聽說沒,字節(jié)的 OpenAI 賬號,被封了。。。根據(jù) OpenAI 的說法,就在上周五,他們暫停了字節(jié)的賬號,具體發(fā)生了啥,現(xiàn)在...

          不知道各位差友聽說沒,字節(jié)的 OpenAI 賬號,被封了。。。

          根據(jù) OpenAI 的說法,就在上周五,他們暫停了字節(jié)的賬號,具體發(fā)生了啥,現(xiàn)在也還在進(jìn)一步調(diào)查中。

          世超也去查了查,發(fā)現(xiàn)事情,是由外媒 The Verge 的一則報(bào)道引起的。

          據(jù)報(bào)道,字節(jié)跳動正在悄地用 OpenAI 的 API ,做一些 “ 不太光彩 ” 的事兒。

          和大伙們用 AI 水周報(bào),糊弄領(lǐng)導(dǎo)不一樣,按照 The Verge 的說法,字節(jié)直接在用 OpenAI 訓(xùn)練自家的大模型

          一般遇到類似傳言,世超不會太在意,畢竟套殼大模型、用別家大模型訓(xùn)練自家大模型等等,相關(guān)的消息隔三岔五就會來那么一次。

          而且都是一些風(fēng)言風(fēng)語,沒啥實(shí)錘,也沒啥后續(xù)。

          但這次不一樣了,報(bào)道里的內(nèi)部消息,至少看起來都賊真。

          他們說是弄到了字節(jié)內(nèi)部泄露的一份文件。

          里面主要講了字節(jié)的大模型項(xiàng)目—— “ 種子計(jì)劃 ” 的開發(fā)過程,幾乎在每個(gè)階段,包括訓(xùn)練還有評估,字節(jié)的大模型都用了 OpenAI 的 API 。

          另外,像是怎么 “ 通過數(shù)據(jù)脫敏,不被人抓到小尾巴 ” 這類的內(nèi)部飛書聊天記錄,也都給曝出了。

          再加上 OpenAI 的直接封號,還真有點(diǎn)坐實(shí)了報(bào)道里內(nèi)容的味道。

          反正一時(shí)間,網(wǎng)友們都紛紛出來吃瓜,各種陰陽國產(chǎn)大模型的言論都出來了——

          “ 怪不得國產(chǎn)大模型們一個(gè)個(gè)都開發(fā)得這么快,原來是在偷師 GPT ??? ” “ 國內(nèi)的大模型都一股 GPT 味兒,原來問題出在這兒。 ”

          國內(nèi)媒體們都一股腦兒地轉(zhuǎn)載報(bào)道,話題還一度飆上了知乎熱榜。

          而大伙們也應(yīng)該發(fā)現(xiàn)了,爭議的中心在于,字節(jié)可能調(diào)用 OpenAI API 給自家大模型生成訓(xùn)練數(shù)據(jù)。

          說實(shí)話,相較與簡單粗暴,甚至有些無底線的套殼,這手段,其實(shí)文明了不少了。。。

          在大模型領(lǐng)域里,我們一般叫它大模型知識蒸餾。

          從名字來看,估計(jì)各位差友也能猜出來個(gè)一二三,就是用已經(jīng)訓(xùn)練得差不多的先進(jìn)大模型,生成一些優(yōu)質(zhì)語料,然后再把生成的這些語料喂給更小模型。

          說好聽點(diǎn),大模型的知識蒸餾,是幫大家省了前期標(biāo)注數(shù)據(jù)、提取優(yōu)質(zhì)語料庫的功夫,說難聽點(diǎn),這就是在吃別人已經(jīng)嚼爛的食物,好偷懶省力。

          看到這兒,肯定有人會說了,大模型做出來,不就是讓人用的么,用戶愛咋用咋用,這波字節(jié)沒做錯(cuò)啥???

          話是這么說,但是 OpenAI 早就料到了這一手,為了防止自己的數(shù)據(jù)被薅、被蒸餾, OpenAI 在自家的服務(wù)協(xié)議早就埋伏上了。

          不只有企業(yè),包括個(gè)人開發(fā)者在內(nèi), OpenAI 都禁止他們用 OpenAI 的大模型,去開發(fā)競品。

          普通用戶那兒, OpenAI 也沒放過。

          它給 ChatGPT 和 DALL·E 都套上了枷鎖,同樣也不讓用輸出的內(nèi)容,訓(xùn)練與 OpenAI 競爭的模型。

          只要你違反上面那些規(guī)定了,按照官方的說法,就只是提前知會一聲,隨時(shí)終止服務(wù)。

          這些條例就跟唐僧念符之下的緊箍咒一樣,越來越緊。。。咱明眼人也都能看出 OpenAI 在自家 “ 數(shù)據(jù)安全 ” 這塊是下狠招了。

          雖說字節(jié)用的 API 不是從 OpenAI 這邊直接買的,而是買的微軟 Azure 上的云服務(wù) Azure OpenAI 。

          但從微軟那邊買,同樣也是受這個(gè)協(xié)議約束。

          或許是因?yàn)檫@些原因,才有了開頭先封號處理,再進(jìn)一步調(diào)查字節(jié)的局面。

          看著這一盆盆 “ 臟水 ” 潑過來,字節(jié)也沒干坐著,在周末加班一一給出了回應(yīng)。

          首先,他們稱在開發(fā)大模型的時(shí)候,只是在初期探索階段用了 GPT 的 API 服務(wù),并且探索階段的模型還只是測試,沒有上線對外使用。

          并且根據(jù)字節(jié)的說法,今年四月份他們內(nèi)部就明確規(guī)定,不能用 GPT 生成的數(shù)據(jù)訓(xùn)練自己的大模型。

          更重要的是,他們說九月份內(nèi)部還搞了個(gè)檢查,主要的任務(wù)就是看他們的訓(xùn)練數(shù)據(jù)和 GPT 的相似程度。

          未來幾天里,他們還準(zhǔn)備再來一次全面檢查,以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。

          到現(xiàn)在為止,反正各方的回應(yīng)是一籮筐,至于字節(jié)到底有沒有違反 OpenAI 的服務(wù)協(xié)議,從現(xiàn)在的信息來看我們也做不出啥判斷,只能等后續(xù)雙方溝通的結(jié)果。

          不過,在訓(xùn)練大語言模型這塊,數(shù)據(jù)來源的爭議其實(shí)一直都蠻大。

          OpenAI 訓(xùn)練大模型的時(shí)候,也曾在數(shù)據(jù)上栽了不少跟頭。

          就比如 ChatGPT ,它主要就是爬取一些社交媒體網(wǎng)站、或者論壇、貼吧上的數(shù)據(jù)。

          剛開始,這些數(shù)據(jù)他們都是免費(fèi)爬的,但后來 OpenAI 的 ChatGPT 還有 DALL·E 慢慢出圈,一些問題就連帶著浮出水面了。

          這兩個(gè)大模型爆火的那段時(shí)間, OpenAI 吃的官司是一個(gè)接一個(gè)。

          文生圖大模型被各種圖片網(wǎng)站、藝術(shù)家們,大語言模型被社交平臺上的博主索賠。。。

          與此同時(shí),各大平臺也都開始注重?cái)?shù)據(jù)價(jià)值,像是美版貼吧 Reddit ,還有程序員問答網(wǎng)站 StackOverflow 等等這種優(yōu)質(zhì)語料多的網(wǎng)站,都開始設(shè)置付費(fèi)門檻,交錢才能爬取數(shù)據(jù)。

          但在此時(shí) OpenAI 的大模型已經(jīng)發(fā)育起來了,過去網(wǎng)絡(luò)上的數(shù)據(jù)該爬的也都爬了。

          這下就苦了那些后來者,前期還不僅要做一些標(biāo)注語料庫的重復(fù)勞動,還得付費(fèi)再爬一遍數(shù)據(jù)。

          不過世超覺得,這次真如 The Verge 報(bào)道中說的,那這個(gè) “ 鍋 ” 鐵定還是要字節(jié)來背,畢竟相關(guān)的條例,早就寫在協(xié)議里了,拿人家的手短,人家還真有理。

          最后,世超想說的是,自從大模型流行以來,業(yè)內(nèi)類似的爭議也好、丑聞也好,其實(shí)基本就沒斷過。

          就比如前不久,李開復(fù)的大模型 Yi 被扒出是 “ 套殼 ” Meta 的 LLaMA ,雖說后者也是開源的,但要用也得注明。

          但李開復(fù)還是在網(wǎng)上輿論發(fā)酵之后,才不痛不癢地回應(yīng)了句命名疏忽。。。

          更離譜的是,大模型內(nèi)部還和機(jī)圈兒一樣,流行起了跑分熱。

          有的企業(yè)為了讓自己的模型分?jǐn)?shù)更好看一點(diǎn),直接搞起了小動作。

          前段時(shí)間谷歌的Gemini ,為了讓自家模型的分?jǐn)?shù)比 GPT-4 好看,在測試方法上就動了些手腳。

          國內(nèi)某團(tuán)隊(duì)也曾發(fā)布過技術(shù)報(bào)告,里面明晃晃地指出了大模型刷榜的亂象。

          他們直接把測評的題目,先喂給了自家大模型。

          相當(dāng)于是開卷刷榜,讓自家的大模型在一群 “ 做題家 ” 中脫穎而出。

          當(dāng)然,新興領(lǐng)域一開始都是亂象叢生,有這些丑聞也不是啥新鮮事兒。

          世超也希望,未來,大模型廠商們能主打一個(gè)誠實(shí),別今天暴打 GPT-4 ,明天又暴打 OpenAI 的了。

          還有用了誰誰誰的數(shù)據(jù),用了哪些開源資源,也大大方方承認(rèn),作為一個(gè)追趕者、學(xué)習(xí)者,其實(shí)沒啥丟臉的。。

          再回到字節(jié)和 OpenAI 這檔子事兒,要是真相水落石出,字節(jié)確實(shí)是被冤枉,世超也希望 OpenAI 和媒體們能立馬化身墻頭草,還字節(jié)一個(gè)清白。

          少一些套路,多一些真誠,大模型可以有幻覺,人嘛,還是實(shí)誠點(diǎn)好。

          撰文:松鼠編輯:江江封面:煥妍

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章