本論壇文章反映作者意見,不代表《遠見》立場

子導覽列
首頁 > 產業創新 > 張瑞雄台北 > AI需要訓練資料,網站只能任憑擺布?

AI需要訓練資料,網站只能任憑擺布?

發文時間: 2023/10/04   文 / 張瑞雄台北 瀏覽數 / 2,450+

生成式AI,如ChatGPT,之所以那麼厲害,是因為用了大量的網路資料去訓練,但用網路資料是否先需要事先取得同意,一直是在灰色地帶,AI公司希望這屬於所謂的合理使用(Fair Use)範圍,網站內容公司當然不這樣認為。

最近,網路媒體平台Medium宣布,將阻止OpenAI的GPTBot,該程式會抓取網頁,以獲取用於訓練該公司AI模型的內容,接著一群平台可能很快就會形成統一戰線,反對AI公司對其內容的利用。

Medium與CNN等媒體,拒絕網路爬蟲和索引器

Medium與CNN、《紐約時報》和許多其他媒體機構,一起拒絕網路爬蟲和索引器,雖然這樣,也會讓網站不會被谷歌建立起索引,因此也不會被搜尋到,會減少曝光率。

AI廠商所做的不僅僅是索引,他們抓取網站資料,作為模型訓練的來源材料,很少有人對此感到高興,Medium執行長寫道:「我不是仇恨者,但我也想坦白地說,生成式AI的當前狀態,並沒有為網路帶來淨收益。他們在未經您同意的情況下,透過您的寫作賺錢,也不會向您提供報酬和感謝。AI公司從作家那裡榨取價值,以便向網路讀者發送重組的資訊。」

因此,當OpenAI的爬蟲來襲時,Medium的標準作法就是告訴OpenAI滾蛋,可惜OpenAI只是少數尊重內容網站要求的公司之一。

然而,這種本質上自願的作法,不太可能對垃圾郵件發送者和其他不理會請求者的行為產生影響。儘管內容網站也有可能採取某些積極措施(例如,引導愚蠢的網路爬蟲,去拿虛假內容來毒害他們的資料),但這種方式會導致衝突升級和額外費用,以及可能的訴訟。

不過,還有希望,媒體並不孤單。很多平台正在形成聯盟,互享討論合作,以幫助弄清楚AI時代合理使用的未來。很多大型網站都已加入,但他們還沒有準備好曝光。

所有網站都面臨同樣的問題,就像科技領域的許多事情一樣,更多人在一個標準或平台上保持一致的意見,會產生網路效應,並改善每個人的結果,大型組織的聯盟,將成為對不擇手段的AI平台形成強大制衡。

多產業的合作伙伴關係,總是發展緩慢

但這制衡力量尚未發生,是什麼阻礙了他們?不幸的是,出於你可能想像到的各種原因,多產業的合作伙伴關係總是發展緩慢。以出版和版權的標準來看,AI絕對是全新的,有無數的法律和道德問題,沒有明確的答案,更不用說問題的解決,和一個廣泛接受的答案。

當智慧財產權和版權的定義不斷變化時,您如何建立智慧財產權保護伙伴關係?當你的董事會正在努力,利用AI為公司帶來經營優勢的同時,你怎麼能禁止AI的使用呢?

可能需要像維基百科這樣的網路大猩猩,才能邁出大膽的第一步,並打破僵局,其他組織可能會因商業利益而受到阻礙,但也有其他組織不受此類問題的阻礙,可以安全地公開反對AI爬蟲,而不必擔心讓股東失望。但在有人站出來之前,網站將繼續受到AI的擺布,它們會根據自己的利益,來尊重或忽視我們是否同意。

👉 掌握議題動向,一起加入《遠見》 Line官方帳號

本文章反映作者意見,不代表《遠見》立場

作者為台北商大前校長、叡陽資訊數位轉型大使)