風之國論壇 - Powered by Discuz! Board

標題: [轉貼] 紐時、CNN封殺ChatGPT 拒絕擷取新聞內容訓練AI [打印本頁]

作者: gravius 時間: 2023-8-26 00:08 標題: 紐時、CNN封殺ChatGPT 拒絕擷取新聞內容訓練AI

自由時報 2023/08/25 生成式人工智慧（AI）機器人ChatGPT的資料取用愈加受到爭議，包括紐約時報、美國有線電視新聞網（CNN）、路透以及澳洲廣播公司（ABC）知名新聞機構，都已封鎖開發ChatGPT的OpenAI，利用網路爬蟲程式擷取其網站內容，用於訓練其AI系統。. J6 n& d9 U; o7 u. C
- ]9 P5 M/ V& L; I/ [: @. C- M
英國《衛報》25日報導，OpenAI的網路爬蟲程式「GPTBot」會掃描網頁，收集資料，用於AI大型語言模型以及內容生成。紐約時報封殺GPTBot的消息，最先由科技媒體《Verge》披露，《衛報》則是進一步發現，其他主要新聞媒體網站，包括CNN、路透、《芝加哥論壇報（Chicago Tribune）》、澳洲廣播公司（ABC）和旗下有多家地方出版物的「澳洲社區新聞集團（ACM）」，也都已禁止網路爬蟲在其網站抓取資料。
3 l# y! D; G. G8 n( K" X3 G5 B1 P
從這些網站的robots.txt檔案中，可見允許網路爬蟲程式造訪哪些頁面的程式碼。報導指出，這些新聞媒體都是在8月加入封鎖指令，除了ChatGPT，也不讓同樣用於AI的開放網路資料庫Common Crawl網路爬蟲CCBot訪問網頁。* i+ `4 Z) e8 x0 T

像ChatGPT所用的大型語言模型，仰賴收集龐大資訊來訓練其人工智慧系統，使其能夠以類似人類語言模式回答使用者的問題，但是運作這些AI機器人的公司，對於其資料庫中存有版權內容的問題，都緊守口風。9 M3 D2 ]1 r6 Z9 c4 E
( f" p) f5 V5 f& A
CNN向澳洲版衛報證實，近期封鎖了GPTBot的訪問權，但是未評論對於將該網站內容用於AI系統是否會採取進一步行動。路透發言人說，該公司定期檢視其robots.txt檔和網站服務約定條款，「因為智慧財產是我們業務的命脈，我們勢必要保護我們內容的版權。」紐時公司發言人說，該網站服務約定條款最近更新，「更清楚表明禁止抓取我們的內容，用於AI訓練和開發」。1 t2 X( N& ?; D

ChatGPT刮起生成式人工智慧機器人旋風後，全球新聞機構都正面臨是否使用人工智慧於新聞收集，以及其新聞內容可能被這類機器人開發公司收集用於訓練AI的問題。法新社和Getty Images等新聞、出版組織日前才簽署一份公開信，呼籲全球決策者和產業領導者，為生成式AI機器人制定規範，包括「生成AI模型所用訓練的所有內容的透明度」，以及使用有版權內容，須取得版權所有人同意等。

AI內容檢查工具OriginalityAI公司本週發表報告也指出，網路零售業巨擘「亞馬遜（Amazon）」公司、圖庫網站Shutterstock也都已封鎖GPTBot。衛報表示，該報網站並未封鎖GPTBot。ABC、ACM、芝加哥論壇報、OpenAI和Common Crawl尚未回應這篇報導。

[發帖際遇]: gravius買了一支iPhone花了遊戲幣559元。

歡迎光臨風之國論壇 (http://wind.talkapple.net/)