[轉貼] 紐時、CNN封殺ChatGPT 拒絕擷取新聞內容訓練AI

gravius

我還是單身貴族

鑽石好友

Rank: 26

UID: 741
帖子: 28221
積分: 12325
遊戲幣: 829951
貢獻值: 55850
榮銜
職務
職務
幫派
其他
閱讀權限: 200
性別: 男
在線時間: 1360 小時
入籍時間: 2022-11-7
最後登錄: 2023-12-19

16週年勳章

樓主大中小發表於 2023-8-26 00:08 只看該作者

紐時、CNN封殺ChatGPT 拒絕擷取新聞內容訓練AI

自由時報 2023/08/25 生成式人工智慧（AI）機器人ChatGPT的資料取用愈加受到爭議，包括紐約時報、美國有線電視新聞網（CNN）、路透以及澳洲廣播公司（ABC）知名新聞機構，都已封鎖開發ChatGPT的OpenAI，利用網路爬蟲程式擷取其網站內容，用於訓練其AI系統。6 L1 v% r7 D/ F+ O, e5 E; X

英國《衛報》25日報導，OpenAI的網路爬蟲程式「GPTBot」會掃描網頁，收集資料，用於AI大型語言模型以及內容生成。紐約時報封殺GPTBot的消息，最先由科技媒體《Verge》披露，《衛報》則是進一步發現，其他主要新聞媒體網站，包括CNN、路透、《芝加哥論壇報（Chicago Tribune）》、澳洲廣播公司（ABC）和旗下有多家地方出版物的「澳洲社區新聞集團（ACM）」，也都已禁止網路爬蟲在其網站抓取資料。

從這些網站的robots.txt檔案中，可見允許網路爬蟲程式造訪哪些頁面的程式碼。報導指出，這些新聞媒體都是在8月加入封鎖指令，除了ChatGPT，也不讓同樣用於AI的開放網路資料庫Common Crawl網路爬蟲CCBot訪問網頁。% X$ F. c5 y1 Y, _* q1 R
* u! n0 K8 G- q
像ChatGPT所用的大型語言模型，仰賴收集龐大資訊來訓練其人工智慧系統，使其能夠以類似人類語言模式回答使用者的問題，但是運作這些AI機器人的公司，對於其資料庫中存有版權內容的問題，都緊守口風。
* b& {# j; ^# e" |
CNN向澳洲版衛報證實，近期封鎖了GPTBot的訪問權，但是未評論對於將該網站內容用於AI系統是否會採取進一步行動。路透發言人說，該公司定期檢視其robots.txt檔和網站服務約定條款，「因為智慧財產是我們業務的命脈，我們勢必要保護我們內容的版權。」紐時公司發言人說，該網站服務約定條款最近更新，「更清楚表明禁止抓取我們的內容，用於AI訓練和開發」。

ChatGPT刮起生成式人工智慧機器人旋風後，全球新聞機構都正面臨是否使用人工智慧於新聞收集，以及其新聞內容可能被這類機器人開發公司收集用於訓練AI的問題。法新社和Getty Images等新聞、出版組織日前才簽署一份公開信，呼籲全球決策者和產業領導者，為生成式AI機器人制定規範，包括「生成AI模型所用訓練的所有內容的透明度」，以及使用有版權內容，須取得版權所有人同意等。
: j* |+ ?: n4 `: `/ B; a1 [
AI內容檢查工具OriginalityAI公司本週發表報告也指出，網路零售業巨擘「亞馬遜（Amazon）」公司、圖庫網站Shutterstock也都已封鎖GPTBot。衛報表示，該報網站並未封鎖GPTBot。ABC、ACM、芝加哥論壇報、OpenAI和Common Crawl尚未回應這篇報導。

[發帖際遇]: gravius買了一支iPhone花了遊戲幣559元。

TOP

‹‹ 上一主題 | 下一主題 ››