梁振輝 香港資深出版人

「網絡爬蟲(web crawler)」是一個AI技術術語——一種自動瀏覽全球資訊網的程式,其主要目的是抓取網頁內容,並將這些內容儲存起來供日後使用。此舉是否不違法呢?

AI利用「爬蟲」方式在網絡上抓取所需資訊無疑方便、省時兼省錢。然而,AI通過改寫後生成的輸出,即便列舉引用(一般提供超連結),亦有可能構成侵權,後果可大可小。以下是近幾星期的三則相關報道:

1.Anthropic盜用700萬本書以訓練其語言模型Claude,正面臨版權擁有者兆元級盜版訴訟。

2.Perplexity被《華爾街日報》與《紐約郵報》控告侵犯版權。

3.「日本讀賣新聞社」於東京地方法院向Perplexity提起訴訟——指出該AI於2025年2月至6月期間,在未經授權下從它們的文章,取得所需資料,數量高達119,467篇;並在回覆用戶查詢中使用與原文類似的內容,侵犯了著作權法上的複製權與公眾傳送權。此舉威脅新聞業版權和商業利益;除即時禁止該AI使用及刪除相關內容外,並要求其作出賠償。

就在今年年初,DeepSeek引發全球AI熱之際,筆者曾向多家中外AI查詢:

1.大型語言模型進行文本資料訓練的資料從何而來?

2.AI摘取網頁內容且列明出處會否構成侵權?

上述問題的回覆綜合如下:

大型語言模型利用龐大的文本資料進行訓練,這些資料來自:

•開放網絡資料(如:維基百科、百度、公開論壇、Instagram、YouTube、新聞網站)

•開放授權資料

•公有領域書籍或文獻

•合作夥伴或授權的專業資料集

這些資料並不是完全沒有版權,除了:

•公有領域或開放授權

•雖有版權,但被認為可以在公平使用原則(Fair Use)下用於訓練

如果AI只是摘取網頁內容並列明出處,通常不構成侵權,是因為:

•屬於「合理評論/新聞報道」性質

•不會完整複製原文,只屬轉述與重新表達;但若AI逐字複製或大量展示受版權保護的內容,即使有列明出處,也可能構成侵權。

總而言之,列明出處不等於自動合法,但目前法律對於「用於AI訓練是否屬於合理使用」仍有爭議。基本上,所查詢的AI均表示認同侵權問題的存在性,那為何仍明知故犯呢?無他,資料來源不離:

書籍——涵蓋各種類型和主題的各種文本。

網站——不同領域和主題的網站的文本。

所需資訊量龐大,致令AI無從自家編寫專有數據;在大勢所趨下,AI不得不訴諸「竊取」受版權保護的資料。這個問題本質上是無法解決的,AI只能「見招拆招」,在被追究後與版權所有者協商版權問題。

筆者在出版界及報界打滾逾四十年,如果從版權角度去看現時「AI爬蟲」的手法,界定為不違法是一個冠冕堂皇卻實則瞞天過海的講法。AI在大部分情況下未經版權所有者同意,便進入人家的地頭「爬蟲」。在瀏覽一番後,如看到適用的就拿回去備用;到了有相關的查詢時,AI便東拼西湊、再來個綜合改寫,一份得體且附上引文超連結的文稿就此輕鬆生成。為此,不少媒體已形容那些極其倚重「爬蟲」的AI為小偷。誠然,世上沒有免費午餐,目前愈來愈多來自各方的版權所有者已不像從前般任由牟利的AI無度地侵蝕其利益,還有不少國家已着手立法去遏止相關歪風。如此看來,「過咗海就係神仙」的日子已在不知不覺間倒數了。