OpenAI 在2022年末推出的 ChatGPT 掀起一股熱潮,短短幾個月使用者數量就超過一億人。 不過剛剛看到 Time最近這篇「Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic」報導,想到其實 ChatGPT 這類 AI 訓練,需要先從網路蒐集巨量的文字,成為 AI 學習素材(dataset),此外還需要透過很多人力一一標記文字建立機制,才能讓推出來的服務對話內容不至於有種族或性別歧視問題,進而維持某種中立價值觀。 請問:OpenAI 將網路上各種資料蒐集起來,成為訓練自己 AI 系統的學習素材,這樣的是否侵害到各資料的著作權所有人的權利?如果有,侵害到的是什麼權利?是著作權還是單純不希望自己作品成為 AI 訓練基底素材的的權利?判斷上會受到是手動加入還是機器自動納入而有所不同嗎? (至於這些著作的所有人怎麼知道自己作品被拿去成為訓練素材,應該又是另一件事情了。)