Kohtusse on jõudnud mitu vaidlust, mis puudutavad autoriõiguse rikkumist tehisintellekti mudelite treenimisel. Sellest, mida on seni otsustatud, kirjutavad meie nõunik ja vandeadvokaat Olivia Kranich ning jurist Elena Hanna Septer Delfi Ärilehes.
Tehisintellekti generatiivsete mudelite treenimiseks kasutatakse suuri andmekogumeid, mis sisaldavad hulganisti autoriõigusega kaitstud teoseid. Autoritel on üldiselt ainuõigus lubada ja keelata oma teoste mis tahes viisil kasutamist.
Siiski kehtib 2019. aastal jõustunud autoriõigust digitaalsel ühtsel turul käsitlevast DSM direktiivist tulenevalt Euroopa Liidu üleselt teksti- ja andmekaeve erand, mis lubab autori nõusolekuta ja autoritasu maksmiseta õiguspäraselt juurdepääsetava teose reprodutseerimist teksti- ja andmekaeve eesmärkidel. Erand kehtib eeldusel, et autor ei ole aktiivse tahteavaldusega ehk sõnaselgelt kohasel viisil välistusega teksti- ja andmekaevet keelanud.
Millal võib olla tegemist autoriõiguse rikkumisega?
Praktikas on tõusetunud küsimus – kas autoriõigusega kaitstud teoste kasutamine tehisintellekti treenimisel mahub teksti- ja andmekaeve erandi alla? GEMA vs. OpenAI kohtuasjas kinnitas Saksamaa kohus, et tehisintellekti keelemudelid kuuluvad teksti- ja andmekaeve erandi kohaldamisalasse ehk üldiselt on teksti- ja andmekaeve keelemudelite treenimiseks lubatud. Kohus täpsustas siiski, et erand ei laiene olukorrale, kus autoriõigusega kaitstud teoseid mudelis reprodutseeritakse.
Kohtu hinnangul on teksti- ja andmekaeve erandi eesmärk lubada tehisintellekti mudelite treenimiseks vajalikke reprodutseerimistoiminguid treeningandmestiku koostamisel, näiteks teose teisendamist teise vormingusse või selle ajutist salvestamist mudeli treenimisprotsessi käigus kasutatavasse töömällu. Selliseid tehnilist laadi reprodutseerimistoiminguid tehakse üksnes treeningandmete hilisema analüüsi eesmärgil, mistõttu ei ole tegemist autorite õiguste kahjustamisega.
Kui aga tehisintellekti mudelite treenimine ei piirdu üksnes teabe eraldamisega treeningandmetest, vaid hõlmab teoste reprodutseerimist või salvestamist laiemalt kui analüüsiks tehniliselt vajalikud reprodutseerimistoimingud, erand ei kohaldu ja tegemist on autoriõiguse rikkumisega. Sisuliselt ütles kohus, et teksti- ja andmekaeve võimaldamiseks teose tehniliselt vajalik reprodutseerimine on lubatud, kuid teoste kui treeningandmete reprodutseerimine mudelites endis ilma asjaomaste autorite loata on keelatud.
GEMA ja OpenAI vaidluses toimus kohtu hinnangul laulusõnade meeldejätmine (inglise keeles memorisation), mis on käsitatav teose reprodutseerimisena ja läks kaugemale teksti- ja andmekaeve erandi eesmärgist. Kuivõrd laulusõnad olid kasutaja päringu alusel väljundis taasesitatavad, pidid need laulusõnade pikkust ja keerukust arvestades olema mudelisse meelde jäetud ja sellest piisab leidmaks, et toimunud on lubamatu reprodutseerimine.
Seevastu Getty Images vs. Stability AI kohtuasjas leidis Ühendkuningriigi kohus poolte esitatud tõendite valguses, et Stable Diffusioni mudelis ei reprodutseeritud autoriõigusega kaitstud fotosid. Mudeli treeningparameetrid sisaldasid üksnes statistilisi mustreid ja seoseid, mitte teoste reproduktsioone.
Kriitiline on eristada õppimist ja meeldejätmist
Viidatud kaks kaasust näitavad, et autoriõiguse vaatenurgast on kriitiliselt tähtis eristada õppimist ja meeldejätmist. Teksti- ja andmekaeve erandi kohaselt on lubatud kasutada autoriõigusega kaitstud teoseid tehisintellekti mudelite õpetamisel ning selle käigus on lubatud ka teoste ajutine reprodutseerimine tehnilistel põhjustel. Ilma autori loata on aga keelatud meeldejätmine ehk autoriõigusega kaitstud teoste väljendusvormide funktsionaalne säilimine mudeli parameetrites viisil, mis võimaldab nende äratuntavat või taastatavat genereerimist.
Praktilisest vaatepunktist on aga seni lahendamata küsimus, mis saab juhul, kui tehisintellekt genereerib, ilma autoriõigusega kaitstud teoseid kopeerimata või meelde jätmata, üksnes matemaatiliste mudelite põhjal juhuslikult väljundi, mis osutub identseks varasema autoriõigusega kaitstud teosega. Kas sellisel juhul on tegemist autoriõiguse rikkumisega?
Selliseid juhuslikke rikkumisi oleks võimalik vältida, võrreldes tehisintellekti väljundeid enne nende kasutajale kuvamist olemasolevate autoriõigusega kaitstud teostega. Selliselt töötavad näiteks Youtube Content ID ja Meta Rights Manager. See aga eeldab, et toimub autoriõigusega kaitstud teoste meeldejätmine, mida tänase kohtupraktika valguses võidakse pidada rikkumiseks. On paradoksaalne, et rikkumiste vältimiseks meeldejätmine võib olla ise rikkumisena käsitatav.
Kas tulevikku vaatavalt on sel üldse tähtsust?
Generatiivse tehisintellekti areng liigub suunas, kus treeningandmed ja nende kasutamisviisid muutuvad. Uued mudelid tuginevad üha enam sünteetilistele andmetele. See vähendab autoriõiguse rikkumise riski treeningprotsessis isegi juhul, kui toimub meeldejätmine, kuna sünteetilised andmed ei ole hõlmatud autoriõigusega.
Samuti muutub treeningandmete kasutamise viis. Kuivõrd autoriõigusega kaitstud teoste meeldejätmine tehisintellekti mudelites ei ole tehniliselt vajalik, on juba täna mitmeid mudeleid, milles on võetud tarvitusele vajalikud meetmed meeldejätmise välistamiseks. GEMA vs. OpenAI otsuse valguses viivad vastavad muudatused eelduslikult sisse ka need teenusepakkujad, kes seda seni teinud ei ole.
Samal ajal on Euroopa Liit astunud regulatiivses plaanis samme, et õigusraamistik vastaks tehnoloogia arengule. Kaalukausil on ühelt poolt autoriõiguse kaitse ning teiselt poolt ülemaailmne konkurents tehnoloogia innovatsioonis. Hiljuti avaldatud Euroopa Komisjoni digipaketi (inglise keeles Digital Package) ettepanek on selgelt suunatud regulatiivsete piirangute lõdvendamisele innovatsiooni edendamise eesmärgil.
Loe digipaketist ja uutest ärivõimalustest lähemalt täispikast artiklist.