L’azienda OpenAI ha recentemente ammesso che sarebbe impossibile addestrare i moderni modelli di intelligenza artificiale senza l’accesso a contenuti protetti da copyright, come libri e fotografie. Inoltre, ha affermato che questi modelli basati sull’IA hanno bisogno di grandi quantità di dati per poter riconoscere e imparare gli schemi.

OpenAI utilizza tre tipi di dati per addestrare i suoi modelli: informazioni disponibili pubblicamente su Internet, dati concessi in licenza da terze parti e informazioni fornite dagli utenti e dal personale di addestramento. Limitare i dati di addestramento ai materiali di pubblico dominio e ai disegni creati oltre un secolo fa sarebbe interessante, ma non sufficiente per soddisfare le esigenze odierne, secondo l’azienda.

Inoltre, OpenAI ha adottato misure per escludere siti web e immagini create da professionisti dal proprio modello. L’azienda sostiene che l’utilizzo dei contenuti di Internet per addestrare i modelli di IA rientra nel principio di “fair use”, senza la necessità di autorizzazione esplicita.

Intanto, la Commissione Europea sta valutando se l’investimento di Microsoft in OpenAI violi le norme antitrust. Questa valutazione richiederà ancora diverse settimane prima di giungere a una conclusione.

