I dati utilizzati per il pre-addestramento di Chat GPT provengono da sei principali fonti:
- Riviste scientifiche;
- Raccolte aperte di libri (Project Gutenberg, SmashWords);
- Wikipedia;
- Post su Reddit:
- Common Crawl, un database di pagine web archiviate dal 2008
- Altri dataset (Thompson, 2022)
La selezione dei data set utilizzati per il pre-addestramento di Chat GPT è un passaggio cruciale per garantire una buona qualità del modello finale. In particolare, è importante scegliere fonti di dati che siano rappresentative di un’ampia gamma di argomenti e che contengano testi scritti in modo chiaro e coerente.
In questo contesto, le sei fonti identificate dallo studio sono tutte di grande valore. Le riviste scientifiche, ad esempio, offrono un’ampia gamma di argomenti, spesso trattati in modo rigoroso e tecnico. Le raccolte aperte di libri, come Project Gutenberg e SmashWords, sono una fonte preziosa di testi letterari e storici. Wikipedia è una risorsa inesauribile di informazioni, che copre un’ampia gamma di argomenti e che è stata scelta anche per la sua alta qualità di scrittura.
I post su Reddit offrono un’opportunità per acquisire dati informali e colloquiali, che possono essere utili per migliorare la capacità del modello di comprendere e generare conversazioni informali. Il Common Crawl, invece, è un database di pagine web archiviate dal 2008, che copre una vasta gamma di argomenti e che è stato scelto per la sua vastità e diversità. Infine, l’utilizzo di altri dataset [sfondone eliminato – NdR] può essere un’ulteriore risorsa per arricchire la varietà dei dati utilizzati.
[riscrittura ed espansione a cura di Canva Magic Write di citazione da P. Ferri, “Cogito ergo digito“]
