Classificazione dei data set utilizzati per ChatGPT

I dati utilizzati per il pre-addestramento di Chat GPT provengono da sei principali fonti:

La selezione dei data set utilizzati per il pre-addestramento di Chat GPT è un passaggio cruciale per garantire una buona qualità del modello finale. In particolare, è importante scegliere fonti di dati che siano rappresentative di un’ampia gamma di argomenti e che contengano testi scritti in modo chiaro e coerente.

In questo contesto, le sei fonti identificate dallo studio sono tutte di grande valore. Le riviste scientifiche, ad esempio, offrono un’ampia gamma di argomenti, spesso trattati in modo rigoroso e tecnico. Le raccolte aperte di libri, come Project Gutenberg e SmashWords, sono una fonte preziosa di testi letterari e storici. Wikipedia è una risorsa inesauribile di informazioni, che copre un’ampia gamma di argomenti e che è stata scelta anche per la sua alta qualità di scrittura.

I post su Reddit offrono un’opportunità per acquisire dati informali e colloquiali, che possono essere utili per migliorare la capacità del modello di comprendere e generare conversazioni informali. Il Common Crawl, invece, è un database di pagine web archiviate dal 2008, che copre una vasta gamma di argomenti e che è stato scelto per la sua vastità e diversità. Infine, l’utilizzo di altri dataset [sfondone eliminato – NdR] può essere un’ulteriore risorsa per arricchire la varietà dei dati utilizzati.

[riscrittura ed espansione a cura di Canva Magic Write di citazione da P. Ferri, “Cogito ergo digito“]

Lascia un commento