Classificazione dei data set utilizzati per ChatGPT

I dati utilizzati per il pre-addestramento di Chat GPT provengono da sei principali fonti:

Riviste scientifiche;
Raccolte aperte di libri (Project Gutenberg, SmashWords);
Wikipedia;
Post su Reddit:
Common Crawl, un database di pagine web archiviate dal 2008
Altri dataset (Thompson, 2022)

La selezione dei data set utilizzati per il pre-addestramento di Chat GPT è un passaggio cruciale per garantire una buona qualità del modello finale. In particolare, è importante scegliere fonti di dati che siano rappresentative di un’ampia gamma di argomenti e che contengano testi scritti in modo chiaro e coerente.

In questo contesto, le sei fonti identificate dallo studio sono tutte di grande valore. Le riviste scientifiche, ad esempio, offrono un’ampia gamma di argomenti, spesso trattati in modo rigoroso e tecnico. Le raccolte aperte di libri, come Project Gutenberg e SmashWords, sono una fonte preziosa di testi letterari e storici. Wikipedia è una risorsa inesauribile di informazioni, che copre un’ampia gamma di argomenti e che è stata scelta anche per la sua alta qualità di scrittura.

I post su Reddit offrono un’opportunità per acquisire dati informali e colloquiali, che possono essere utili per migliorare la capacità del modello di comprendere e generare conversazioni informali. Il Common Crawl, invece, è un database di pagine web archiviate dal 2008, che copre una vasta gamma di argomenti e che è stato scelto per la sua vastità e diversità. Infine, l’utilizzo di altri dataset [sfondone eliminato – NdR] può essere un’ulteriore risorsa per arricchire la varietà dei dati utilizzati.

[riscrittura ed espansione a cura di Canva Magic Write di citazione da P. Ferri, “Cogito ergo digito“]

Pensieri artificiali

Ad agentività disumana, ossia statisticamente probabilistica sulla base di BigCorpora.

Classificazione dei data set utilizzati per ChatGPT

Lascia un commento Cancella risposta

Classificazione dei data set utilizzati per ChatGPT

Condividi:

Correlati

Lascia un commento Cancella risposta