In questo repository potete trovare un semplice esempio di Machine Learning.
Si tratta di due modelli per la classificazione dei dati, addestrabili su dataset semplici da creare.
Il loro scopo è, fornito in input il nome di un file, identificare se questo file sia un film o un’episodio di una serie tv ed eventualmente, a quale serie tv appartenga.
Utilizzando le librerie pandas (per la gestione del dataset di input), scikit-learn (per la costruzione e la validazione del modello) e joblib (per salvare e caricare il modello), si è creato due script python: uno per il training del modello e l’altro per la previsione dei nuovi input.
Questa soluzione utilizza un semplice classificatore Naive Bayes con vettorizzazione TF-IDF per prevedere se un dato nome file è probabile che sia associato a un film o a uno serie tv in base ai dati di training.
È possibile estendere e migliorare questo modello utilizzando algoritmi più sofisticati, funzionalità aggiuntive e set di dati più grandi per prestazioni migliori.
Ogni modello è corredato da un semplice script in bash che (basato sulla struttura di una ipotetica videoteca) costruisce il dataset su cui poi i modelli andranno addestrati.
Entrambi gli script di training permettono di addestrare i modelli su nuovi dati, senza necessità di dover ripetere l’addestramento da capo.
Il repository è provvisto di un README che dovrebbe coprire ogni aspetto significativo per l’implementazione ed il funzionamento.