Formato dati CSV
Come preparare i dati dei tuoi sensori per il training con Luviner.
Formato base
Luviner accetta file CSV standard con queste regole:
- Riga di intestazione obbligatoria — la prima riga deve contenere i nomi delle colonne
- Feature — tutte le colonne tranne l'ultima sono trattate come feature di input (numeriche)
- Etichetta — l'ultima colonna è la classe (stringa o intero)
- Separatore — la virgola (
,) è di default; punti e virgola e tab vengono rilevati automaticamente
- Codifica — UTF-8
feature_1,feature_2,feature_3,label
0.12,0.98,0.34,normal
2.34,1.87,4.56,anomaly
Requisiti
| Parametro |
Minimo |
Consigliato |
Massimo |
| Campioni (righe) |
20 |
500+ |
200,000 |
| Feature (colonne) |
1 |
4 – 50 |
1,000 |
| Classi |
2 |
2 – 10 |
50 |
| Dimensione file |
— |
< 10 MB |
50 MB |
Consigli sulla qualità dei dati
- Classi bilanciate — cerca di avere all'incirca lo stesso numero di campioni per classe. Uno split 90/10 fa pendere il modello verso la classe maggioritaria.
- Niente valori mancanti — riempi o rimuovi le righe con NaN o celle vuote prima dell'upload.
- Feature numeriche — tutte le colonne feature devono essere numeriche. Luviner normalizza automaticamente.
- Frequenza di campionamento costante — se i tuoi dati sono temporali, usa un intervallo di campionamento fisso.
- Etichette pulite — evita refusi nei nomi delle classi.
Normale e normale sono trattate come classi diverse.
Dataset di esempio scaricabili
Scarica questi dataset sintetici ma fisicamente plausibili per provare Luviner subito. Sono entrambi deterministici e generati da uno script nel repo, quindi chiunque può riprodurli.
| Dataset |
Righe |
Feature |
Classi |
Caso d'uso |
| Vibrazione cuscinetto pompa |
500 |
8 |
4 |
Manutenzione predittiva — normale vs usura cuscinetto, sbilanciamento, disallineamento |
| Anomalia temperatura HVAC |
300 |
4 |
2 |
Anomaly detection — 92% normale / 8% anomalia, come in un impianto reale |
Puoi anche provare questi scenari direttamente nella
Demo live senza creare un account.
Dati time-series vs tabulari
Luviner supporta entrambi:
- Tabulare (classificazione): ogni riga è un campione indipendente. CSV standard come descritto sopra.
- Time-series (streaming): le righe sono letture sequenziali da sensore. Luviner mantiene lo stato tra le letture, ideale per pattern temporali come firme di vibrazione o tracciati ECG.
Per i dati time-series, basta fornire il CSV con le righe in ordine cronologico. Luviner rileva i pattern temporali automaticamente.
Problemi comuni
| Problema | Soluzione |
| Accuratezza bassa |
Aggiungi più campioni, assicurati che le classi siano bilanciate, controlla errori nelle etichette |
| Errore di upload |
Verifica la codifica (deve essere UTF-8), rimuovi valori non numerici dalle colonne feature |
| Training lento |
Riduci i campioni a meno di 50K per i primi test, usa AutoML (Builder+) |