4 Matching Annotations
  1. Jun 2025
    1. Design multi-livello

      Se ho N sorgenti di dati da N nazioni diverse, avrò N formati diversi. Se voglio arrivare ad avere tutti i idati in un unico formato per avere dei dati menaningful, posso adottare un design di DWH a multi livello. - REP --> vengono presi i dati così come sono e quindi avrò N modelli diversi - ODS --> cleaning e trasformazioni per aderire a un formato uniforme DWH --> livello in cui il dato viene portato a una rappresentazione a stella o fioco di neve DMT --> vengono costruite delle viste aggregate

    2. Pertanto, quello che proponiamo è un approccio innovativo rispetto al passato: un approccio basato sull'identificazione e la gestione delle anomalie piuttosto che su una politica di rigetto del dato corrotto.

      Se abbiamo un cliente che effettua un ordine, magari l'info dell'ordine arriva al DWH veloce e le info del cliente a frequenza più bassa. Nel transitorio tra arrivo di info dell'acquisto e info del cliente stesso, l'info sull'ordine viene usata senza dover apsettare le info anagrafiche del cliente.

    3. Per ragioni di performance, può risultare conveniente “replicare” alcuni attributi dimensionali di grande importanza per l’analisi anche sulle tabelle dei fatti a cui quelle informazioni di contesto fanno riferimento. In questo modo si abilita la possibilità di un’interrogazione immediata un’unica tabella, la tabella fatto, evitando di dover agganciare in join le tabelle dimensionali sulla chiave esterna, per recuperare le informazioni di contesto di interesse: la query risultante è più performante, richiede meno risorse macchina e minor tempo di esecuzione.

      Poichè le JOIN sono lente con grandi volumi di dati, una soluzione è quella di copiare dentro la tabella dei fatti alcune info della tabella dimensioni così che si fa solo una query su una tabella senza fare JOIN (es. copiare marca prodotto nella tabella fatti).

    4. Nella teoria classica di progettazione di datawarehouse, le tabelle dei fatti sono pensate per contenere fondamentalmente due tipi di informazioni: un primo insieme di campi è composto dalle chiavi esterne, che permettono di recuperare le informazioni anagrafiche e di contesto associate al record del fatto, tramite operazione di join con le relative tabelle dimensionali; un secondo gruppo di campi è costituito dai valori numerici, categorici o booleani delle misure che descrivono l’evento accaduto (ad esempio, il prezzo di una vendita, il tipo di una valuta, un flag di attivazione/disattivazione).

      Tabell fatti può essere ID vendita, ID prodotto, quantità, prezzo. Tabella dimensioni può essere nome, cateogira, marca, ID prodotto.