Data Integration Open Source

Compariamo due mostri di ETL Open Source: Talend Open Studio vs Pentaho Kettle:

Talend Open Studio (TOS) e Pentaho Data Integration (Kettle) sono due tool ETL Open Source molto usati nel mondo dell’informatica. Da poco tempo a questa parte (oggi è il 05 marzo 2014) anche Talend Open Studio è diventato di proprietà della Pentaho come suo strumento ETL certificato andando a sostituire Keetle che ora è desueto, ma continuiamo a trattarli entrambi e vediamone pregi e difetti di entrambi:

ETL (Extraction Tranformation Loading)è il processo in cui il dato è estratto da diverse sorgenti (database, file, web services, etc), allova viene processato (casting dei valori, calcoli, etc), la fase T della parola ETL e infine caricato su un’altra destinazione(database, file, web, etc).

L’ETL è una chiave del servizio di gestione della Business Intelligence e del Datawarehouse (DWH) e di tale realtà, molto vasta, divisa in prodotti open-source e non, questi due rappresentano una fetta dei prodotti open source a più ampio respiro (insieme ad altri prodotti lo stesso importanti, come spagoBI, ad esempio).

Pentaho Kettle

Pentaho Data Integration PDI (Kettle) è il tool ETL di default di Pentaho.Presenta un editor intuitivo frafico (SPOON) facile nell’uso per la costruzione delle procedure di Data Integration procedures.
Le procedure possono lavorare runtime su Kettle in diversi modi: Usando il pannello a linea di comando (come DOS), tramite un piccolo server (Carte), tramite un database repository (Kitchen) o direttamente da IDE(Spoon). Le Procedure sono salvate in files XML e sono interpretati da una libreria Java che è richiesta per l’avvio dei tasks di ETL.

Talend Open Studio

Talend Open Studio (TOS), che io personalmente ho testato dalla versione 2.0 fino alla 5.4, è, anzi era, il tool di ETL sviluppato dalla Talend, una compagnia specializzata sul data-integration e sulle soluzioni di data-management. Talend usa un IDE comprensivo e user-friendly, (simile a Kettle di Pentaho) che ricorda molto vagamente l’IDE Eclipese (è una sua versione modificata, credo). Le Procedure possono essere lanciate sull’IDE e compilate in codice Java. Il codice Java così generato può essere modificato per aggiungere una maggiore flessibilità e controllo su quello che stiamo progettando, mediante l’aggiunta di oggettini (tJava, tJavaRow) in cui è possibile scrivere codice Java o addirittura possiamo scrivere metodi statici all’interno di routines statiche (sotto la voce “Code” che si trova sulla sinistra dell’IDE).

Entrambi sono prodotti performanti e user-frendly, l’unica differenza è il modo in cui sono salvate le procedure: il primo è un interprete di procedure ETL scritte in formato XML, il secondo, invece, è un tool che genera codice scritto in Java.

Pentaho Keettle è più facile come strumento di partenza ma è anche meno comprensivo e compatto di Talend.La curva dell’apprendimento di Talend va fatta a step (io lo uso da aprile 2009) e possiede un potenziale enorme e una grande flessibilità che compensano con il primo impatto.

Uno dei requisiti importanti di Talend è la scrittura degli SCHEMA corretti dei dati da processare con l’IDE: l’uso dei metadati è proprio la funzione focale di Talend che ne permette una grande flessibilità, manutenzione e readattabilità all’uso delle procedure dopo che sono state deployate.

TOS e Keetle sono entrambi user-frendly, open source e ben documentati, con un grande forum e community su cui fare affidamento per muovere i primi passi con questi strumenti.

Talend è più specializzato sulla data integration e sulla gestione dei dati mentre Pentaho è più specializzato nel lato della Business Intelligence e sulla reportistica. Proprio per il suo essere visto come un generico ETL fruibile da molti Talend può adattarsi a varie piattaforme di BI, anche gratuite e non, come Spago BI e Jasper Server. Kettle invece è un tool di default della suite di Pentaho.

Riassumendo quindi Pentaho Kettle è quindi un utile strumento di ETL della suite di Pentaho se stiamo lavorando con il mondo Pentaho sarà la nostra scelta da perseguire, mentre Talend è un prodotto più generale multi-piattaforma di Data Management che può essere usato con diversi strumenti sia della Suite Talend che non, come detto precedentemente.

Talend Open Studio può essere scaricato QUI , Pentaho Data Integration (Kettle) invece può essere scaricato QUI.
Le versioni commerciali sono disponibili sui rispettivi siti.

Si ringrazia Roberto Marchetto per avermi dato l’incipit di scrivere questo topic e la traduzione del suo topic sul suo sito con l’aggiunta di alcune mie riflessioni che ho potuto riscontrare sul mio posto di lavoro durante l’uso di Talend dalla versione 2.0 alla 5.4.1.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...