Introduktion til Talend Open Studio

Talend tilbyder Open Studio, som er en open source til dataintegration. Det har mere end 800 komponenter til forskellige integrationsformål. Download Talend Open Studio fra https://www.talend.com/download/

Dataintegration betyder at kombinere data fra forskellige kilder og kombinere dem til en enkelt visning for at få nogle meningsfulde data fra det, der kan hjælpe virksomheden eller organisationen med at forbedre deres forretning ved at analysere disse data. Integration hjælper med at hente data, rense dataene og foretage nogle nødvendige transformationer osv. Og derefter indlæse dem i et datalager.

Hvad er Talend?

Talend er et ETL-værktøj, der bruges til dataintegration. Talend giver en løsning til dataforberedelse, datakvalitet, dataintegration og big data. Her vil vi diskutere nogle af komponenterne. For at gøre det let at se nedenstående eksempel En sim-operatør har enorme data om planer, kunder, simdetaljer osv. Disse data er enorme, så store data bruges også i integrationen.

Kunde En køb af en sim ved hjælp af et regerings-id

At give sit navn som AB C

adresse som Chennai, Chennai

telefonnummer som 1234567890

Efter dataintegration

Fornavn: AB

Efternavn: C

Adresse: Chennai, Indien

Telefonnummer: +911234567890

Her renses dataene og omdannes til noget mere meningsfuldt.

Fordele

  • Analyse af forretningstendenser ved hjælp af dataintegration
  • Kombination af data til et enkelt system
  • Tidsbesparende og mere effektiv og mindre omarbejdning
  • Nem rapportgenerering - brugt af BI-værktøjer
  • Vedligeholdelse og indsættelse af data i datalageret og datamarterne

Ansøgning

Her er følgende applikationer nævnt nedenfor

1. Arbejde med Talend

  • Sørg for, at du har java installeret, og at miljøvariabler er indstillet.
  • Download open-source fra Talend-webstedet, og installer softwaren.
  • Opret et nyt projekt og færdiggør opsætningen
  • Talend åbnes med designer-fanen.
  • Talend er et formørkelsesbaseret værktøj, og komponenterne kan trækkes fra paletten, eller du kan klikke og indtaste komponentnavnet.

2. Det første job Læsning af en fil

  • Søg efter komponenten tFileinputdelimited. Denne komponent bruges til at læse eventuelle afgrænsede filer.
  • Placer den tfileinput-afgrænsede komponent. Søg efter tlogrow og placer det i jobdesigneren.
  • Højreklik på tfileinputdelimited og vælg række-> hoved og tegne en linje for at trække.
  • I komponenten vælger fanen stien for den fil, du vil læse, og giver rækkeudskilleren som \ n. Hvis filen har afgrænser, kan du nævne afgrænseren.
  • Klik på skemaet og angiv detaljer om kolonnetypen, eller du kan læse hele rækken som en streng med en kolonne, og afgrænserværdien skal være tom.
  • Du kan også springe overskriften og sidefoden.
  • I tlogrow-komponenten skal du vælge den måde, du vil se dataene på. Tabelformat eller enkeltlinjeformat.
  • tlogrow viser output i løbskonsollen.
  • Når du har tilsluttet både tfileinputdelimited og tlogrow, skal du køre jobbet fra fanen Kør.
  • Du kan se filindholdet i konsollen, der er udskrevet.

3. Et andet job ved hjælp af Tmap

  • Læs en fil, og filtrer den i forskellige outputfiler.
  • Læs en fil i den tfileinputdelimited komponent med et kolonneskema som posten.
  • Tmap-komponent - Denne komponent hjælper med at transformere data med nogle indbyggede funktioner som opslag, sammenføjninger osv.
  • Opret to output out1 og out2 i tmap.
  • I out1-filter tilføjes række3.record.concepts (“talend”) og tegne posten til out1.
  • Tegn rekordlinjen til anden out2.

  • Tag hovedrækkerne fra tmap og forbind til to tfileoutputdelimited.
  • out1-link til en tfileoutputdelimited1 som file1.txt og out2 til anden tfileoutputdelimited2 som file2.txt.
  • txt har poster, der indeholder talent.
  • txt har poster, der har andre navne.

4. Indbygget og depot

  • Indbygget betyder, at du skal indstille skemaer eller detaljer til forbindelse til en database hver gang.
  • Opbevaringspladsen er praktisk til at gemme detaljerne i metadataene, så du kan genbruge de samme detaljer hver gang uden manuelt at indtaste oplysninger hver gang. I metadata kan du gemme filskema, databaseforbindelser, Hadoop-forbindelse, bikubeforbindelse, s3-forbindelse og mange flere.

Komponenter i Talend Open Studio

Her er følgende komponenter i Talend Open Studio nævnt nedenfor

1. tFileList

  • Denne komponent viser filerne i et bibliotek eller en mappe med et givet filmaskemønster.

2. tMysqlConnection

  • Denne komponent bruges til at oprette forbindelse til mysql-databasen.
  • Mysql-komponenter kan bruge denne forbindelse til let opsætning af forbindelse til databasen.

3. tMysqlinput

  • Denne komponent hjælper med at køre en mysql-databaseforespørgsel og få tabellen eller kolonnerne. Denne komponent bruges til at vælge forespørgsler og få detaljerne.

4. tMysqlOutput

  • Denne komponent bruges til at indsætte eller opdatere data i Mysql-databasen.

5. tprejob

  • Denne komponent er den første, der udfører i jobbet og kan forbindes med andre komponenter med på subjob ok.

6. tpostjob

  • Denne komponent er den sidste, der udføres i jobbet. Du kan forbinde dette med forbindelsesnære komponenter.

7. tømmerhugger

  • Denne komponent fanger advarslen og fejlene i jobbet.
  • Den vigtigste komponent, der anvendes i fejlhåndteringsteknik.
  • Der kan skrives fejllogger ved hjælp af denne komponent sammen med tfileoutputdelimited.
  • Der er mere end 800 komponenter.

Kontekstvariabel

  • Kontekstvariabler er variabler, der kan bruges i jobbet hvor som helst.
  • Det indeholder værdier og kan overføres til et andet job også ved hjælp af trun-komponent.
  • Brugen af ​​kontekstvariabler er, at vi kan ændre værdien til forskellige formål.
  • For eksempel kan vi have et sæt værdier for udviklingssammenhængsgruppen og et andet sæt kontekstværdier til produktion.
  • På denne måde behøver vi ikke at ændre jobbet, men det er nok at ændre kontekstparametrene.

Opbygning af et job

  • For at oprette et job skal du højreklikke på jobbet og vælge build job.
  • Du kan importere build-jobbet i TAC.
  • I Talend Administration Console planlægger du et job for også at udløse afhængigheden af ​​jobindstillingen.
  • Du kan også importere jobbet fra Nexus-arkivet ved hjælp af et artefaktjob.

Opret en opgave i TAC

  • Åben jobleder i TAC
  • Klik på nye opgaver, og vælg normale eller artefakteropgaver.
  • Importer det opbyggede job, eller vælg fra nexus.
  • Vælg den jobserver, hvor talentet vil køre i.
  • Gem opgaven.
  • Nu kan du implementere og køre jobbet.

Konklusion - Talend Open Studio

”Forenkle ETL og ELT med det førende gratis open source ETL-værktøj til big data.” Er tagline for open studio. Talend Bigdata har mange komponenter til håndtering af enorme data. Standardjob, Bigdata-job, Bigdata-streamingjob er de forskellige typer job, der er tilgængelige i Talend. Bigdata-job kan oprettes i en gnist- eller mapreduce-ramme.

Anbefalede artikler

Dette er en guide til Talend Open Studio. Her diskuterer vi fordelene, applikationerne og komponenterne ved Talend Open Studio. Du kan også se på de følgende artikler for at lære mere -

  1. Vejledning til integration af Talend Data
  2. Vigtige spørgsmål om Talend-interview
  3. Talend vs Mulesoft: Forskelle
  4. Talend vs Pentaho: 8 nyttige sammenligninger at lære

Kategori: