Introduktion til Talend Data Integration
Talend Dataintegration betyder at kombinere data fra forskellige kilder og kombinere dem til en enkelt visning for at få nogle meningsfulde data fra det, der kan hjælpe virksomheden eller organisationen med at forbedre deres forretning ved at analysere disse data. Integration hjælper med at hente data, rense dataene og foretage nogle nødvendige transformationer osv. Og derefter indlæse dem i et datalager.
Hvad er Talend Data Integration?
- Talend er et ETL-værktøj, der bruges til dataintegration. Talend giver en løsning til dataforberedelse, datakvalitet, dataintegration og big data.
- Talend tilbyder Open Studio, som er en open source til dataintegration og big data.
- Talend åben studio hjælper med at håndtere enorme data med big data-komponenter. Det har mere end 800 komponenter til forskellige integrationsformål. Her vil vi diskutere nogle af komponenterne. For at gøre det let, se nedenstående eksempel
- En sim-operatør har enorme data om planer, kunder, simdetaljer osv. Disse data er enorme, så store data bruges også i integrationen.
Kunde En køb af en sim ved hjælp af et regerings-id.
Navngivende: AB C
Adresse som: Chennai, Chennai
Telefonnummer: 1234567890
Efter dataintegration
Fornavn: AB
Efternavn: C
Adresse: Chennai, Indien
Telefonnummer: +911234567890
Her renses dataene og omdannes til noget mere meningsfuldt.
Fordele ved dataintegration
Her diskuterer vi fordelene ved dataintegration.
- Analyse af forretningstendenser ved hjælp af dataintegration
- Kombination af data til et enkelt system
- Tidsbesparende og mere effektiv og mindre omarbejdning
- Nem rapportgenerering - brugt af BI-værktøjer
- Vedligeholdelse og indsættelse af data i datalager og datamarkter
Anvendelse af Talend Data Integration
Her vil vi diskutere anvendelsen af Talend Data Integration.
1. Arbejde med Talend
- Sørg for, at du har java installeret, og at miljøvariabler er indstillet.
- Download open-source fra Talend-webstedet, og installer softwaren.
- Opret et nyt projekt og færdiggør opsætningen
- Talend åbnes med designer-fanen.
- Talend er et formørkelsesbaseret værktøj, og komponenterne kan trækkes fra paletten, eller du kan klikke og indtaste komponentnavnet.
2. Første job, der læser en fil
- Søg efter komponenten tFileinputdelimited. Denne komponent bruges til at læse eventuelle afgrænsede filer.
- Placer den tFileinput-afgrænsede komponent. Søg efter tLogRow, og placer det i jobdesigneren.
- Højreklik på tFileinputdelimited og vælg række-> hoved og tegne en linje til tLogRow.
- I komponenten vælger fanen stien for den fil, du vil læse, og giver rækkeudskilleren som \ n. Hvis filen har afgrænser, kan du nævne afgrænseren.
- Klik på skemaet og angiv detaljer om kolonnetypen, eller du kan læse hele rækken som en streng med en kolonne, og afgrænserværdien skal være tom.
- Du kan også springe overskriften og sidefoden.
- I tLogRow-komponenten skal du vælge den måde, du vil se dataene på. Tabelformat eller enkeltlinjeformat.
- tLogRow viser output i løbskonsollen.
- Efter tilslutning af både tFileinputdelimited og tLogRow skal du køre jobbet fra fanen Kør.
- Du kan se filindholdet i konsollen, der er udskrevet.
3. Andet job ved hjælp af tmap
- Læs en fil, og filtrer den i forskellige outputfiler.
- Læs en fil i den tFileinputdelimited komponent med et kolonneskema som en post.
- Tmap-komponent - Denne komponent hjælper med at transformere data med nogle indbyggede funktioner som opslag, sammenføjninger osv.
- Opret to output out1 og out2 i tmap.
- I out1-filter tilføjes record.concepts (“talend”) og træk posten til out1.
- Tegn rekordlinjen til anden out2.
- Tag hovedrækkerne fra tmap og forbind til to tFileoutputdelimited.
- out1-link til en tfileoutputdelimited1 som file1.txt og out2 til anden tfileoutputdelimited2 som file2.txt.
- txt har poster, der indeholder talent.
- txt har poster, der har andre navne.
4. Indbygget og depot
- Indbygget betyder, at du skal indstille skemaer eller detaljer til forbindelse til en database hver gang.
- Opbevaringspladsen er praktisk til at gemme detaljerne i metadataene, så du kan genbruge de samme detaljer hver gang uden manuelt at indtaste oplysninger hver gang. I metadata kan du gemme filskema, databaseforbindelser, Hadoop-forbindelse, bikubeforbindelse, s3-forbindelse og mange flere.
Komponenter i Talend Data Integration
Her skal vi diskutere komponenterne i Talend Data Integration.
1. tFileList: Denne komponent viser filerne i et bibliotek eller en mappe med et givet filmaskemønster.
2. tMysqlConnection: Denne komponent bruges til at oprette forbindelse til MySQL-databasen. Mysql-komponenter kan bruge denne forbindelse til let opsætning af forbindelse til databasen.
3. tMysqlInput: Denne komponent hjælper med at køre en mysql-databaseforespørgsel og få tabellen eller kolonnerne. Denne komponent bruges til at vælge forespørgsler og få detaljerne.
4. tMysqlOutput: Denne komponent bruges til at indsætte eller opdatere data i Mysql-databasen.
5. tPrejob: Denne komponent er den første, der udfører i jobbet og kan forbindes med andre komponenter med på Subjob ok.
6. tPostjob: Denne komponent er den sidste, der udføres i jobbet. Du kan forbinde dette med forbindelsesnære komponenter.
7. tLogcatcher: Denne komponent fanger advarslen og fejlene i jobbet. Dette er den vigtigste komponent, der bruges i fejlhåndteringsteknikken. Der kan skrives fejllogger ved hjælp af denne komponent sammen med tfileoutputdelimited. Der er mere end 800 komponenter.
8. Kontekstvariabel: Kontekstvariabler er variabler, der kan bruges i jobbet hvor som helst. Det indeholder værdier og kan overføres til et andet job også ved hjælp af tRun-komponenter. Brugen af kontekstvariabler er, at vi kan ændre værdien til forskellige formål. For eksempel kan vi have et sæt værdier for udviklingssammenhængsgruppen og forskellige sæt kontekstværdier til produktion. På denne måde behøver vi ikke at ændre jobbet, men det er nok at ændre kontekstparametrene.
9. Bygning af et job: For at opbygge et job skal du højreklikke på jobbet og vælge et byggerjob. Du kan importere build-jobbet i TAC. I Talend Administration Console planlægger du et job for også at udløse afhængigheden af jobindstillingen. Du kan også importere jobbet fra Nexus-arkivet ved hjælp af et artefaktjob.
10. Opret en opgave i TAC: Åben jobleder i TAC. Klik på nye opgaver, og vælg normale eller artefakteropgaver. Importer byggejobbet, eller vælg fra nexus. Vælg den jobserver, hvor talentet vil køre i. Gem opgaven. Nu kan du implementere og køre jobbet.
Konklusion
- ”Forenkle ETL og ELT med det førende gratis open source ETL-værktøj til big data.” Er tagline for open studio.
- Talend Bigdata har mange komponenter til håndtering af enorme data.
- Standardjob, Bigdata-job, Bigdata-streamingjob er de forskellige typer job, der er tilgængelige i Talend.
- Bigdata-job kan oprettes i en gnist eller MapReduce-ramme.
Anbefalet artikel
Dette er en guide til Talend Data Integration. Her diskuterer vi introduktionen til Talend Data Integration og fordelene sammen med applikationer og komponenter. Du kan også gennemgå vores andre foreslåede artikler for at lære mere
- Dataintegrationsværktøj | Bedste 12 værktøjer
- Spørgsmål og svar til Talendinterview
- Bedste datavisualiseringsværktøjer med dens typer
- Talend vs Mulesoft - Forskelle
- Hvad er Data Mart?