Hadoop Værktøjer - Lær de forskellige værktøjer i Hadoop med deres funktioner

Introduktion til Hadoop Tools

Hadoop Tools er den ramme, der bruges til at behandle en stor mængde data. Disse data distribueres på en klynge, og distribueret computing udføres. Dataene gemmes i blokke i størrelse 128Mb og til at behandle og opnå en resultatstyrke af Map Reduce bruges. Traditionelt blev Map and Reduce skrevet i Java, men det var svært at krydse færdighederne med ressourcerne, der arbejdede i Data warehouse, da de ikke havde erfaring med det. SQL er velkendt og er let at bruge, så ved at finde en måde at skrive en SQL på som en forespørgsel, der konverteres til Map and Reduce, blev dette grundlagt af Facebook og senere doneret til Apache, dette værktøj er kendt som Hive. Yahoo kom også med et værktøj kaldet Pig, der konverteres til Map Reduce ved udførelse, ligesom vi har Sqoop og flume til dataforflytning og injektionsværktøjer. HBase er et databasestyringssystemværktøj.

Funktioner ved Hadoop Tools

hive
Svin
Sqoop
HBase
Dyrepasser
Flume

Nu vil vi se funktionerne med en kort forklaring.

1. Hive

Apache Hive blev grundlagt af Facebook og senere doneret til Apache foundation, som er et datalagerinfrastruktur, det letter det at skrive SQL som Query kaldet HQL eller HiveQL. Disse forespørgsler konverteres internt til Map Reduce-job, og behandlingen udføres ved hjælp af Hadoops distribuerede computing. Det kan behandle de data, der er placeret i HDFS, S3 og al den opbevaring, der er kompatibel med Hadoop. Vi kan udnytte de faciliteter, som Map Reduce leverer, når vi finder noget vanskeligt at implementere i Hive ved at implementere i brugerdefinerede funktioner. Det gør det muligt for brugeren at registrere UDF'er og bruge dem i jobbet.

Funktioner ved Hive

Hive kan behandle mange typer filformater såsom Sekvensfil, ORC-fil, TextFile osv.
Partitionering, bucketing og indeksering er tilgængelige for hurtigere udførelse.
Komprimerede data kan også indlæses i en bikubetabel.
Håndterede eller interne tabeller og eksterne tabeller er de fremtrædende træk ved Hive.

2. Gris

Yahoo udviklede Apache Pig til at have et ekstra værktøj til at styrke Hadoop ved at have en ad-hoc måde at implementere Map Reduce. Gris har en motor kaldet Pig Engine, der konverterer scripts til Map Reduce. Pig er et scriptingsprog, manuskripterne, der er skrevet til Pig, er i PigLatin, ligesom Hive også her kan vi have UDF'er til at forbedre funktionaliteten. Opgaver i gris optimeres automatisk, så programmerere ikke behøver at bekymre sig om det. Svin håndterer såvel strukturerede som ustrukturerede data.

Funktioner af gris

Brugere kan have deres egne funktioner til at udføre en speciel type databehandling.
Det er let at skrive koder i Gris sammenlignet med, også er kodens længde mindre.
Systemet kan automatisk optimere udførelsen.

3. Sqoop

Sqoop bruges til at overføre data fra HDFS til RDBMS og vice versa. Vi kan trække dataene til HDFS fra RDBMS, Hive osv., Og vi kan behandle og eksportere dem tilbage til RDBMS. Vi kan tilføje dataene mange gange i en tabel, vi kan også oprette et Sqoop-job og udføre dem 'n' antal gange.

Funktioner af Sqoop

Sqoop kan importere alle tabeller på én gang til HDFS.
Vi kan integrere SQL-forespørgsler såvel som betingelser for import af data.
Vi kan importere data til hive, hvis der findes en tabel fra HDFS.
Antallet af kortlæggere kan kontrolleres, dvs. parallel udførelse kan kontrolleres ved at specificere antallet af kortlægninger.

4. HBase

Databasestyringssystemet oven på HDFS kaldes HBase. HBase er en NoSQL-database, der er udviklet på toppen af HDFS. HBase er ikke en relationsdatabase, den understøtter ikke strukturerede forespørgselssprog. HBase anvender distribueret behandling af HDFS. Det kan have store borde med millioner og millioner poster.

Funktioner ved HBase

HBase giver skalerbarhed i både lineær såvel som modulær.
API'er i JAVA kan bruges til klientadgang.
HBase giver et shell til eksekvering af forespørgsler.

5. Zookeeper

Apache Zookeeper er centraliseret konfiguration, der opretholder service, holder en oversigt over information, navngivning, den leverer også distribueret synkronisering og gruppetjenester. Zookeeper er et centraliseret lager, der bruges af distribuerede applikationer til at lægge og hente data om det. Det hjælper også med at styre noder, dvs. at slutte sig til eller forlade en knude i klyngen. Det giver et meget pålideligt dataregister, når få af noder er nede.

Funktioner ved Zookeeper

Ydeevnen kan øges ved at fordele de opgaver, der opnås ved at tilføje flere maskiner.
Det skjuler distributionens kompleksitet og fremstiller sig selv som en enkelt maskine.
Svigt i nogle få systemer påvirker ikke hele systemet, men ulempen er, at det kan føre til delvis datatab.
Det giver Atomicity, dvs. transaktion er enten vellykket eller mislykket, men ikke i en ufuldkommen tilstand.

6. Flume

Apache Flume er et værktøj, der giver indtagelse af data, som kan indsamle, aggregere og transportere en enorm mængde data fra forskellige kilder til en HDFS, HBase osv. Flume er meget pålidelig og kan konfigureres. Det var designet til at indtage streamingdata fra webserveren eller hændelsesdata til HDFS, fx kan det indtage twitterdata til HDFS. Flume kan gemme data til en hvilken som helst af de centraliserede datalagre såsom HBase / HDFS. Hvis der er en situation, hvor dataproduktionen er i en højere hastighed sammenlignet med hastigheden for datahastigheden kan skrives, fungerer flume som en mægler og sikrer, at data flyder jævnt.

Funktioner af Flume

Det kan indtage webserverdata sammen med hændelsesdata som data fra sociale medier.
Flume-transaktioner er kanalbaseret, dvs. at to meddelelser opretholdes, den ene er til afsendelse og den ene er til modtagelse.
Vandret skalering er muligt i en flume.
Det er stærkt defineret tolerant, da kontekstuel routing er til stede i en flume.

Konklusion - Hadoop Tools

Her i denne artikel har vi lært om et par af Hadoop-værktøjerne, og hvordan de er nyttige i dataverdenen. Vi har set Hive and Pig, der bruges til at forespørge og analysere data, sqoop for at flytte data og flume til at indtage streamingdata til HDFS.

Anbefalede artikler

Dette har været en guide til Hadoop Tools. Her diskuterer vi forskellige værktøjer fra Hadoop med deres funktioner. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

Hadoop-alternativer
Hadoop-database
SQL-strengfunktioner
Hvad er Big Data

Hadoop Værktøjer - Lær de forskellige værktøjer i Hadoop med deres funktioner

Indholdsfortegnelse:

Introduktion til Hadoop Tools

Funktioner ved Hadoop Tools

1. Hive

2. Gris

3. Sqoop

4. HBase

5. Zookeeper

6. Flume

Konklusion - Hadoop Tools

Anbefalede artikler

Seleniumnet - Omfattende guide til Selenium Grid

Selenprøvning - Nøglekoncept og typer af selenafprøvning

Valgværktøj i Illustrator - Oprettelse af dynamisk kunst ved hjælp af markeringsværktøj

Selen vs agurk - Lær de 8 nyttige sammenligninger

Valgværktøj i Photoshop - Sådan bruges markeringsværktøjet i Photoshop?

IoT økosystem - Top 6 komponenter i IoT økosystem at lære

IOS vs Android - Kend forskellene (nyttige)

10 væsentlige IOT-interviewspørgsmål og svar (Opdateret til 2019)

IOS vs Android: 10 - Hvilken telefon er bedst (operativsystem)

IoT i landbrug - IoT-applikationer sammen med typisk livscyklus

Digital læring - Hvordan skal digital læring ændre uddannelse

Strategier for digital indholdsmarkedsføring for de bedste resultater

Digital marketingvirksomhed - Betydning og digital markedsføringstaktik

Digital billedbehandling - Anvendelse af digital billedbehandling

Eksempler på digital marketing - Forskellige marketingstrategier med eksempler