Introduktion til Hadoop Tools

Hadoop Tools er den ramme, der bruges til at behandle en stor mængde data. Disse data distribueres på en klynge, og distribueret computing udføres. Dataene gemmes i blokke i størrelse 128Mb og til at behandle og opnå en resultatstyrke af Map Reduce bruges. Traditionelt blev Map and Reduce skrevet i Java, men det var svært at krydse færdighederne med ressourcerne, der arbejdede i Data warehouse, da de ikke havde erfaring med det. SQL er velkendt og er let at bruge, så ved at finde en måde at skrive en SQL på som en forespørgsel, der konverteres til Map and Reduce, blev dette grundlagt af Facebook og senere doneret til Apache, dette værktøj er kendt som Hive. Yahoo kom også med et værktøj kaldet Pig, der konverteres til Map Reduce ved udførelse, ligesom vi har Sqoop og flume til dataforflytning og injektionsværktøjer. HBase er et databasestyringssystemværktøj.

Funktioner ved Hadoop Tools

  1. hive
  2. Svin
  3. Sqoop
  4. HBase
  5. Dyrepasser
  6. Flume

Nu vil vi se funktionerne med en kort forklaring.

1. Hive

Apache Hive blev grundlagt af Facebook og senere doneret til Apache foundation, som er et datalagerinfrastruktur, det letter det at skrive SQL som Query kaldet HQL eller HiveQL. Disse forespørgsler konverteres internt til Map Reduce-job, og behandlingen udføres ved hjælp af Hadoops distribuerede computing. Det kan behandle de data, der er placeret i HDFS, S3 og al den opbevaring, der er kompatibel med Hadoop. Vi kan udnytte de faciliteter, som Map Reduce leverer, når vi finder noget vanskeligt at implementere i Hive ved at implementere i brugerdefinerede funktioner. Det gør det muligt for brugeren at registrere UDF'er og bruge dem i jobbet.

Funktioner ved Hive

  • Hive kan behandle mange typer filformater såsom Sekvensfil, ORC-fil, TextFile osv.
  • Partitionering, bucketing og indeksering er tilgængelige for hurtigere udførelse.
  • Komprimerede data kan også indlæses i en bikubetabel.
  • Håndterede eller interne tabeller og eksterne tabeller er de fremtrædende træk ved Hive.

2. Gris

Yahoo udviklede Apache Pig til at have et ekstra værktøj til at styrke Hadoop ved at have en ad-hoc måde at implementere Map Reduce. Gris har en motor kaldet Pig Engine, der konverterer scripts til Map Reduce. Pig er et scriptingsprog, manuskripterne, der er skrevet til Pig, er i PigLatin, ligesom Hive også her kan vi have UDF'er til at forbedre funktionaliteten. Opgaver i gris optimeres automatisk, så programmerere ikke behøver at bekymre sig om det. Svin håndterer såvel strukturerede som ustrukturerede data.

Funktioner af gris

  • Brugere kan have deres egne funktioner til at udføre en speciel type databehandling.
  • Det er let at skrive koder i Gris sammenlignet med, også er kodens længde mindre.
  • Systemet kan automatisk optimere udførelsen.

3. Sqoop

Sqoop bruges til at overføre data fra HDFS til RDBMS og vice versa. Vi kan trække dataene til HDFS fra RDBMS, Hive osv., Og vi kan behandle og eksportere dem tilbage til RDBMS. Vi kan tilføje dataene mange gange i en tabel, vi kan også oprette et Sqoop-job og udføre dem 'n' antal gange.

Funktioner af Sqoop

  • Sqoop kan importere alle tabeller på én gang til HDFS.
  • Vi kan integrere SQL-forespørgsler såvel som betingelser for import af data.
  • Vi kan importere data til hive, hvis der findes en tabel fra HDFS.
  • Antallet af kortlæggere kan kontrolleres, dvs. parallel udførelse kan kontrolleres ved at specificere antallet af kortlægninger.

4. HBase

Databasestyringssystemet oven på HDFS kaldes HBase. HBase er en NoSQL-database, der er udviklet på toppen af ​​HDFS. HBase er ikke en relationsdatabase, den understøtter ikke strukturerede forespørgselssprog. HBase anvender distribueret behandling af HDFS. Det kan have store borde med millioner og millioner poster.

Funktioner ved HBase

  • HBase giver skalerbarhed i både lineær såvel som modulær.
  • API'er i JAVA kan bruges til klientadgang.
  • HBase giver et shell til eksekvering af forespørgsler.

5. Zookeeper

Apache Zookeeper er centraliseret konfiguration, der opretholder service, holder en oversigt over information, navngivning, den leverer også distribueret synkronisering og gruppetjenester. Zookeeper er et centraliseret lager, der bruges af distribuerede applikationer til at lægge og hente data om det. Det hjælper også med at styre noder, dvs. at slutte sig til eller forlade en knude i klyngen. Det giver et meget pålideligt dataregister, når få af noder er nede.

Funktioner ved Zookeeper

  • Ydeevnen kan øges ved at fordele de opgaver, der opnås ved at tilføje flere maskiner.
  • Det skjuler distributionens kompleksitet og fremstiller sig selv som en enkelt maskine.
  • Svigt i nogle få systemer påvirker ikke hele systemet, men ulempen er, at det kan føre til delvis datatab.
  • Det giver Atomicity, dvs. transaktion er enten vellykket eller mislykket, men ikke i en ufuldkommen tilstand.

6. Flume

Apache Flume er et værktøj, der giver indtagelse af data, som kan indsamle, aggregere og transportere en enorm mængde data fra forskellige kilder til en HDFS, HBase osv. Flume er meget pålidelig og kan konfigureres. Det var designet til at indtage streamingdata fra webserveren eller hændelsesdata til HDFS, fx kan det indtage twitterdata til HDFS. Flume kan gemme data til en hvilken som helst af de centraliserede datalagre såsom HBase / HDFS. Hvis der er en situation, hvor dataproduktionen er i en højere hastighed sammenlignet med hastigheden for datahastigheden kan skrives, fungerer flume som en mægler og sikrer, at data flyder jævnt.

Funktioner af Flume

  • Det kan indtage webserverdata sammen med hændelsesdata som data fra sociale medier.
  • Flume-transaktioner er kanalbaseret, dvs. at to meddelelser opretholdes, den ene er til afsendelse og den ene er til modtagelse.
  • Vandret skalering er muligt i en flume.
  • Det er stærkt defineret tolerant, da kontekstuel routing er til stede i en flume.

Konklusion - Hadoop Tools

Her i denne artikel har vi lært om et par af Hadoop-værktøjerne, og hvordan de er nyttige i dataverdenen. Vi har set Hive and Pig, der bruges til at forespørge og analysere data, sqoop for at flytte data og flume til at indtage streamingdata til HDFS.

Anbefalede artikler

Dette har været en guide til Hadoop Tools. Her diskuterer vi forskellige værktøjer fra Hadoop med deres funktioner. Du kan også gennemgå vores andre foreslåede artikler for at lære mere -

  1. Hadoop-alternativer
  2. Hadoop-database
  3. SQL-strengfunktioner
  4. Hvad er Big Data

Kategori: