Introduktion til Hive-alternativer

Før vi diskuterer alternativerne til HIVE. Lad os først forstå, hvad der er en HIVE? Så HIVE er dybest set et datalagringsværktøj, der er udviklet oven på HDFS (Hadoop Distribueret filsystem). Det bruges til at give en SQL-lignende forespørgselsgrænseflade til forespørgseldata, der er gemt i forskellige filer integreret med Hadoop. Det konverterer SQL-lignende forespørgsler til Map Reduce-job, der hjælper med let udførelse af store datamængder.

Funktioner

Nedenfor er nogle af funktionerne i Hive:

  • Ligesom SQL har det sit eget deklarative sprog kaldet HiveQL.
  • Det har en tabelstruktur, der ligner tabeller i Relationsdatabasen, og den giver også ETL (ekstrakt / support / belastning) support.
  • En interessant funktion er, at det tillader konvertering af format fra HIVE.

Begrænsning af bikivealternativer

Lad os kende et par begrænsninger af Hive:

  • Det er ikke designet til OLTP (Online Transaction Processing) men understøtter OLAP (Online Analytical Processing).
  • En vigtig begrænsning er, at det ikke understøtter opdateringer og sletninger.
  • I Hive understøttes heller ikke forespørgsler.

5 Vigtige bikubalternativer

Nedenfor skal vi diskutere fem vigtige alternativer til HIVE, der findes på markedet:

1. Apache Impala

Det er en open source parallel-behandlende SQL-forespørgselsmotor til data, der er gemt i en computerklynge, der kører Apache Hadoop. Det blev annonceret i oktober 2012. Nedenfor er de fremtrædende træk ved Apache Impala som et alternativ til HIVE.

  • Impala er et godt valg for folk, der kører SQL-forespørgsler på Hadoop og Apache HBase uden at transformere dataene, da det ikke er nødvendigt at transformere eller flytte dataene, i modsætning til HIVE.
  • En anden forskel mellem disse to er genereringen af ​​forespørgseludtryk. Impala genererer dem under kørsel ved hjælp af lvvm, mens HIVE genererer dem på kompileringstidspunktet.
  • Hive-forespørgsler har et problem med koldstart, hvilket ikke er tilfældet med Impala-forespørgsler, da der i Impala-dæmonprocesserne startes i selve boot-tiden, altid klar til at behandle en forespørgsel, på grund af hvilken den undgår problemet med koldstart.
  • Impala genkender Hadoop-filformater, Hadoop-sikkerhed, ODBC-driver.
  • Den vigtigste USP for impala er den brute kraft ved parallel behandling. Så Impala er et bedre alternativ, hvis man starter et nyt projekt.

2. Presto DB

Presto er et andet alternativ til HIVE udviklet af facebook. Dens USP er, at det endda kan forespørge data fra flere kilder inden for en enkelt forespørgsel. Nedenfor er de fremtrædende træk ved PrestoDB som et alternativ til HIVE.

  • Presto er en SQL-forespørgselsmotor, der er distribueret i hukommelsen, og den er også meget hurtig, da Presto-forespørgselsmotoren er hurtig og velegnet til interaktiv analyse.
  • USP for Presto frem for andre er dens plug and play-model med forskellige datakilder. På grund af denne plug-and-play-model er det meget let med presto at sammenføje spørgsmål i forskellige datakilder.
  • I Presto er der lavet hurtigere sammenføjningstabeller med små dimensioner. Presto er fremragende med de fleste andre distribuerede forespørgselsmotorer.
  • Presto er ikke passende til sammenføjninger med store faktorer, da det ikke udnytter disk og bruger hukommelse til behandling.
  • Et mere vigtigt punkt for presto er ressourcefordelingen. Det har en prioriteret købaseret ressourceallokering.
  • En afveksling for god ydelse i Presto er, at UDF-support ikke er tilgængelig i presto, på grund af hvilken man skal skrive sin egen funktion, der øger overhead, da den udelukkende skal bygges til presto og vanskeliggør interoperabiliteten.

3. Spark SQL

Det er et modul til også struktureret databehandling og også open source. Det kan også fungere som en distribueret SQL-forespørgselsmotor, og også en unik del af dette er, at det giver programmeringsabstraktion kendt som datarammer. Det blev første gang frigivet i 2014 udviklet af Apache Software Foundation. Nedenfor er nogle af de fremtrædende træk ved Spark SQL som et alternativ til HIVE.

  • Det gode ved Spark SQL er, at det kan implementeres på Java, Scala, Python og R, mens HIVE kan implementeres på Java Language.
  • Der er fuldstændig lighed i Primær databasemodel mellem HIVE og Spark, da begge primære databasemodeller er Relational DBMS.
  • Det ligner også HIVE, da begge understøtter Key-Value-butikken som en ekstra databasemodel.
  • Det har foruddefinerede datatyper som float og dato.
  • Det understøtter SQL, da det har DML- og DDL-udsagn.
  • I modsætning til HIVE, der understøtter JDBC, ODBC og Thrift, understøtter Spark SQL kun JDBC og ODBC.
  • Spark SQL bruger gnistkerne til lagring af data i forskellige noder.
  • En anden vigtig forskel mellem gnist og HIVE er replikationsmetoder: Der er selektiv replikationsfaktor i HIVE til lagring af overflødige data på flere noder, men ingen replikationsfaktor er tilgængelig i Spark SQL.
  • I Spark SQL er der ingen adgangsrettigheder for brugere, mens vi i Apache Hive har adgangsrettigheder for brugere, grupper.
  • Det understøtter ikke en transaktionstabel og ingen understøttelse af char type.

4. Haj

Det er en open source SQL-forespørgselsmotor, der er skrevet i Scala. Den interessante kendsgerning med Shark er i stedet for at bruge Map-Reduce til at udføre sine forespørgsler, den bruger sine egne sæt arbejderknudepunkter. Nedenfor er nogle af funktionerne i Shark:

  • Den bruger en kommandolinjeklient.
  • Det giver interoperabilitet med Hive til deling af skemaer.
  • Det giver support til eksisterende bikiveudvidelser, såsom UDF'er.

Det er ikke meget berømt endnu, men det giver et alternativ til HIVE.

5. BigSQL af IBM

Det leveres af Big Blue (IBM). IBM har sin egen Hadoop-distribution kaldet Big Insights. Så Big SQL tilbydes som en del af det. Det er ikke open source, da det leveres af IBM. Nogle af de ting, de leverer, er som nedenfor:

  • De understøtter både JDBC- og OJDBC-drivere.
  • De leverer SQL support
  • De kan bruges til at forespørge data fra HDFS.

Anbefalede artikler

Dette er en guide til Hive-alternativer. Her diskuterer vi funktioner, begrænsning og 5 vigtige Hive-alternativer. Du kan også gennemgå vores andre relaterede artikler for at lære mere-

  1. Hadoop-alternativer
  2. Tableau-alternativer
  3. Google Analytics-alternativer
  4. Hadoop Streaming
  5. Hive ordre af
  6. Hive installation
  7. Datarammer i R

Kategori: