Data Warehouse vs Hadoop - 6 Vigtige forskelle at vide

Indholdsfortegnelse:

Anonim

Forskelle mellem datavarehus vs Hadoop

I hvert årti oplever IT-branchen en stor innovation, der ryster hele it-branchen. I de senere år har Apache Hadoop gjort det samme ved at infusere datacentre med ny infrastruktur

Ved at give kraften i parallel behandling til programmereren Hadoop er på en så eksponentiel stigning i vedtagelsen, og dens økosystem udvides i både dybde og bredde, er det naturligt at spørge, om Hadoop's vil erstatte traditionelt Data Warehouse.

Lad os se, hvad Alasdair Anderson (koncerndirektør i Nordea) sagde på et Hadoop-topmøde om dette varme emne i byen.

”Der er intet forhold mellem EDW og Hadoop lige nu - de vil blive komplementære. Det handler IKKE om at rippe og erstatte: vi slipper ikke for RDBMS eller MPP, men i stedet skal du bruge det rigtige værktøj til det rigtige job - og det vil meget blive drevet af pris.

Hver gang denne interessante diskussion starter, kommer mange spørgsmål til os som:

1) Hvis du har big data, har du brug for et datavarehus?

2) Vil Hadoop erstatte datavarehuset?

3) Er dette død i den traditionelle Data Warehouse-æra?

For at kende svarene på alle disse spørgsmål er vi nødt til at undersøge den større sammenhæng med dette billede.

1. Hvad er Hadoop?

Hvem har ikke hørt om Big Data for nylig? Med hundreder af terabyte data, der genereres hver dag fra forskellige kilder, er det tydeligt, at nutidens moderne verden er en Big Data-verden

Når du begynder at tale om Big Data, vil du før eller senere begynde at diskutere det hotteste emne i Big data-verdenen: Hadoop - men hvad er det egentlig?

Hadoop er en open source, en Java-baseret programmeringsramme, der understøtter behandling og opbevaring af ekstremt store datasæt i et distribueret computermiljø.

De 4 moduler af Hadoop -

Hadoop består af 4 moduler -

  1. Distribueret filsystem

Distribueret filsystem gør det muligt at gemme data i et let tilgængeligt format på tværs af et stort antal sammenkædede lagerenheder.

  1. Kort reducere

Kortreduktion er kombinationen af ​​to operationer - læsning af data fra databasen og placering i et format, der er egnet til analyse (kort) og udførelse af matematiske operationer (reducer).

  1. Hadoop Common

Hadoop Common leverer de nødvendige værktøjer til de data, der er gemt i HDFS (Hadoop Distribueret filsystem)

  1. garn

YARN administrerer ressourcer til systemerne, der lagrer dataene og kører analysen.

2. Hvad er et datavarehus?

Et datavarehus er en relationsdatabase, der er designet til forespørgsels- og analysedata. Det indeholder normalt historiske data, der stammer fra forskellige kilder.

Datalagermiljøet inkluderer ETL-løsninger, en online analytisk behandling (OLAP) -motor, klientanalyseværktøjer og andre applikationer, der administrerer processen med at analysere data og levere dem til forretningsbrugere.

Lad os sammenfatte, hvad datavarehus er -

  1. Emne-orienterede

Et datavarehus kan bruges til at analysere et bestemt emne som salg, finans og lager. Hvert emneområde indeholder detaljerede data.

  1. Integreret

Et datavarehus integrerer data fra flere datakilder. For eksempel er datoer i samme format, mandlige / kvindelige koder er ensartede. I et datalager vil der kun være en enkelt måde at identificere et produkt på, og de bruger den samme kundepost, ikke kopier

  1. Ikke-flygtig

Data gemmes i datalageret umodificeret, og de ændres ikke. Så historiske data i et datavarehus bør aldrig ændres.

  1. Time-variant

man kan hente data fra 3 måneder, 6 måneder, 12 måneder eller endda ældre data fra et datavarehus.

  1. Ikke virtuel

Datavarehuset er et fysisk, vedvarende oplagringssted.

Data Warehouse vs Hadoop (Infographics)

Nedenfor er de Top 6 sammenligninger mellem Data Warehouse vs Hadoop

Data Warehouse vs Hadoop - hvilken skal man bruge?

  • Hvis du har rene, konsistente og af høj kvalitet, skal du gå til Data Warehouse, fordi Hadoop mangler datakvalitet i nogle af dens løsninger.
  • Hvis du har rå ustrukturerede data, skal du gå til Hadoop, fordi Hadoop fungerer godt med ustrukturerede / rå data, men Data Warehouse fungerer kun med strukturerede data.
  • For lav latens og interaktive rapporter skal du gå til Data Warehouse
  • For OLTP / Real-time / Point-forespørgsler skal du gå til Data Warehouse, fordi Hadoop fungerer godt med batchdata.
  • For datasæt med stort volumen skal du gå til Hadoop, fordi Hadoop er designet til at løse Big data-problemer.

Sammenligningstabel fra hoved til hoved mellem datavarehus vs Hadoop

Nedenfor er listen over punkter, der beskriver sammenligninger mellem datavarehus vs Hadoop

Grundlag for sammenligningData varehusHadoop
DataI Data Warehouse analyserer vi strukturerede og behandlede dataI Hadoop kan vi behandle enhver form for data inklusive struktureret / ustruktureret / semistruktureret og rå
ForarbejdningDets behandling er baseret på skema-på-skrivning-koncepterDets behandling er baseret på skema-på-læse koncepter
OpbevaringVelegnet til data med lille lydstyrke, og det er for meget dyrt for data med stort volumenDet fungerer godt med store datasæt med enorm volumen, hastighed og variation
AgilityDet er mindre smidigt og med fast konfigurationDet er yderst smidig, konfigureret og konfigureret efter behov
SikkerhedData Warehouse-teknologier har eksisteret i årtier. Således med hensyn til sikkerhed kan vi stole på Data WarehouseMens Hadoop-teknologier er relativt nye sammenlignet med Data Warehouse, så er sikkerhed her en stor bekymring
BrugereErhvervsfolk bruger normalt datalagerHadoop er meget berømt inden for datavidenskab og datateknik

Konklusion - Data Warehouse vs Hadoop

Nu ved vi både om Data Warehouse og Hadoop. Lad os gå tilbage og undersøge det spørgsmål, vi stillede i starten af ​​denne Data Warehouse og Hadoop artikel -

1) Hvis du har big data, har du brug for et datavarehus?

Svar - så længe din organisation har brug for pålidelige, troværdige og tilgængelige data, har du brug for et datavarehus.

2) Vil Hadoop erstatte datavarehuset?

Svar - Sammenligning af datavarehus vs Hadoop er som at sammenligne æbler og appelsiner. De begge Data Warehouse og Hadoop har deres egne fordele i forskellige brugssagsscenarier. I nogle tilfælde er vi stadig afhængige af traditionelle Data Warehouse-teknikker, men når tiden ændrer sig, fokuserer vi mere på Hadoop Framework for at håndtere Big Data-problemer.

3) Er dette et dødsfald fra den traditionelle Data Warehouse-æra?

Svar - Som du kan se, er dette ikke rigtig et simpelt spørgsmål og egner sig derfor ikke godt til et enkelt svar. Det er sandt, at big data vil ændre den traditionelle datalagringsmetode i de kommende næste år, men de vil ikke forælde koncepterne og praksis med datalagring.

Anbefalet artikel

Dette har været en nyttig guide til Data Warehouse vs Hadoop her, vi har diskuteret deres betydning, sammenligning af hoved til hoved, nøgleforskel og konklusion. Du kan også se på den følgende artikel for at lære mere -

  1. Hadoop vs Splunk - Find ud af de bedste 7 forskelle
  2. Hadoop vs Elasticsearch - Hvilken er mere nyttig
  3. Big Data vs Data Warehouse - Find ud af de bedste forskelle
  4. Business Intelligence vs Data Warehouse
  5. Splunk vs Nagios