Forskelle mellem datavarehus vs Hadoop
I hvert årti oplever IT-branchen en stor innovation, der ryster hele it-branchen. I de senere år har Apache Hadoop gjort det samme ved at infusere datacentre med ny infrastruktur
Ved at give kraften i parallel behandling til programmereren Hadoop er på en så eksponentiel stigning i vedtagelsen, og dens økosystem udvides i både dybde og bredde, er det naturligt at spørge, om Hadoop's vil erstatte traditionelt Data Warehouse.
Lad os se, hvad Alasdair Anderson (koncerndirektør i Nordea) sagde på et Hadoop-topmøde om dette varme emne i byen.
”Der er intet forhold mellem EDW og Hadoop lige nu - de vil blive komplementære. Det handler IKKE om at rippe og erstatte: vi slipper ikke for RDBMS eller MPP, men i stedet skal du bruge det rigtige værktøj til det rigtige job - og det vil meget blive drevet af pris. ”
Hver gang denne interessante diskussion starter, kommer mange spørgsmål til os som:
1) Hvis du har big data, har du brug for et datavarehus?
2) Vil Hadoop erstatte datavarehuset?
3) Er dette død i den traditionelle Data Warehouse-æra?
For at kende svarene på alle disse spørgsmål er vi nødt til at undersøge den større sammenhæng med dette billede.
1. Hvad er Hadoop?
Hvem har ikke hørt om Big Data for nylig? Med hundreder af terabyte data, der genereres hver dag fra forskellige kilder, er det tydeligt, at nutidens moderne verden er en Big Data-verden
Når du begynder at tale om Big Data, vil du før eller senere begynde at diskutere det hotteste emne i Big data-verdenen: Hadoop - men hvad er det egentlig?
Hadoop er en open source, en Java-baseret programmeringsramme, der understøtter behandling og opbevaring af ekstremt store datasæt i et distribueret computermiljø.
De 4 moduler af Hadoop -
Hadoop består af 4 moduler -
- Distribueret filsystem
Distribueret filsystem gør det muligt at gemme data i et let tilgængeligt format på tværs af et stort antal sammenkædede lagerenheder.
- Kort reducere
Kortreduktion er kombinationen af to operationer - læsning af data fra databasen og placering i et format, der er egnet til analyse (kort) og udførelse af matematiske operationer (reducer).
- Hadoop Common
Hadoop Common leverer de nødvendige værktøjer til de data, der er gemt i HDFS (Hadoop Distribueret filsystem)
- garn
YARN administrerer ressourcer til systemerne, der lagrer dataene og kører analysen.
2. Hvad er et datavarehus?
Et datavarehus er en relationsdatabase, der er designet til forespørgsels- og analysedata. Det indeholder normalt historiske data, der stammer fra forskellige kilder.
Datalagermiljøet inkluderer ETL-løsninger, en online analytisk behandling (OLAP) -motor, klientanalyseværktøjer og andre applikationer, der administrerer processen med at analysere data og levere dem til forretningsbrugere.
Lad os sammenfatte, hvad datavarehus er -
-
Emne-orienterede
Et datavarehus kan bruges til at analysere et bestemt emne som salg, finans og lager. Hvert emneområde indeholder detaljerede data.
-
Integreret
Et datavarehus integrerer data fra flere datakilder. For eksempel er datoer i samme format, mandlige / kvindelige koder er ensartede. I et datalager vil der kun være en enkelt måde at identificere et produkt på, og de bruger den samme kundepost, ikke kopier
-
Ikke-flygtig
Data gemmes i datalageret umodificeret, og de ændres ikke. Så historiske data i et datavarehus bør aldrig ændres.
-
Time-variant
man kan hente data fra 3 måneder, 6 måneder, 12 måneder eller endda ældre data fra et datavarehus.
-
Ikke virtuel
Datavarehuset er et fysisk, vedvarende oplagringssted.
Data Warehouse vs Hadoop (Infographics)
Nedenfor er de Top 6 sammenligninger mellem Data Warehouse vs Hadoop
Data Warehouse vs Hadoop - hvilken skal man bruge?
- Hvis du har rene, konsistente og af høj kvalitet, skal du gå til Data Warehouse, fordi Hadoop mangler datakvalitet i nogle af dens løsninger.
- Hvis du har rå ustrukturerede data, skal du gå til Hadoop, fordi Hadoop fungerer godt med ustrukturerede / rå data, men Data Warehouse fungerer kun med strukturerede data.
- For lav latens og interaktive rapporter skal du gå til Data Warehouse
- For OLTP / Real-time / Point-forespørgsler skal du gå til Data Warehouse, fordi Hadoop fungerer godt med batchdata.
- For datasæt med stort volumen skal du gå til Hadoop, fordi Hadoop er designet til at løse Big data-problemer.
Sammenligningstabel fra hoved til hoved mellem datavarehus vs Hadoop
Nedenfor er listen over punkter, der beskriver sammenligninger mellem datavarehus vs Hadoop
Grundlag for sammenligning | Data varehus | Hadoop |
Data | I Data Warehouse analyserer vi strukturerede og behandlede data | I Hadoop kan vi behandle enhver form for data inklusive struktureret / ustruktureret / semistruktureret og rå |
Forarbejdning | Dets behandling er baseret på skema-på-skrivning-koncepter | Dets behandling er baseret på skema-på-læse koncepter |
Opbevaring | Velegnet til data med lille lydstyrke, og det er for meget dyrt for data med stort volumen | Det fungerer godt med store datasæt med enorm volumen, hastighed og variation |
Agility | Det er mindre smidigt og med fast konfiguration | Det er yderst smidig, konfigureret og konfigureret efter behov |
Sikkerhed | Data Warehouse-teknologier har eksisteret i årtier. Således med hensyn til sikkerhed kan vi stole på Data Warehouse | Mens Hadoop-teknologier er relativt nye sammenlignet med Data Warehouse, så er sikkerhed her en stor bekymring |
Brugere | Erhvervsfolk bruger normalt datalager | Hadoop er meget berømt inden for datavidenskab og datateknik |
Konklusion - Data Warehouse vs Hadoop
Nu ved vi både om Data Warehouse og Hadoop. Lad os gå tilbage og undersøge det spørgsmål, vi stillede i starten af denne Data Warehouse og Hadoop artikel -
1) Hvis du har big data, har du brug for et datavarehus?
Svar - så længe din organisation har brug for pålidelige, troværdige og tilgængelige data, har du brug for et datavarehus.
2) Vil Hadoop erstatte datavarehuset?
Svar - Sammenligning af datavarehus vs Hadoop er som at sammenligne æbler og appelsiner. De begge Data Warehouse og Hadoop har deres egne fordele i forskellige brugssagsscenarier. I nogle tilfælde er vi stadig afhængige af traditionelle Data Warehouse-teknikker, men når tiden ændrer sig, fokuserer vi mere på Hadoop Framework for at håndtere Big Data-problemer.
3) Er dette et dødsfald fra den traditionelle Data Warehouse-æra?
Svar - Som du kan se, er dette ikke rigtig et simpelt spørgsmål og egner sig derfor ikke godt til et enkelt svar. Det er sandt, at big data vil ændre den traditionelle datalagringsmetode i de kommende næste år, men de vil ikke forælde koncepterne og praksis med datalagring.
Anbefalet artikel
Dette har været en nyttig guide til Data Warehouse vs Hadoop her, vi har diskuteret deres betydning, sammenligning af hoved til hoved, nøgleforskel og konklusion. Du kan også se på den følgende artikel for at lære mere -
- Hadoop vs Splunk - Find ud af de bedste 7 forskelle
- Hadoop vs Elasticsearch - Hvilken er mere nyttig
- Big Data vs Data Warehouse - Find ud af de bedste forskelle
- Business Intelligence vs Data Warehouse
- Splunk vs Nagios