Na spracovanie malých alebo stredných súborov údajov stačili dlho relačné databázy. Ale vďaka obrovskej rýchlosti rastu dát je tradičný prístup k ukladaniu a vyhľadávaniu údajov neuskutočniteľný. Tento problém je riešený novšími technológiami, ktoré zvládnu Big Data. Hadoop, Hive a Hbase sú populárne platformy na prevádzkovanie tohto druhu veľkých súborov údajov. NoSQL alebo nielen databázy SQL, ako napríklad MongoDB, poskytujú mechanizmus na ukladanie a načítanie údajov v modeli konzistencie porazeného s výhodami ako:
- Horizontálne škálovanie
- Vyššia dostupnosť
- Rýchlejší prístup
Tím inžinierov MongoDB nedávno aktualizoval konektor MongoDB pre Hadoop, aby mal lepšiu integráciu. To používateľom Hadoopu uľahčuje:
- Integrujte dáta z MongoDB v reálnom čase do Hadoop pre hlbokú offline analýzu.
- Konektor vystavuje analytickú silu aplikácie Hadoop MapReduce na živé dáta aplikácií z MongoDB, čím zvyšuje hodnotu z veľkých dát rýchlejšie a efektívnejšie.
- Konektor predstavuje MongoDB ako súborový systém kompatibilný s Hadoop, ktorý umožňuje úlohe MapReduce čítať priamo z MongoDB bez toho, aby ste ho najskôr skopírovali na HDFS (súborový systém Hadoop), čím odpadá potreba presúvať terabajty dát po sieti.
- Úlohy MapReduce môžu odovzdávať dotazy ako filtre, takže sa vyhnete nutnosti skenovania celých zbierok, a tiež môžete využiť výhody bohatých indexovacích schopností MongoDB vrátane geopriestorových, textových vyhľadávaní, polí, zložených a riedkych indexov.
- Čítaním z MongoDB možno výsledky úloh Hadoop tiež zapísať späť do MongoDB, aby sa podporili operačné procesy v reálnom čase a ad-hoc dopytovanie.
Prípady použitia Hadoop a MongoDB:
Pozrime sa na vysoký popis toho, ako môžu MongoDB a Hadoop zapadnúť do seba v typickom zásobníku veľkých dát. Primárne máme:
faktoriál pomocou rekurzie v c
- MongoDB použitý ako „Prevádzkové“ úložisko údajov v reálnom čase
- Hadoop pre offline dávkové spracovanie a analýza dát
Čítajte ďalej a dozviete sa prečo a ako MongoDB používali spoločnosti a organizácie ako Aadhar, Shutterfly, Metlife a eBay .
Aplikácia MongoDB s Hadoop v dávkovej agregácii:
Vo väčšine scenárov je na analýzu údajov postačujúca vstavaná agregačná funkcia poskytovaná MongoDB. V určitých prípadoch však môže byť nevyhnutná podstatne zložitejšia agregácia údajov. To je miesto, kde Hadoop môže poskytnúť silný rámec pre komplexnú analýzu.
V tomto scenári:
- Dáta sa získavajú z MongoDB a spracúvajú sa v rámci Hadoop prostredníctvom jednej alebo viacerých úloh MapReduce. Dáta môžu byť tiež získavané z iných miest v rámci týchto úloh MapReduce, aby sa vytvoril vývoj riešenia s viacerými zdrojmi údajov.
- Výstup z týchto úloh MapReduce potom možno zapísať späť do MongoDB na neskoršie zadanie dotazu a na ľubovoľnú analýzu ad-hoc.
- Aplikácie postavené na platforme MongoDB môžu preto použiť informácie z dávkovej analýzy na predloženie koncovému klientovi alebo na povolenie ďalších následných funkcií.
Aplikácia v dátovom sklade:
V typickom výrobnom nastavení môžu byť údaje aplikácie uložené vo viacerých úložiskách údajov, z ktorých každé má svoj vlastný vyhľadávací jazyk a funkčnosť. Na zníženie zložitosti v týchto scenároch je možné Hadoop použiť ako dátový sklad a pôsobiť ako centralizované úložisko pre údaje z rôznych zdrojov.
V tomto druhu scenára:
- Periodické MapReduce úlohy načítajú údaje z MongoDB do Hadoop.
- Akonáhle sú údaje z MongoDB a ďalších zdrojov k dispozícii v Hadoop, je možné dopytovať väčšiu množinu údajov.
- Analytici dát majú teraz možnosť použiť buď MapReduce alebo Pig na vytvorenie pracovných pozícií, ktoré sa pýtajú na väčšie súbory údajov, ktoré obsahujú údaje z MongoDB.
čo robí append v Jave
Tím pracujúci za MongoDB zabezpečil, že vďaka svojej bohatej integrácii s technológiami Big Data, ako je Hadoop, je schopný dobre sa integrovať do Big Data Stack a pomôcť vyriešiť niektoré zložité architektonické problémy, pokiaľ ide o ukladanie, vyhľadávanie, spracovanie, agregáciu a skladovanie dát . Zostaňte naladení na náš nadchádzajúci príspevok o kariérnych vyhliadkach pre tých, ktorí sa Hadoopu zúčastňujú na MongoDB. Ak už pracujete s Hadoopom alebo si len vyberáte MongoDB, pozrite sa na kurzy, ktoré ponúkame pre MongoDB