Prehľad federácie klastrovej architektúry Hadoop 2.0



Apache Hadoop 2.x pozostáva z významných vylepšení oproti Hadoop 1.x. Tento blog hovorí o federácii klastrovej architektúry Hadoop 2.0 a jej komponentoch.

Federácia klastrovej architektúry Hadoop 2.0

Úvod:

V tomto blogu sa podrobne ponorím do federácie klastrovej architektúry Hadoop 2.0. Apache Hadoop sa od vydania Apache Hadoop 1.x veľmi vyvinul. Ako viete z môjho predchádzajúceho blogu, že sleduje topológiu Master / Slave, kde NameNode funguje ako hlavný démon a je zodpovedný za správu ďalších podradených uzlov nazývaných DataNodes. V tomto ekosystéme sa tento jediný hlavný démon alebo NameNode stáva prekážkou a naopak, spoločnosti musia mať NameNode, ktorý je vysoko dostupný. Práve z tohto dôvodu sa stal základom architektúry HDFS Federation Architecture a Architektúra HA (vysoká dostupnosť) .

Témy, ktorým sa venujem v tomto blogu, sú nasledujúce:





  • Súčasná architektúra HDFS
  • Obmedzenia súčasnej architektúry HDFS
  • Architektúra federácie HDFS

Prehľad súčasnej architektúry HDFS:

Architektúra HDFS s jedným menným priestorom - prehľad federácie klastrovej architektúry Hadoop 2.0 - Edureka

Ako vidíte na obrázku vyššie, súčasný HDFS má dve vrstvy:



ako uzavrieť program v jave
  • Menný priestor HDFS (NS): Táto vrstva je zodpovedná za správu adresárov, súborov a blokov. Poskytuje všetky operácie so súborovým systémom spojené s menným priestorom, ako je vytváranie, mazanie alebo úprava súborov alebo adresárov súborov.
  • Skladovacia vrstva: Skladá sa z dvoch základných komponentov.
    1. Správa blokov : Vykonáva nasledujúce operácie:
      • Pravidelne kontroluje tepy DataNodes a spravuje členstvo v DataNode v klastri.
      • Spravuje správy o blokoch a udržiava ich umiestnenie.
      • Podporuje operácie bloku, ako je vytváranie, modifikácia, mazanie a alokácia umiestnenia bloku.
      • Udržuje konzistentný faktor replikácie v celom klastri.

2. Fyzické ukladanie : Spravuje ho DataNodes, ktoré sú zodpovedné za ukladanie údajov, a tým poskytujú prístup na čítanie a zápis k údajom uloženým v HDFS.

Súčasná architektúra HDFS vám teda umožňuje mať jeden klaster pre klaster. V tejto architektúre je jediný NameNode zodpovedný za správu menného priestoru. Táto architektúra je veľmi pohodlná a ľahko sa implementuje. Poskytuje tiež dostatočné kapacity na uspokojenie potrieb malého produkčného klastra.

Obmedzenia súčasného HDFS:

Ako už bolo spomenuté, súčasný HDFS stačil potrebám a prípadom použitia malého produkčného klastra. Veľké organizácie ako Yahoo alebo Facebook však našli určité obmedzenia, pretože klaster HDFS rástol exponenciálne. Poďme sa rýchlo pozrieť na niektoré z obmedzení:



  1. Menný priestor je nie škálovateľné ako DataNodes. Preto môžeme mať v klastri iba taký počet DataNodes, aký zvládne jediný NameNode.
  2. Dve vrstvy, t. J. Namespace vrstva a úložná vrstva, sú Tesne spojené čo veľmi sťažuje alternatívnu implementáciu NameNode.
  3. Výkon celého systému Hadoop závisí od priepustnosť NameNode. Preto celý výkon všetkých operácií HDFS závisí od toho, koľko úloh dokáže NameNode zvládnuť v konkrétnom čase.
  4. NameNode ukladá celý priestor mien do RAM pre rýchly prístup. To vedie k obmedzeniam z hľadiska veľkosť pamäte tj počet objektov menného priestoru (súborov a blokov), s ktorými sa dokáže vyrovnať jeden server menného priestoru.
  5. Mnohé z organizácií (predajcov), ktoré majú nasadenie HDFS, umožňujú viacerým organizáciám (nájomcom) používať svoj priestor názvov klastrov. Neexistuje teda nijaké oddelenie menného priestoru, a preto aj existuje žiadna izolácia medzi organizáciami nájomcov, ktorí používajú klaster.

Architektúra federácie HDFS:

  • V architektúre HDFS Federation Architecture máme horizontálnu škálovateľnosť mennej služby. Preto máme viac NameNodes, ktoré sú federované, t. J. Navzájom nezávislé.
  • Údajové uzly sa nachádzajú v spodnej časti, t. J. Podkladová úložná vrstva.
  • Každý DataNode sa zaregistruje so všetkými NameNodes v klastri.
  • DataNodes vysielajú periodické tepy, blokujú správy a vybavujú príkazy z NameNodes.

Obrázkové znázornenie architektúry federácie HDFS je uvedené nižšie:

Predtým, ako budem pokračovať, dovoľte mi krátko hovoriť o vyššie uvedenom architektonickom obraze:

Výukový program pre server SQL pre začiatočníkov s príkladmi
  • Existuje niekoľko menných priestorov (NS1, NS2,…, NSn) a každý z nich je riadený príslušným NameNode.
  • Každý priestor názvov má svoj vlastný fond blokov (NS1 má fond 1, NSk má fond k atď.).
  • Ako je znázornené na obrázku, bloky z poolu 1 (nebesky modré) sa ukladajú na DataNode 1, DataNode 2 atď. Podobne budú všetky bloky z každej skupiny blokov umiestnené na všetkých DataNodes.

Poďme si teraz podrobne predstaviť komponenty architektúry HDFS Federation Architecture:

Skupina blokov:

Skupina blokov nie je nič iné ako sada blokov patriacich do konkrétneho priestoru mien. Takže máme kolekciu blokovej skupiny, kde je každá blokovaná skupina spravovaná nezávisle na druhej. Táto nezávislosť, keď je každá skupina blokov riadená nezávisle, umožňuje mennému priestoru vytvárať ID blokov pre nové bloky bez koordinácie s inými mennými priestormi. Dátové bloky prítomné vo všetkej skupine blokov sú uložené vo všetkých DataNodes. Fond blokov v zásade poskytuje takú abstrakciu, že dátové bloky nachádzajúce sa v DataNodes (ako v architektúre Single Namespace Architecture) možno zoskupiť podľa konkrétneho menného priestoru.

Objem menného priestoru:

Zväzok menného priestoru nie je nič iné ako menný priestor spolu s jeho blokovou oblasťou. Preto vo federácii HDFS máme viac zväzkov menného priestoru. Je to samostatná jednotka správy, t. J. Každý zväzok menného priestoru môže fungovať nezávisle. Ak sa odstráni NameNode alebo namespace, vymaže sa aj zodpovedajúca skupina blokov, ktorá sa nachádza na DataNodes.

Demo na federáciu klastrovej architektúry Hadoop 2.0 Edureka

Myslím, že teraz máte celkom dobrú predstavu o architektúre federácie HDFS. Je to skôr teoretický koncept a ľudia ho všeobecne nepoužívajú v praktickom produkčnom systéme. Existuje niekoľko problémov s implementáciou HDFS Federation, ktoré sťažujú nasadenie. Preto Architektúra HA (vysoká dostupnosť) sa uprednostňuje riešenie problému Single Point of Failure. Pokryl som HDFS HA ​​architektúra v mojom ďalšom blogu.

Teraz, keď ste pochopili architektúru Hadoop HDFS Federation Architecture, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.