Výukový program Hadoop YARN - Osvojte si základy architektúry YARN



Tento blog sa zameriava na priadzu Apache Hadoop YARN, ktorá bola predstavená vo verzii Hadoop verzie 2.0 pre správu zdrojov a plánovanie úloh. Vysvetľuje architektúru YARN s jej komponentmi a úlohami, ktoré každá z nich vykonáva. Opisuje podanie žiadosti a pracovný postup v aplikácii Apache Hadoop YARN.

Hadoop YARN pletie úložnú jednotku Hadoop, t. J. HDFS (Hadoop Distributed File System), pomocou rôznych nástrojov na spracovanie. Pre tých z vás, pre ktorých je táto téma úplne nová, YARN znamená „ Y a TO ďalej R zdroj N egoista “. Navrhoval by som tiež, aby ste prešli našim a skôr, ako sa začnete učiť PRÍBEH Apache Hadoop. Nasledujúce témy vysvetlím tu, aby ste sa uistili, že na konci tohto blogu sú vaše znalosti o Hadoop YARN jasné.

Prečo NIT?

Vo verzii Hadoop 1.0, ktorá sa označuje aj ako MRV1 (MapReduce verzia 1), MapReduce vykonávala funkcie spracovania aj správy zdrojov. Skladal sa z nástroja na sledovanie úloh, ktorý bol jediným majstrom. Sledovač úloh pridelil zdroje, vykonal plánovanie a monitoroval úlohy spracovania. Priradilo mapovanie a znižovanie úloh na rade podriadených procesov nazývaných Sledovače úloh. Sledovatelia úloh pravidelne hlásili svoj pokrok sledovaču úloh.





MapReduce verzia 1.0 - Hadoop YARN - Edureka

Tento dizajn vyústil do úzkeho miesta škálovateľnosti vďaka jedinému sledovaču úloh.Spoločnosť IBM vo svojom článku spomenula, že podľa Yahoo! sa praktické limity takéhoto dizajnu dosahujú pri zhluku 5 000 uzlov a 40 000 úloh bežiacich súčasne.Okrem tohto obmedzenia je využitie výpočtových zdrojov v MRV1 neefektívne. Rámec Hadoop sa tiež obmedzil iba na paradigmu spracovania MapReduce.



Aby sme prekonali všetky tieto problémy, spoločnosť YARN zaviedla vo verzii Hadoop verzie 2.0 v roku 2012 spoločnosti Yahoo a Hortonworks. Základnou myšlienkou spoločnosti YARN je uľahčiť MapReduce prevzatím zodpovednosti za správu zdrojov a plánovanie úloh. YARN začalo dávať spoločnosti Hadoop schopnosť spúšťať úlohy, ktoré nie sú v rámci MapReduce, v rámci systému Hadoop.

Môžete si tiež pozrieť video nižšie, kde je naše expert podrobne diskutuje o konceptoch YARN a ich architektúre.

Výukový program pre priadzu Hadoop Architektúra priadze Hadoop Edureka

Zavedením priadze bol úplne revolučný. Stal sa oveľa flexibilnejším, efektívnejším a škálovateľnejším. Keď spoločnosť Yahoo v prvom štvrťroku 2013 spustila činnosť s YARN, pomohla spoločnosti zmenšiť veľkosť jej klastra Hadoop zo 40 000 uzlov na 32 000 uzlov. Počet pracovných miest sa ale zdvojnásobil na 26 miliónov mesačne.



Úvod do Hadoop YARN

Teraz, keď som vás osvietil potrebou PRIADZE, dovoľte mi predstaviť vám základnú zložku Hadoop v2.0, PRIADZE . YARN umožňuje spúšťať a spracovávať údaje uložené v HDFS rôzne metódy spracovania údajov, ako je spracovanie grafov, interaktívne spracovanie, spracovanie toku, ako aj dávkové spracovanie. Preto YARN otvára Hadoop pre ďalšie typy distribuovaných aplikácií nad rámec MapReduce.

YARN umožnilo používateľom vykonávať operácie podľa požiadaviek pomocou rôznych nástrojov ako napr na spracovanie v reálnom čase, Úľ pre SQL, HBase pre NoSQL a ďalšie.

Okrem riadenia zdrojov YARN vykonáva aj plánovanie úloh. YARN vykonáva všetky vaše spracovateľské činnosti prideľovaním zdrojov a plánovaním úloh. Apache Hadoop YARN Architecture sa skladá z nasledujúcich hlavných komponentov:

  1. Správca zdrojov : Beží na hlavnom démonovi a spravuje alokáciu prostriedkov v klastri.
  2. Správca uzlov: Bežia na otrokárskych démonoch a sú zodpovední za vykonanie úlohy v každom jednom dátovom uzle.
  3. Master aplikácie: Spravuje životný cyklus úlohy používateľa a potreby zdrojov jednotlivých aplikácií. Funguje spolu s manažérom uzlov a sleduje vykonávanie úloh.
  4. Kontajner: Balík zdrojov vrátane RAM, CPU, siete, HDD atď. Na jednom uzle.

Komponenty PRIADZE

YARN môžete považovať za mozog vášho ekosystému Hadoop. Obrázok nižšie predstavuje YARN Architecture.

The prvá zložka YARN Architecture je,

Správca zdrojov

  • Je najvyššou autoritou pri prideľovaní zdrojov .
  • Po prijatí požiadaviek na spracovanie príslušným spôsobom zašle časti požiadaviek príslušným správcom uzlov, kde dôjde k skutočnému spracovaniu.
  • Je rozhodcom zdrojov klastra a rozhoduje o alokácii dostupných zdrojov pre konkurenčné aplikácie.
  • Optimalizuje využitie klastra, ako napríklad neustále udržiavanie všetkých zdrojov v prevádzke proti rôznym obmedzeniam, ako sú napríklad kapacitné záruky, spravodlivosť a SLA.
  • Má dve hlavné zložky:a) Plánovačb)Správca aplikácií

a) Plánovač

ako deklarovať inštančnú premennú v jave
  • Plánovač je zodpovedný za alokáciu zdrojov pre rôzne spustené aplikácie, na ktoré sa vzťahujú obmedzenia kapacít, fronty atď.
  • V nástroji ResourceManager sa nazýva čistý plánovač, čo znamená, že nevykonáva žiadne sledovanie ani sledovanie stavu aplikácií.
  • Ak dôjde k zlyhaniu aplikácie alebo hardvéru, plánovač nezaručuje reštartovanie zlyhaných úloh.
  • Vykonáva plánovanie na základe požiadaviek aplikácií na zdroje.
  • Má zásuvný zásuvný modul politiky, ktorý je zodpovedný za rozdelenie prostriedkov klastra medzi rôzne aplikácie. Existujú dva také doplnky: Plánovač kapacity a Fair Scheduler , ktoré sa v súčasnosti používajú ako plánovače v ResourceManager.

b) Správca aplikácií

  • Je zodpovedný za prijímanie pracovných ponúk.
  • Vyjedná prvý kontajner zo správcu zdrojov na vykonanie aplikačnej predlohy aplikácie.
  • Spravuje spustenie aplikačných majstrov v klastri a poskytuje službu pre reštartovanie kontajnera hlavnej aplikácie pri zlyhaní.

Prichádza do druhá zložka ktorý je:

Správca uzlov

  • Stará sa o jednotlivé uzly v klastri Hadoop aspravuje užívateľské úlohy a workflow na danom uzle.
  • Zaregistruje sa v Správcovi zdrojov a odošle údery srdca so zdravotným stavom uzla.
  • Jeho primárnym cieľom je správa aplikačných kontajnerov, ktoré mu boli pridelené správcom zdrojov.
  • Udržuje to aktuálne s manažérom zdrojov.
  • Aplikácia Master požaduje pridelený kontajner od manažéra uzlov zaslaním kontextu spustenia kontajnera (CLC), ktorý obsahuje všetko, čo aplikácia potrebuje na spustenie. Správca uzlov vytvorí požadovaný proces kontajnera a spustí ho.
  • Monitoruje využitie zdrojov (pamäť, CPU) jednotlivých kontajnerov.
  • Vykonáva správu protokolu.
  • Taktiež zabije kontajner podľa pokynov správcu zdrojov.

The tretia zložka Apache Hadoop YARN je,

Master aplikácie
  • Žiadosť je jedna práca predložená do rámca. Každá takáto aplikácia má priradený jedinečný hlavný server aplikácií, čo je entita špecifická pre daný rámec.
  • Je to proces, ktorý koordinuje vykonávanie aplikácie v klastri a tiež spravuje chyby.
  • Jeho úlohou je vyjednať zdroje z manažéra zdrojov a pracovať s manažérom uzlov na vykonávaní a monitorovaní úloh komponentov.
  • Je zodpovedný za vyjednávanie vhodných kontajnerov zdrojov z ResourceManagera, sledovanie ich stavu a monitorovanie pokroku.
  • Po spustení pravidelne odosiela tepy správcovi zdrojov, aby potvrdil jeho zdravie a aktualizoval záznam svojich požiadaviek na zdroje.

The štvrtá zložka je:

Kontajner
  • Je to súbor fyzických zdrojov, ako sú RAM, jadrá CPU a disky v jednom uzle.
  • Kontajnery YARN sú spravované v kontexte spustenia kontajnera, ktorým je životný cyklus kontajnera (CLC). Tento záznam obsahuje mapu premenných prostredia, závislostí uložených v diaľkovo prístupnom úložisku, tokeny zabezpečenia, užitočné zaťaženie pre služby Node Manager a príkaz potrebný na vytvorenie procesu.
  • Udeľuje aplikácii oprávnenie na použitie konkrétneho množstva zdrojov (pamäť, CPU atď.) Na konkrétnom hostiteľovi.

Podanie žiadosti v PRIADZE

Pozrite si obrázok a pozrite si kroky potrebné na odoslanie žiadosti o aplikáciu Hadoop YARN:

1) Odošlite úlohu

2)Získajte ID aplikácie

3) Kontext predloženia žiadosti

4 a) Spustite kontajnerSpustiť

b) Spustite aplikáciu Master

5) Prideľte zdroje

6 a) Kontajner

b) Spustiť

7) Vykonať

čo je továreň v angularjs

Pracovný tok aplikácií v Hadoop YARN

Pozrite si uvedený obrázok a pozrite si nasledujúce kroky súvisiace s pracovným tokom aplikácií aplikácie Apache Hadoop YARN:

  1. Klient podá žiadosť
  2. Správca zdrojov alokuje kontajner na spustenie Správcu aplikácií
  3. Správca aplikácií sa zaregistruje v Správcovi zdrojov
  4. Aplikácia Manager žiada od správcu zdrojov kontajnery
  5. Správca aplikácií upozorní správcu uzlov na spustenie kontajnerov
  6. Kód aplikácie sa vykonáva v kontajneri
  7. Klient kontaktuje Správcu zdrojov / Správcu aplikácií za účelom monitorovania stavu aplikácie
  8. Zrušenie registrácie správcu aplikácií pomocou správcu zdrojov

Teraz, keď poznáte program Apache Hadoop YARN, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.