Ako vytvoriť klaster Hadoop s Amazon EMR?



V tomto článku preskúmame službu AWS EMR a v procese sa naučíme Ako vytvoriť klaster Hadoop s Amazon EMR?

V tomto článku o tom, ako vytvárať Klaster S Amazon EMR by sme videli, ako ľahko spustiť a škálovať aplikácie Hadoop a Big Data. V tomto článku sa budeme zaoberať nasledujúcimi ukazovateľmi,

Ďalej s týmto Ako vytvoriť klaster Hadoop s Amazon EMR?





Ako vytvoriť klaster Hadoop s Amazon EMR?

Keď niečo hľadáme na stránkach Google alebo Yahoo, dostaneme odpoveď za zlomok sekundy. Ako je možné, že Google, Yahoo a ďalšie vyhľadávače vracajú výsledky tak rýchlo z neustále rastúceho webu? Vyhľadávacie nástroje prehľadávajú internet, sťahujú webové stránky a vytvárajú index, ako je uvedené nižšie. Pri akomkoľvek dotaze od nás pomocou indexu zisťujú, aké sú všetky webové stránky obsahujúce text, ktorý sme hľadali. Ak sa pozrieme na nasledujúci index na pravej strane, jasne vieme, že Hadoop obsahuje webové stránky 1, 2 a 3.

Obrázok - Ako vytvoriť klaster Hadoop s Amazon EMR - EdurekaPotom Algoritmus PageRanking sa používa na základe toho, ako sú stránky spojené, aby sa zistilo, ktorá stránka sa má zobraziť v hornej a ktorá v dolnej časti. V nasledujúcom scenári je W1 „najpopulárnejší“, pretože všetci naň odkazujú a W4 je „najmenej obľúbený“, pretože nikto na neho neodkazuje. W1 sa teda zobrazuje vo výsledkoch vyhľadávania hore a W4 v dolnej časti.



S výbuchom webových stránok hľadali tieto vyhľadávače výzvy na vytvorenie indexu a vykonanie výpočtov PageRanking. Na tomto mieste sa zrodil produkt Hadoop na Yahoo a neskôr sa z neho stal FOSS (bezplatný a otvorený softvér) v rámci ASF (Apache Software Foundation). Po vstupe do ASF sa veľa spoločností začalo zaujímať o Hadoop a začali prispievať k jeho zlepšovaniu. Hadoop bol ten, ktorý zahájil revolúciu v oblasti veľkých dát, ale veľa ďalších softvérov, ako sú Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, sa začalo vyvíjať, aby vyriešilo obmedzenia a medzery v Hadoop.

Webové vyhľadávače boli prvé, ktoré používali Hadoop, ale neskôr sa začalo vyvíjať veľa prípadov použitia, keď sa generovalo čoraz viac údajov. Zoberme si príklad aplikácie eCommerce používanej na odporúčanie kníh používateľovi. Podľa nižšie uvedeného diagramu užívateľ1 kúpil book1, book2 a book3, user2 kúpil niekoľko kníh a tak ďalej. Keď sa pozrieme pozorne, môžeme pozorovať, že user1 a user2 majú podobný vkus, ako keď si kúpili book1 a book2. Takže book3 možno odporučiť užívateľovi2 a book4 možno odporučiť užívateľovi1. Toto sa nazýva Kolaboratívne filtrovanie, typ algoritmu strojového učenia. Nižšie uvedený diagram môžeme otočiť a získať podobné knihy.

V uvedenom prípade sme vytvorili index, PageRanked a odporúčaný používateľovi, veľkosť dát bola malá, a tak sme boli schopní dáta vizualizovať a odvodiť z nich nejaké výsledky. Pretože sa veľkosť dát každým dňom zväčšuje a vymkne spod kontroly, prichádza na rad veľké dátové nástroje ako Hadoop.



Hadoop rieši veľa problémov, ale inštalácia Hadoop a iného softvéru Big Data nikdy nebola ľahká úloha. Je možné vyladiť veľa konfiguračných parametrov, ako napríklad problémy s integráciou, inštaláciou a konfiguráciou. To je miesto, kde spoločnosti ako Cloudera, a Databricks help. Uľahčujú inštaláciu softvéru Big Data a poskytujú komerčnú podporu, napríklad povedzme, že sa niečo stane vo výrobe. Aplikácia Amazon EMR (Elastic MapReduce) uľahčuje používanie softvéru Hadoop atď. Oveľa jednoduchšie. Názov Elastic MapReduce je trochu nesprávny, pretože EMR podporuje aj ďalšie distribuované výpočtové modely, ako napríklad Resilient Distributed Datasets, a nielen MapReduce.

V tomto výučbe sa budeme zaoberať nastavením klastra EMR na AWS Cloud a v nasledujúcom výučbe sa budeme venovať tomu, ako na ňom spustiť programy Spark, Hive a ďalšie.

Ďalej s týmto Ako vytvoriť klaster Hadoop s Amazon EMR?

Demo: Vytvorenie EMR klastra v AWS

Krok 1: Prejdite do konzoly EMR Management Console a kliknite na „Vytvoriť klaster“. V konzole metadáta pre ukončený klaster sa tiež ukladá na dva mesiace zadarmo. To umožňuje ukončenie klastra klonovať a znova vytvoriť.

kuchár vs bábka vs soľ

Krok 2 : Na obrazovke rýchlych možností kliknite na „Prejsť na rozšírené možnosti“ a zadajte oveľa viac podrobností o klastri.

Krok 3: Na karte Rozšírené možnosti môžeme vybrať iný softvér, ktorý sa má nainštalovať do klastra EMR. Pre rozhranie SQL je možné zvoliť Hive. Pre jazykové rozhranie toku dát je možné zvoliť Pig. Pre koordináciu distribuovaných aplikácií je možné zvoliť ZooKeeper atď. Táto karta nám tiež umožňuje pridávať kroky, čo je voliteľná úloha. Kroky sú úlohy spracovania veľkých dát pomocou nástrojov MapReduce, Pig, Hive atď. Môžu byť pridané na tejto karte alebo neskôr, akonáhle bude vytvorený klaster. Kliknutím na „Ďalej“ vyberte požadovaný hardvér pre klaster EMR.

Krok 4: Hadoop sleduje architektúru master-worker, kde master vykonáva všetku koordináciu, ako je plánovanie a prideľovanie prác a kontrola ich priebehu, zatiaľ čo samotní pracovníci pracujú so spracovaním a ukladaním údajov. Jeden riadiaci modul je jeden bod zlyhania (SPOF). Amazon EMR podporuje multi-master pre vysokú dostupnosť (HA). Predchádzajúci krok umožňuje nastaviť klaster s viacerými mastermi v EMR.

EMR umožňuje dva typy uzlov, Core a Task. Uzol jadra sa používa na spracovanie aj na ukladanie údajov, uzol úlohy sa používa iba na spracovanie údajov. Pre tento tutoriál môžeme vybrať iba jeden Core a žiadne uzly úloh, pretože to pre nás znamená nižšie náklady. Tiež si vyberte Spotové inštancie cez Na požiadanie pretože spotové prípady sú lacnejšie. Háčik inštancií Spot je, že ich môže AWS ukončiť automaticky pomocou a dvojminútové upozornenie . To je v poriadku z dôvodu praxe a tiež v niektorých skutočných scenároch. Spotové inštancie sa ukončujú automaticky, pretože majú nízku prioritu pred ostatnými typmi inštancií. Kliknite na „Ďalej“.

Krok 5: Zadajte názov klastra. a kliknite na „Ďalej“. Všimnite si, že „Ochrana pred ukončením“ je predvolene zapnutá. Týmto sa zabezpečí, že klaster EMR nebude omylom vymazaný vykonaním niekoľkých krokov pri jeho ukončení.

Krok 6: Na karte sú špecifikované rôzne možnosti zabezpečenia pre klaster EMR. Pre prihlásenie do inštancie EC2 je potrebné zvoliť KeyPair. EMR automaticky vytvorí príslušné roly a skupiny zabezpečenia a pripojí ich k hlavným a pracovným uzlom EC2. Kliknite na „Vytvoriť klaster“.

Vytvorenie klastra trvá niekoľko minút, pretože je potrebné dokúpiť inštancie EC2 a nainštalovať a nakonfigurovať rôzne softvér Big Data. Stav klastra by bol pôvodne v stave „Spustenie“ a prešiel do stavu „Čakanie“. V stave „Čakanie“ EMR klaster jednoducho čaká na nás, kým zadáme rôzne úlohy spracovania veľkých dát ako MR, Spark, Hive atď.

Všimnite si tiež z EC2 Management Console a všimnite si, že inštancie Master a Worker EC2 by mali byť v spustenom stave. Toto sú inštancie Spot, ktoré boli vytvorené ako súčasť vytvárania klastra EMR. Rovnaký EC2 je možné pozorovať aj na karte Hardvér v konzole EMR Management Console. Upozorňujeme, že na karte Hardvér je cena inštancií Spot EC2 uvedená ako 0,032 $ / hod. Cena inštancií Spot sa neustále mení a je oveľa nižšia ako cena EC2 na požiadanie.

Krok 7: Teraz, keď bol klaster EMR úspešne pridaný, je možné pridať kroky alebo úlohy spracovania veľkých dát. Prejdite na kartu Kroky a kliknite na „Pridať krok“ a vyberte typ kroku (MR, Hive, Spark atď.). To isté preskúmame v pripravovanom návode. Zatiaľ kliknite na Zrušiť.

funkcie, ktoré sa líšia iba svojim návratovým typom, nemôžu byť preťažené

Krok 8: Teraz, keď sme videli, ako spustiť EMR, pozrime sa, ako to isté zastaviť.

typy funkcií v sql

Krok 8.1: Kliknite na Ukončiť.

Krok 8.2: Ako bolo uvedené v predchádzajúcich krokoch, „Ochrana pred ukončením“ je pre klaster EMR zapnutá a tlačidlo Ukončiť bolo deaktivované. Kliknite na Zmeniť.

Krok 8.3: Vyberte prepínač „Vypnuté“ a kliknite na značku začiarknutia. Teraz by malo byť povolené tlačidlo Ukončiť. Toto je ďalší krok, ktorý EMR zaviedlo, len aby sme sa uistili, že klaster EMR nevymažeme omylom.

Všimnite si, že klaster EMR bude v stave Ukončenie a EC2 budú ukončené. Na záver sa klaster EMR presunie do stavu Ukončené, odtiaľ sa zastaví naša fakturácia so zastavením AWS. Nezabudnite ukončiť klaster, aby vám nevznikli ďalšie náklady na AWS.

Záver

V tomto tutoriáli sme videli, ako spustiť EMR klaster v priebehu niekoľkých minút z webovej konzoly (prehliadača), to isté je možné automatizovať pomocou , AWS SDK alebo pomocou AWS CloudFormation . Pretože si všimnete, že nastavenie klastra EMR je možné, je to otázka minút a spracovanie veľkých dát je možné spustiť okamžite, akonáhle je spracovanie hotové, výstup môže byť uložený v S3 alebo DynamoDB a tak vypnutie klastra na zastavenie fakturácie. Vďaka tomuto cenovému modelu a ľahkému použitiu je EMR veľkým hitom u tých, ktorí robia spracovanie veľkých dát. Nie je potrebné kupovať server vo veľkom množstve, získavať licencie na softvér Big Data a udržiavať ich. “

Takže toto je to, chlapci, týmto sa dostávame na koniec tohto článku o tom, ako vytvoriť klaster Hadoop pomocou Amazon EMR?V prípade, že chcete získať odborné znalosti v tomto predmete, Edureka vymyslela učebný plán, ktorý obsahuje presne to, čo by ste potrebovali na absolvovanie skúšky Architect Architect! Môžete sa pozrieť na podrobnosti kurzu pre školenia.

V prípade akýchkoľvek otázok týkajúcich sa tohto blogu, neváhajte položiť otázku v sekcii komentárov nižšie. Radi vám odpovieme najskôr.