Cloudera Hadoop: Začíname s distribúciou CDH



Tento blog Edureka o výučbe Cloudera Hadoop vám poskytne kompletný prehľad o rôznych komponentoch Cloudera, ako sú Cloudera Manager, Parcels, Hue atď.

So zvyšujúcim sa dopytom po veľkých dátach je Apache Hadoopojadro revolúcie, zmenila spôsob, akým organizujeme a počítame údaje. Potreba organizácií zosúladiť Hadoop s ich obchodnými potrebami podnietila vznik komerčných distribúcií. Komerčné distribúcie Hadoop sú zvyčajne vybavené funkciami určenými na zjednodušenie nasadenia produktu Hadoop. Cloudera Hadoop Distribution poskytuje škálovateľnú, flexibilnú a integrovanú platformu, ktorá uľahčuje správu rýchlo sa zvyšujúcich objemov a druhov údajov vo vašom podniku.

V tomto blogu o distribúcii Cloudera Hadoop sa budeme venovať nasledujúcim témam:





Cloudera Hadoop: Úvod do Hadoopu

Hadoop je open-source framework Apache, ktorý ukladá a spracováva veľké dáta v distribuovanom prostredícezklaster pomocou jednoduchých programovacích modelov. Hadoop poskytuje paralelný výpočet nad distribuovaným úložiskom.Ak sa chcete dozvedieť viac podrobností o Hadoope, od môžete sa na to odvolať

Po tomto krátkom úvode do programu Hadoop mi dovoľte teraz vysvetliť rôzne typy distribúcie Hadoop.



Cloudera Hadoop: Distribúcie Hadoop

Pretože Apache Hadoop je otvorený zdroj, mnoho spoločností vyvinulo distribúcie, ktoré presahujú pôvodný otvorený zdrojový kód. Je to veľmi podobné distribúciám Linuxu, ako sú RedHat, Fedora a Ubuntu. Každá z distribúcií Linuxu podporuje svoje vlastné funkcie a vlastnosti, ako napríklad užívateľsky prívetivé grafické rozhranie v systéme Ubuntu. Podobne červený klobúk je v podnikoch populárny, pretože ponúka podporu a poskytuje ideológiu na vykonávanie zmien v ľubovoľnej časti systému podľa ľubovôle. Red Hat vás zbaví problémov s kompatibilitou softvéru. Toto je zvyčajne veľký problém pre používateľovktorí prechádzajú z Windows.

Rovnako tak existujú 3 hlavné typy distribúcií Hadoop, ktoré majú vlastnú sadu funkcií a funkcií a sú postavené pod základným HDFS.

Cloudera vs MapR vs Hortonworks

Obr: MapR vs Hortonworks vs Cloudera

Obr: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop Distribúcia

Cloudera je trendom na trhu vo vesmíre Hadoop a je prvým, ktorý vydal komerčnú distribúciu Hadoop. Ponúka poradenské služby na prekonanie rozdielu medzi „čo poskytuje Apache Hadoop“ a „čo organizácie potrebujú“.

Cloudera Distribúcia je:

  • Rýchlo pre podnikanie : Od analytiky po dátovú vedu a všetko medzi tým, Cloudera poskytuje výkon, ktorý potrebujete, aby ste odhalili potenciál neobmedzeného množstva dát.
  • Uľahčuje správu softvéru Hadoop : S nástrojom Cloudera Manager vám automatizovaní sprievodcovia umožňujú rýchle nasadenie klastra bez ohľadu na rozsah alebo prostredie nasadenia.
  • Zabezpečte bez kompromisov: Spĺňa prísne požiadavky na zabezpečenie údajov a súlad s predpismi bez toho, aby bola obetovaná obchodná svižnosť. Cloudera poskytuje integrovaný prístup k bezpečnosti a správe údajov.

Horton-Works Distribúcia

Horton-Works Data Platform (HDP) je úplne otvorená platforma určená na manévrovanie s dátami z mnohých zdrojov a formátov. Platforma obsahuje rôzne nástroje Hadoop, ako napríklad Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive a ďalšie komponenty.

Podporuje tiež funkcie ako:

  • HDP robí Úľ rýchlejšie prostredníctvom svojho nového projektu Stinger.
  • HDP vyhýba sa blokovaniu dodávateľa zaviazaním sa k vidlicovej verzii Hadoop.
  • HDP sa zameriava na zlepšenie použiteľnosť platformy Hadoop.

Distribúcia MapR

MapR je poskytovateľ riešení Hadoop zameraný na platformu, rovnako ako HortonWorks a Cloudera. MapR integruje vlastný databázový systém známy ako MapR-DB a ponúka distribučné služby Hadoop. MapR-DB je údajne štyri až sedemkrát rýchlejší ako skladová databáza Hadoop, t. J. HBase, ktorá sa vykonáva v iných distribúciách.

Má svoje zaujímavé funkcie, ako napríklad:

  • Je to jediná distribúcia Hadoop, ktorá obsahuje Pig, Hive a Sqoop bez akýchkoľvek závislostí Java - pretože sa spolieha na systém súborov MapR.
  • MapR je distribúcia Hadoop s najväčšou produkciou, ktorá má veľa vylepšení, vďaka ktorým je užívateľsky príjemnejšia, rýchlejšia a spoľahlivejšia.

Poďme si teraz podrobne predstaviť distribúciu Cloudera Hadoop.

Prihláste sa na odber nášho kanála YouTube a získajte nové aktualizácie ...

Cloudera Hadoop: Distribúcia cloudera

Cloudera je najznámejší hráč v priestore Hadoop, ktorý vydal prvú komerčnú distribúciu Hadoop.

Obr: Distribúcia cloudera Hadoop

Cloudera Hadoop Distribution podporuje nasledujúcu sadu funkcií:

  1. Disk CDH od spoločnosti Cloudera obsahuje všetky komponenty open source, zameriava sa na nasadenie na podnikovej úrovni a je jednou z najpopulárnejších komerčných distribúcií Hadoop.
  2. Ako prvá ponúkala spoločnosť Cloudera známa svojimi inováciami SQL pre Hadoop s tým Impala vyhľadávací modul.
  3. Konzola pre správu - Správca cloudera , je ľahko použiteľný a implementovateľný pomocou bohatého používateľského rozhrania, ktoré zobrazuje všetky informácie o klastri organizovaným a čistým spôsobom.
  4. V CDH môžete pridávať služby do fungujúceho klastra bez akéhokoľvek prerušenia.
  5. Medzi ďalšie prírastky produktu Cloudera patrí zabezpečenie, používateľské rozhranie a rozhrania na integráciu s aplikáciami tretích strán.
  6. CDH poskytuje Šablóny uzlov tj umožňuje vytvorenie skupiny uzlov v klastri Hadoop s rôznou konfiguráciou. Odstraňuje použitie rovnakej konfigurácie v celom klastri Hadoop.
  7. Podporuje tiež:
    • Spoľahlivosť
      Predajcovia produktov Hadoop pohotovo reagujú vždy, keď sa zistí chyba. S úmyslom zvýšiť stabilitu komerčných riešení sa opravy a opravy zavádzajú okamžite.
    • podpora
      Predávajúci spoločnosti Cloudera Hadoop poskytujú technické poradenstvo a pomoc, ktorá zákazníkom uľahčuje prijatie Hadoopu pre úlohy na podnikovej úrovni a pre aplikácie kritické z hľadiska misie.

    • Úplnosť
      Predajcovia Hadoop spájajú svoje distribúcie s rôznymi ďalšími doplnkovými nástrojmi, ktoré zákazníkom pomáhajú prispôsobiť aplikáciu Hadoop tak, aby zodpovedali ich konkrétnym úlohám.

Distribúcie v službe Cloudera prichádzajú s 2 rôznymi typmi vydaní.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Teraz sa pozrime na rozdiely medzi nimi.

Vlastnosti Cloudera-Express Cloudera-Enterprise
Správa klastrov
1. Správa viacerých klastrovÁnoÁno
2. Správa zdrojovÁnoÁno
Nasadenie
1. Podpora pre CDH 4 a 5ÁnoÁno
2. Postupná aktualizácia CDHNieÁno
Správa služieb a konfigurácií
1. Spravujte služby HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark a AccumuloÁnoÁno
2. Postupný reštart služiebNieÁno
Bezpečnosť
1. Autentifikácia LDAPNieÁno
2. Autentifikácia SAMLNieÁno
Monitorovanie a diagnostika
1. Zdravotná anamnézaÁnoÁno
Správa výstrah
1. Upozornenie prostredníctvom e-mailuÁnoÁno
2. Výstraha prostredníctvom protokolu SNMPNieÁno
Pokročilé funkcie správy
1. Automatizované zálohovanie a obnovaNieÁno
2. Prehliadanie a vyhľadávanie súborovNieÁno
3. Správy o použití MapReduce, Impala, HBase, YarnNieÁno

Cloudera Hadoop: Správca cloudera

Podľa Cloudery je Cloudera Manager najlepším spôsobom Inštalácia , konfigurovať , spravovať a monitor zásobník Hadoop.

To poskytuje:

  1. Automatizované nasadenie a konfigurácia
  2. Prispôsobiteľné monitorovanie a podávanie správ
  3. Bezproblémové robustné riešenie problémov
  4. Nula - údržba prestojov

Získajte podrobné informácie o aplikácii Cloudera Hadoop a jej rôznych nástrojoch

Ukážka správcu Cloudera

Pozrime sa na Cloudera Manager.

1. Na nasledujúcom obrázku je uvedený počet služieb, ktoré sú momentálne spustené v aplikácii Cloudera Manager. Môžete si tiež pozrieť grafy o využití CPU klastra, využití diskových IO atď.

Obrázok: Domovská stránka správcu Cloudera

2. Pod obrázkom je znázornený klaster HBase. Poskytuje grafy a grafy týkajúce sa zdravotného stavu aktuálne bežiaceho servera HBase REST.

Obrázok: Zdravotné podmienky servera HBase

3. Teraz sa pozrime na kartu Instance klastra HBase, kde môžete skontrolovať stav a konfiguráciu adresy IP.

Obrázok: Stav a adresa IP hostiteľského servera klastra HBase

4. Ďalej máte kartu Konfigurácia. Tu môžete vidieť všetky konfiguračné parametre a meniť ich hodnoty.

Obrázok: Konfigurácia klastra HBase

čo robí skener v Jave

Poďme si teda uvedomiť, čo sú parcely v Cloudere.

Cloudera Hadoop: Balíky

Balík je binárny distribučný formát obsahujúci programové súbory spolu s ďalšími metadátami, ktoré používa Cloudera Manager.

Balíky sú samostatné a inštalujú sa do adresára s verziou, čo znamená, že je možné inštalovať vedľa seba viac verzií danej služby.

Nižšie uvádzame výhody používania balíka Parcel:

  • Poskytuje distribúciu CDH ako jedného objektu, t. J. Namiesto toho, aby mali samostatné balíčky pre každú časť CDH, je na balíkoch potrebné nainštalovať iba jeden objekt.

  • Ponúka vnútornú konzistenciu (pretože kompletný CDH je distribuovaný ako jeden balík, všetky komponenty CDH sú spárované a nebude existovať riziko rôznych častí pochádzajúcich z rôznych verzií CDH).

  • Balíky v CDH môžete inštalovať, upgradovať, downgradovať, distribuovať a aktivovať pomocou niekoľkých kliknutí.

Teraz sa pozrime, ako nainštalovať a aktivovať službu Kafka v CDH pomocou balíkov.

  1. Prejdite na domovskú stránku manažéra Cloudera >> Hostitelia >> Balíky, ako je uvedené nižšie

    Obr: Výber balíkov z hostiteľov

2. Ak nevidíte Kafku v zozname balíkov, môžete balík pridať do zoznamu.

  1. Nájdite balík verzie Kafka, ktorý chcete použiť. Ak ju nevidíte, môžete do zoznamu pridať úložisko balíkov.
  2. Nájdite balík pre verziu Kafky, ktorú chcete nainštalovať - Cloudera Distribúcia verzií Apache Kafka .
    To isté ukazuje ďalší obrázok.

Obrázok: Cesta úložiska balíka.

3. Skopírujte odkaz, ako je to znázornené na obrázku vyššie, a pridajte ho do vzdialeného úložiska balíkov, ako je to znázornené nižšie.

Obr: Pridanie cesty Kafka z úložiska

Štyri.Po pridaní cesty bude Kafka pripravený na stiahnutie. Stačí kliknúť na tlačidlo sťahovania a stiahnuť si Kafku.

Obr: Sťahovanie Kafky

5. Po stiahnutí Kafky je potrebné ju iba distribuovať a aktivovať.

Obr: Aktivácia Kafky

Po aktivácii môžete pokračovať a zobraziť Kafku na karte služieb v Správcovi cloudera.

Obr: Služba Kafka

Cloudera Hadoop: Vytvorenie pracovného toku Oozie

Vytvorenie pracovného toku manuálnym napísaním kódu XML a následným vykonaním je komplikované. Môžete to odkázať Časový rozvrh práce Oozie blog, aby ste vedeli o tradičnom prístupe.

Môžete vidieť nasledujúci obrázok, kde sme napísali súbor XML, aby sme vytvorili jednoduchý pracovný postup Oozie. Obrázok: Vytvorenie pracovného toku Oozie pomocou tradičného prístupu

Ako vidíte, dokonca aj pri vytváraní jednoduchého plánovača Oozie sme museli napísať obrovský XML kód, ktorý je časovo náročný a ladenie každého riadku sa stáva ťažkopádnym. Aby sme to prekonali, predstavil Cloudera Manager novú funkciu s názvom Odtieň ktorý poskytuje GUI a jednoduché funkcie drag and drop na vytváranie a vykonávanie pracovných tokov Oozie.

Teraz sa pozrime, ako program Hue vykonáva rovnakú úlohu zjednodušeným spôsobom.

Pred vytvorením pracovného toku si najskôr vytvorme vstupné súbory, teda clickstream.txt a user.txt.
V súbore user.txt máme identifikáciu používateľa, meno, vek, krajinu, pohlavie, ako je uvedené nižšie. Tento súbor používateľov potrebujeme, aby sme vedeli počet používateľov a klikli na adresu URL (uvedenú v súbore clickstream) na základe ID používateľa.

Obr: Vytvorenie textového súboru

Aby sme zistili počet kliknutí používateľa na každú adresu URL, máme k dispozícii tok kliknutí obsahujúci ID používateľa a adresu URL.

Obrázok: Clickstream súbor

Poďme napísať dotazy do súboru skriptu.

Obr: Skriptový súbor

Po vytvorení súboru používateľa, súboru clickstream a súboru skriptu môžeme pokračovať a vytvoriť pracovný tok Oozie.

1. Pracovný postup Oozie môžete jednoducho presunúť myšou, ako je to znázornené na obrázku.

Obrázok: Funkcia vytvárania pracovného toku Oozie pomocou funkcie drag and drop

2. Čoskoro po zrušení akcie musíte určiť cesty k súboru skriptu a pridať parametre uvedené v súbore skriptu. Tu je potrebné pridať parametre OUTPUT, CLICKSTREAM a USER a určiť cestu ku každému z parametrov.

Obrázok: Pridanie súboru skriptu a požadovaných parametrov na vykonanie akcie

3. Po zadaní ciest a pridaní parametrov teraz jednoducho uložte a odošlite pracovný tok, ako je to znázornené na nasledujúcom obrázku.

Obr: Uloženie a odoslanie akcie Oozie

4. Po zadaní úlohy je vaša úloha hotová. O vykonanie a ďalšie kroky sa stará Hue.

Obrázok: Stav vykonania úlohy Oozie

5.Teraz, keď sme vykonali úlohu Oozie, sa pozrime na kartu akcií. Obsahuje ID užívateľa a stav pracovného toku. Zobrazuje tiež chybové kódy, ak existujú, začiatočný a konečný čas položky akcie.

Obrázok: Prvky prítomné na karte akcií v pracovnom postupe Oozie

6. Vedľa karty akcií je karta podrobností. V tomto okne vidíme čas začiatku a čas poslednej úpravy úlohy.

Obrázok: Podrobnosti o pracovnom postupe Oozie.

7. Vedľa karty Podrobnosti máme kartu Konfigurácia pracovného toku.

Obrázok: Konfiguračné nastavenia pracovného toku Oozie

7. Ak sa počas vykonávania akcie vyskytnú nejaké chyby, bude uvedená v zozname na karte Denník. Môžete si pozrieť chybové hlásenia a podľa toho ich odladiť.

Obrázok: Súbor denníka, ktorý obsahuje chybové kódy a chybové hlásenia

8. Tu je kód XML pracovného toku, ktorý program Hue automaticky generuje.

Obr: XML kód pracovného postupu Oozie

9.1. Pretože ste už v kroku 2 zadali cestu k výstupnému adresáru, máte tu výstupný adresár v prehľadávači HDFS, ako je uvedené nižšie.

čo je apache spark vs hadoop

Obrázok: Výstupný adresár prehliadača HDFS

9.2 Po kliknutí na výstupný adresár nájdete textový súbor s názvom output.txt, ktorý obsahuje skutočný výstup, ako je to znázornené na nasledujúcom obrázku.

Obr: Konečný výstupný text

Takto nám Hue uľahčuje prácu tým, že poskytuje možnosti drag and drop na vytvorenie pracovného toku Oozie.

Dúfam, že tento blog bol užitočný na pochopenie distribúcie Cloudera a rôznych komponentov Cloudera.

Chcete sa zúčastniť revolúcie v oblasti veľkých dát?

Teraz, keď ste pochopili distribúciu Cloudera Hadoop Distribution, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.