Nainštalujte Hadoop: Nastavenie klastra Hadoop s jedným uzlom



Tento tutoriál je podrobným sprievodcom inštaláciou klastra Hadoop a jeho konfiguráciou na jednom uzle. Všetky kroky inštalácie Hadoop sú pre stroj CentOS.

Nainštalujte Hadoop: Nastavenie klastra Hadoop s jedným uzlom

Z našich predchádzajúcich blogov dňa , musíte mať teoretickú predstavu o Hadoop, HDFS a jeho architektúre.Ale dostať potrebujete dobré praktické znalosti.Dúfam, že by sa vám páčil náš predchádzajúci blog na , teraz vás prevediem praktickými poznatkami o Hadoop a HDFS. Prvým krokom vpred je inštalácia Hadoop.

Existujú dva spôsoby, ako nainštalovať Hadoop, t.j. Jeden uzol a Viacuzlový .





Klaster s jedným uzlom znamená iba jeden spustený DataNode a nastavenie všetkých NameNode, DataNode, ResourceManager a NodeManager na jednom stroji. Používa sa na účely štúdia a testovania. Uvažujme napríklad o vzorke údajov v zdravotníckom priemysle. Na testovanie toho, či úlohy Oozie naplánovali všetky procesy, ako je zhromažďovanie, agregovanie, ukladanie a spracovanie údajov v správnom poradí, používame klaster s jedným uzlom. Môže ľahko a efektívne testovať sekvenčný pracovný tok v menšom prostredí v porovnaní s veľkými prostrediami, ktoré obsahujú terabajty dát distribuovaných na stovkách počítačov.

Zatiaľ čo v Viacuzlový klaster , je spustených viac ako jeden DataNode a každý DataNode je spustený na iných počítačoch. Viacuzlový klaster sa v organizáciách prakticky používa na analýzu veľkých dát. Ak vezmeme do úvahy vyššie uvedený príklad, v reálnom čase, keď pracujeme s petabajtmi dát, je potrebné ich distribuovať medzi stovky strojov, aby sme ich mohli spracovať. Preto tu používame viacuzlový klaster.



V tomto blogu vám ukážem, ako nainštalovať Hadoop na klaster s jedným uzlom.

Predpoklady

  • VIRTUÁLNY BOX : používa sa na inštaláciu operačného systému.
  • OPERAČNÝ SYSTÉM : Hadoop môžete nainštalovať na operačné systémy založené na Linuxe. Ubuntu a CentOS sa používajú veľmi často. V tomto tutoriáli používame CentOS.
  • JAVA : Musíte si do svojho systému nainštalovať balík Java 8.
  • HADOOP : Vyžadujete balíček Hadoop 2.7.3.

Nainštalujte si Hadoop

Krok 1: Kliknite tu na stiahnutie balíka Java 8. Uložte tento súbor do svojho domovského adresára.

Krok 2: Extrahujte súbor Java Tar.

Velenie : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Nainštalujte Hadoop - Edureka



Obrázok: Inštalácia Hadoop - extrakcia súborov Java

Krok 3: Stiahnite si balíček Hadoop 2.7.3.

Velenie : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Obrázok: Inštalácia Hadoop - stiahnutie Hadoop

Krok 4: Extrahujte súbor tar Hadoop.

Velenie : tar -xvf hadoop-2.7.3.tar.gz

Obrázok: Inštalácia Hadoop - extrakcia súborov Hadoop

Krok 5: Pridajte cesty Hadoop a Java do súboru bash (.bashrc).

Otvorené . bashrc spis. Teraz pridajte Hadoop a Java Path, ako je uvedené nižšie.

Velenie : vi .bashrc

Obrázok: Inštalácia Hadoop - nastavenie premennej prostredia

Potom uložte súbor bash a zatvorte ho.

základná štruktúra java programu

Ak chcete použiť všetky tieto zmeny na súčasný terminál, vykonajte príkaz source.

Velenie : zdroj .bashrc

Obrázok: Inštalácia Hadoop - osviežujúce premenné prostredia

Aby ste sa ubezpečili, že Java a Hadoop sú vo vašom systéme správne nainštalované a je k nim prístup prostredníctvom terminálu, naprxecute príkazy verzie java -version a hadoop.

Velenie : java-verzia

Obrázok: Inštalácia Hadoop - kontrola verzie Java

Velenie : hadoopverzia

Obrázok: Inštalácia Hadoop - kontrola verzie Hadoop

Krok 6 : Upravte .

Príkaz: cd hadoop-2.7.3 / etc / hadoop /

Príkaz: je

Všetky konfiguračné súbory Hadoop sa nachádzajú v priečinku hadoop-2.7.3 / etc / hadoop ako vidíte na snímke nižšie:

Obrázok: Inštalácia Hadoop - konfiguračné súbory Hadoop

Krok 7 : Otvorené core-site.xml a upravte vlastnosť uvedenú nižšie v konfiguračnej značke:

core-site.xml informuje démona Hadoop, kde v klastri beží NameNode. Obsahuje konfiguračné nastavenia jadra Hadoop, ako sú nastavenia I / O, ktoré sú spoločné pre HDFS a MapReduce.

Velenie : vi core-site.xml

Obrázok: Inštalácia Hadoop - konfigurácia core-site.xml

fs.default.name hdfs: // localhost: 9000

Krok 8: Upraviť hdfs-site.xml a upravte vlastnosť uvedenú nižšie v konfiguračnej značke:

hdfs-site.xml obsahuje konfiguračné nastavenia démonov HDFS (tj. NameNode, DataNode, Secondary NameNode). Zahŕňa tiež faktor replikácie a veľkosť bloku HDFS.

Velenie : vi hdfs-site.xml

Obrázok: Inštalácia Hadoop - konfigurácia súboru hdfs-site.xml

dfs.replikácia 1 dfs.permission false

Krok 9 : Upravte mapred-site.xml súbor a upravte vlastnosť uvedenú nižšie v konfiguračnej značke:

mapred-site.xml obsahuje konfiguračné nastavenia aplikácie MapReduce ako počet JVM, ktoré môžu bežať paralelne, veľkosť mapovača a redukčného procesu, jadrá CPU dostupné pre proces atď.

V niektorých prípadoch nie je súbor mapred-site.xml k dispozícii. Musíme teda vytvoriť súbor mapred-site.xmlpomocou šablóny mapred-site.xml.

Velenie : cp mapred-site.xml.template mapred-site.xml

Velenie : my zmapované-stránky.xml.

Obrázok: Inštalácia Hadoop - Konfigurácia mapred-site.xml

mapreduce.framework.name priadza

Krok 10: Upraviť priadza-site.xml a upravte vlastnosť uvedenú nižšie v konfiguračnej značke:

priadza-site.xml obsahuje konfiguračné nastavenia ResourceManager a NodeManager, ako je veľkosť správy pamäte aplikácie, operácia potrebná pre program a algoritmus atď.

Velenie : vi yarn-site.xml

Obrázok: Inštalácia Hadoop - Konfigurácia súboru yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Krok 11: Upraviť hadoop-env.sh a pridajte cestu Java, ako je uvedené nižšie:

hadoop-env.sh obsahuje premenné prostredia, ktoré sa používajú v skripte na spustenie Hadoopu ako domovská cesta Java atď.

Velenie : my hadoop-env.š

Obrázok: Inštalácia Hadoop - konfigurácia hadoop-env.sh

Krok 12: Prejdite do domovského adresára Hadoop a naformátujte NameNode.

Velenie : CD

Velenie : cd hadoop-2.7.3

Velenie : účel bin / hadoop -formát

Obrázok: Inštalácia Hadoop - formátovanie NameNode

Toto naformátuje HDFS cez NameNode. Tento príkaz sa vykoná iba prvýkrát. Formátovanie súborového systému znamená inicializáciu adresára určeného premennou dfs.name.dir.

Nikdy neformátujte, neaktivujte súborový systém Hadoop. Stratíte všetky svoje údaje uložené v HDFS.

Krok 13: Po naformátovaní NameNode choďte do adresára hadoop-2.7.3 / sbin a spustite všetkých démonov.

Príkaz: cd hadoop-2.7.3 / sbin

Buď môžete všetkých démonov spustiť jediným príkazom, alebo to môžete urobiť jednotlivo.

Príkaz: ./ start-all.sh

Vyššie uvedený príkaz je kombináciou start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Alebo môžete spustiť všetky služby jednotlivo, ako je uvedené nižšie:

Počiatočné meno Uzol:

NameNode je stredobodom systému súborov HDFS. Zachováva adresárový strom všetkých súborov uložených v HDFS a sleduje všetky súbory uložené v klastri.

Príkaz: ./hadoop-daemon.sh začiatočný účel

Obrázok: Inštalácia Hadoop - počiatočný NameNode

Spustiť dátový uzol:

Pri štarte sa DataNode pripája k Namenode a reaguje na požiadavky Namenode týkajúce sa rôznych operácií.

Príkaz: ./hadoop-daemon.sh začiatočný datanód

Obrázok: Inštalácia Hadoop - spustenie DataNode

Spustiť ResourceManager:

ResourceManager je hlavný server, ktorý rozhoduje o všetkých dostupných prostriedkoch klastra, a tým pomáha pri správe distribuovaných aplikácií bežiacich v systéme YARN. Jeho úlohou je spravovať každý NodeManagers a ApplicationMaster každej aplikácie.

Príkaz: ./priadza-daemon.sh spustiť správcu zdrojov

Obrázok: Inštalácia Hadoop - spustenie nástroja ResourceManager

Spustiť NodeManager:

NodeManager v rámci každého stroja je agent, ktorý je zodpovedný za správu kontajnerov, monitorovanie ich využívania zdrojov a ich podávanie správ agentovi ResourceManager.

Príkaz: ./priadza-daemon.sh spustiť nodemanager

Obrázok: Inštalácia Hadoop - spustenie NodeManager

Spustiť JobHistoryServer:

JobHistoryServer je zodpovedný za obsluhu všetkých požiadaviek klienta týkajúcich sa histórie úloh.

Velenie : ./mr-jobhistory-daemon.sh server histórie spustenia

Krok 14: Ak chcete skontrolovať, či sú všetky služby Hadoop funkčné, spustite nasledujúci príkaz.

Príkaz: jps

čo je init v pythone

Obrázok: Inštalácia Hadoop - kontrola démonov

Krok 15: Teraz otvorte prehliadač Mozilla a choďte na localhost : 50070 / dfshealth.html skontrolovať rozhranie NameNode.

Obrázok: Inštalácia Hadoop - spustenie webového rozhrania

Gratulujeme, úspešne ste nainštalovali jeden uzol klastra Hadoop naraz.V našom ďalšom blogu sa budeme venovať tomu, ako nainštalovať Hadoop aj na viacuzlový klaster.

Teraz, keď ste pochopili, ako nainštalovať Hadoop, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.