Výukový program HDFS: Úvod do systému HDFS a jeho funkcií



Tento blog Výukový program HDFS vám pomôže porozumieť systému HDFS alebo distribuovanému súborovému systému Hadoop a jeho funkciám. Stručne tiež preskúmate jeho základné komponenty.

Výukový program HDFS

Predtým, ako sa posuniem ďalej v tomto výučbovom blogu HDFS, dovoľte mi, aby som vás oboznámil s niektorými šialenými štatistikami súvisiacimi s HDFS:

  • V roku 2010, Facebook tvrdil, že má jeden z najväčších úložísk klastrov HDFS 21 petabajtov údajov.
  • V roku 2012, Facebook vyhlásili, že majú najväčší samostatný klaster HDFS s viac ako 100 PB údajov .
  • A Yahoo ! má viac ako 100 000 CPU vo viac ako 40 000 serverov beží Hadoop s najväčším klastrom Hadoop 4 500 uzlov . Všetko povedané, Yahoo! obchodoch 455 petabajtov údajov v HDFS.
  • V skutočnosti do roku 2013 začala väčšina veľkých mien vo Fortune 50 používať Hadoop.

Príliš ťažké na strávenie? Správny. Ako sa uvádza v , Hadoop má dve základné jednotky - S trápenie a Spracovanie . Keď hovorím o skladovacej časti Hadoopu, mám na mysli HDFS čo znamená Systém distribuovaných súborov Hadoop . V tomto blogu vám teda predstavím HDFS .





Tu budem hovoriť o:

  • Čo je to HDFS?
  • Výhody HDFS
  • Vlastnosti HDFS

Predtým, ako hovorím o HDFS, poviem vám, čo je to systém distribuovaných súborov?



DFS alebo systém distribuovaných súborov:

Distribuovaný súborový systém hovorí o riadiaci údaje , t.j. súbory alebo priečinky na viacerých počítačoch alebo serveroch. Inými slovami, DFS je súborový systém, ktorý nám umožňuje ukladať údaje na viacerých uzloch alebo strojoch v klastri a umožňuje viacerým používateľom prístup k údajom. V zásade to teda slúži rovnakému účelu ako súborový systém, ktorý je k dispozícii vo vašom prístroji, napríklad pre Windows máte NTFS (New Technology File System) alebo pre Mac máte HFS (Hierarchical File System). Jediný rozdiel je v tom, že v prípade systému distribuovaných súborov ukladáte údaje skôr do viacerých počítačov ako do jedného. Aj keď sú súbory uložené v sieti, DFS ich usporiada a zobrazí údaje takým spôsobom, že používateľ sediaci na stroji bude mať pocit, že všetky údaje sú uložené práve v tomto stroji.

Čo je to HDFS?

Distribuovaný súborový systém Hadoop alebo HDFS je distribuovaný súborový systém založený na prostredí Java, ktorý vám umožňuje ukladať veľké údaje na viacerých uzloch v klastri Hadoop. Ak teda nainštalujete program Hadoop, získate HDFS ako podkladový úložný systém na ukladanie údajov v distribuovanom prostredí.

Vezmime si príklad, aby sme to pochopili. Predstavte si, že na každom počítači máte desať strojov alebo desať počítačov s pevným diskom s kapacitou 1 TB. Teraz HDFS hovorí, že ak nainštalujete Hadoop ako platformu na vrchol týchto desiatich strojov, získate HDFS ako službu ukladania. Distribuovaný systém súborov Hadoop je distribuovaný takým spôsobom, že každý stroj prispieva svojim individuálnym úložiskom na ukladanie akýchkoľvek druhov údajov.



Výukový program HDFS: Výhody HDFS

1. Distribuované úložisko:

Distribuované úložisko - Výukový program HDFS - Edureka

Pri prístupe k distribuovanému súborovému systému Hadoop z ktoréhokoľvek z desiatich počítačov v klastri Hadoop budete mať pocit, akoby ste sa prihlásili do jedného veľkého stroja, ktorý má úložnú kapacitu 10 TB (celkový úložný priestor nad desiatimi strojmi). Čo to znamená? To znamená, že môžete uložiť jeden veľký súbor s veľkosťou 10 TB, ktorý bude distribuovaný na desať počítačov (každý po 1 TB).Takže je fyzickými hranicami každého jednotlivého stroja.

2. Distribuovaný a paralelný výpočet:

Pretože sú údaje rozdelené medzi jednotlivé stroje, umožňuje nám to využívať výhody Distribuovaný a paralelný výpočet . Poďme pochopiť tento koncept z vyššie uvedeného príkladu. Predpokladajme, že spracovanie 1 TB súboru na jednom počítači trvá 43 minút. Takže teraz mi povedzte, koľko času bude trvať spracovanie rovnakého 1 TB súboru, keď máte 10 strojov v klastri Hadoop s podobnou konfiguráciou - 43 minút alebo 4,3 minúty? 4,3 minúty, správne! Čo sa tu stalo? Každý z uzlov pracuje s časťou 1 TB súboru paralelne. Preto práca, ktorá predtým trvala 43 minút, je teraz hotová len za 4,3 minúty, keďže sa práca rozdelila na desať strojov.

3. Horizontálna škálovateľnosť:

V neposlednom rade si povieme niečo o horizontálne škálovanie alebo škálovanie v Hadoope. Existujú dva typy škálovania: vertikálne a horizontálne . Pri vertikálnom škálovaní (zväčšenie) zvyšujete hardvérovú kapacitu vášho systému. Inými slovami, zaobstaráte si viac pamäte RAM alebo CPU a pridáte ich do svojho existujúceho systému, aby bol robustnejší a výkonnejší. S vertikálnym zväčšením alebo zväčšením však súvisia problémy:

  • Vždy existuje limit, do ktorého môžete zvýšiť svoju hardvérovú kapacitu. Takže nemôžete ďalej zvyšovať RAM alebo CPU stroja.
  • Pri vertikálnom škálovaní najskôr zastavíte zariadenie. Potom zvýšite RAM alebo CPU, aby ste z neho vytvorili robustnejší hardvérový zásobník. Po zvýšení kapacity hardvéru reštartujete počítač. Táto prestávka, keď zastavujete systém, sa stáva výzvou.

V prípade horizontálne škálovanie (mierka) , namiesto existujúcej hardvérovej kapacity jednotlivých strojov pridáte do existujúceho klastra viac uzlov. A čo je najdôležitejšie, môžete pridajte ďalšie stroje na cestách tj. bez zastavenia systému . Preto pri škálovaní nemáme žiadne výpadky ani zelenú zónu, nič také. Na konci dňa budete mať k dispozícii viac strojov paralelne pracujúcich na splnení vašich požiadaviek.

postgraduálne vysvedčenie vs magister

Výukové video HDFS:

Môžete si pozrieť video uvedené nižšie, kde boli podrobne rozobrané všetky koncepty týkajúce sa HDFS:

Výukový program HDFS: Vlastnosti HDFS

Tieto funkcie podrobne pochopíme, keď preskúmame architektúru HDFS v našom ďalšom blogu tutoriálov HDFS. Ale teraz si urobme prehľad o vlastnostiach HDFS:

  • Náklady: HDFS sa vo všeobecnosti používa na komoditnom hardvéri, ako je váš stolný počítač / notebook, ktorý používate každý deň. Je to teda veľmi ekonomické z hľadiska nákladov na vlastníctvo projektu. Pretože používame nízkonákladový komoditný hardvér, nemusíte za rozširovanie klastra Hadoop míňať obrovské množstvo peňazí. Inými slovami, pridanie ďalších uzlov k vášmu HDFS je nákladovo efektívne.
  • Rozmanitosť a objem údajov: Keď hovoríme o HDFS, hovoríme o ukladaní obrovských údajov, t. J. Terabajtov a petabajtov údajov a rôznych druhov údajov. Do HDFS teda môžete ukladať akýkoľvek typ dát, či už štruktúrovaných, neštruktúrovaných alebo pološtruktúrovaných.
  • Spoľahlivosť a odolnosť voči chybám: Keď ukladáte údaje na HDFS, interne rozdelí dané údaje do dátových blokov a distribuuje ich distribuovaným spôsobom v rámci vášho klastra Hadoop. Informácie o tom, ktorý dátový blok sa nachádza na ktorom z dátových uzlov, sa zaznamenávajú do metaúdajov. NameNode spravuje metaúdaje a DataNodes sú zodpovední za uchovávanie údajov.
    Uzol názvu tiež replikuje údaje, t. J. Uchováva viac kópií údajov. Vďaka tejto replikácii údajov je HDFS veľmi spoľahlivý a odolný voči chybám. Takže aj keď niektorý z uzlov zlyhá, môžeme načítať údaje z replík nachádzajúcich sa na iných údajových uzloch. Štandardne je faktor replikácie 3. Preto ak uložíte 1 GB súboru do HDFS, nakoniec to zaberie 3 GB miesta. Uzol názvu pravidelne aktualizuje metadáta a udržiava konzistentný faktor replikácie.
  • Integrita údajov: Data Integrity hovorí o tom, či sú údaje uložené v mojom HDFS správne alebo nie. HDFS neustále kontroluje integritu uložených údajov oproti kontrolnému súčtu. Ak zistí poruchu, nahlási to do uzla názvu. Potom uzol názvu vytvorí ďalšie nové repliky, a preto odstráni poškodené kópie.
  • Veľký prietok: Priepustnosť je množstvo práce vykonanej za jednotku času. Hovorí o tom, ako rýchlo máte prístup k údajom zo súborového systému. V zásade vám poskytne prehľad o výkone systému. Ako ste videli v príklade vyššie, kde sme spoločne použili desať strojov na vylepšenie výpočtu. Tam sme boli schopní skrátiť čas spracovania z 43 minút na obyčajný 4,3 minúty pretože všetky stroje pracovali paralelne. Preto sme paralelným spracovaním údajov nesmierne znížili čas spracovania a dosiahli sme tak vysokú priepustnosť.
  • Lokalita údajov: Dátová lokalita hovorí skôr o presune procesnej jednotky do dát ako o dátach do spracovateľskej jednotky. V našom tradičnom systéme sme zvykli preniesť údaje do aplikačnej vrstvy a potom ich spracovať. Ale teraz, kvôli architektúre a obrovskému objemu dát, prinesenie dát do aplikačnej vrstvy budeznateľne znížiť výkon siete.Takže v HDFS prinášame výpočtovú časť do dátových uzlov, kde sa dáta nachádzajú. Preto neposúvate údaje, prinášate program alebo procesčasť k údajom.

Takže teraz máte krátku predstavu o HDFS a jeho vlastnostiach. Ale verte mi, chlapci, toto je iba vrchol ľadovca. V mojom ďalšom , Ponorím sa hlboko do Architektúra HDFS a odhalím tajomstvá úspechu HDFS. Spoločne odpovieme na všetky otázky, ktoré sa vám vynárajú v hlave, napríklad:

  • Čo sa deje v zákulisí, keď čítate alebo zapisujete údaje do systému distribuovaných súborov Hadoop?
  • Aké sú algoritmy ako povedomie o stojane, vďaka ktorému je HDFS tak odolný voči chybám?
  • Ako systém distribuovaných súborov Hadoop spravuje a vytvára repliku?
  • Čo sú to blokové operácie?

Teraz, keď ste pochopili HDFS a jeho vlastnosti, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.