Dnes je najpopulárnejším pojmom v IT svete pojem „Hadoop“. V krátkom čase Hadoop výrazne vzrástol a ukázal sa ako užitočný pre veľkú zbierku rozmanitých projektov. Komunita Hadoop sa rýchlo rozvíja a vo svojom ekosystéme má popredné miesto.
Tu je pohľad na základné nástroje Hadoop, ktoré sa používajú na spracovanie veľkých dát.
ako urobiť upozornenie v html
Ambari je projekt Apache podporovaný Hortonworks. Ponúka webové grafické rozhranie (Graphical User Interface) s sprievodnými skriptmi na nastavenie klastrov s väčšinou štandardných komponentov. Ambari zabezpečuje, riadi a monitoruje všetky zoskupenia pracovných miest Hadoop.
The HDFS , distribuované pod licenciou Apache, ponúka základný rámec na rozdelenie zbierok údajov medzi viac uzlov. V HDFS sú veľké súbory rozdelené do blokov, kde niekoľko uzlov obsahuje všetky bloky zo súboru. Systém súborov je navrhnutý tak, aby kombinoval odolnosť proti chybám s vysokou priepustnosťou. Bloky HDFS sa načítajú, aby sa zabezpečilo stabilné streamovanie. Zvyčajne sa neukládajú do medzipamäte, aby sa minimalizovala latencia.
HBase je stĺpcovo orientovaný systém pre správu databáz, ktorý beží nad HDFS. Aplikácie HBase sú napísané v Jave, podobne ako aplikácia MapReduce. Skladá sa zo sady tabuliek, kde každá tabuľka obsahuje riadky a stĺpce ako tradičná databáza. Keď dáta spadnú do veľkej tabuľky, HBase ich uloží, prehľadá ich a automaticky bude zdieľať tabuľku medzi viacerými uzlami, aby ich mohli úlohy MapReduce spustiť lokálne. Spoločnosť HBase ponúka obmedzenú záruku na niektoré miestne zmeny. Zmeny, ktoré sa stanú v jednom riadku, môžu byť úspešné alebo zlyhať súčasne.
Ak už ovládate SQL, môžete Hadoop využiť pomocou Úľ . Úľ vyvinuli niektorí ľudia na Facebooku. Apache Hive reguluje proces extrakcie bitov zo všetkých súborov v HBase. Podporuje analýzu veľkých súborov údajov uložených v súboroch HDFS spoločnosti Hadoop a kompatibilných súborových systémoch. Poskytuje tiež jazyk podobný jazyku SQL s názvom HSQL (HiveSQL), ktorý sa dostane do súborov a extrahuje požadované úryvky kódu.
Apache Sqoop je špeciálne navrhnutý na efektívny prenos hromadných údajov z tradičných databáz do Hive alebo HBase. Môže sa tiež použiť na extrakciu dát z Hadoopu a export ich do externých štruktúrovaných dátových skladov, ako sú relačné databázy a podnikové dátové sklady. Sqoop je nástroj príkazového riadku, ktorý mapuje medzi tabuľkami a vrstvou na ukladanie údajov a prevádza tabuľky do konfigurovateľnej kombinácie HDFS, HBase alebo Hive.
Keď je uložené dáta viditeľné pre Hadoop, Apache Pig sa ponorí do údajov a spustí kód, ktorý je napísaný v jeho vlastnom jazyku, ktorý sa nazýva Pig Latin. Pig Latin je plný abstrakcií na spracovanie údajov. Prasa je dodávané so štandardnými funkciami pre bežné úlohy, ako je spriemerovanie údajov, práca s dátumami alebo hľadanie rozdielov medzi reťazcami. Ak štandardné funkcie nedokážu, program Pig umožňuje používateľovi samostatne písať jazyky nazývané UDF (User Defined Function).
Ošetrovateľ v zoo je centralizovaná služba, ktorá udržuje, konfiguruje informácie, dáva meno a poskytuje distribuovanú synchronizáciu v rámci klastra. Ukladá klastru hierarchiu podobnú súborovému systému a ukladá všetky metadáta strojov, aby sme mohli synchronizovať prácu rôznych strojov.
NoSQL
Niektoré klastre Hadoop sa integrujú do NoSQL dátové úložiská, ktoré majú vlastné mechanizmy na ukladanie údajov v klastri uzlov. To im umožňuje ukladať a načítať údaje so všetkými funkciami databázy NoSQL, potom je možné program Hadoop použiť na naplánovanie úloh analýzy údajov v rovnakom klastri.
Mahout je navrhnutý na implementáciu veľkého množstva algoritmov, klasifikácií a filtrovania analýzy údajov do klastra Hadoop. Mnoho štandardných algoritmov, ako sú K-means, Dirichelet, paralelný vzor a Bayesovské klasifikácie, je pripravených na spustenie na dátach pomocou mapy typu Hadoop a redukcie.
Lucene, napísané v Jave a ľahko integrovateľné s Hadoop, je prirodzeným spoločníkom pre Hadoop. Je to nástroj určený na indexovanie veľkých blokov neštruktúrovaného textu. Lucene spracováva indexovanie, zatiaľ čo Hadoop spracováva distribuované dotazy v rámci klastra. Funkcie Lucene-Hadoop sa rýchlo vyvíjajú pri vývoji nových projektov.
Euro je systém serializácie, ktorý zhromažďuje údaje spolu so schémou na ich pochopenie. Každý paket má dátovú štruktúru JSON. JSON vysvetľuje, ako je možné údaje analyzovať. Hlavička JSON určuje štruktúru dát, kde je možné vyhnúť sa nutnosti zapisovať do údajov ďalšie značky na označenie polí. Výstup je podstatne kompaktnejší ako tradičné formáty ako XML.
Úlohu je možné zjednodušiť rozdelením do krokov. Pri rozdelení projektu do viacerých úloh Hadoop, Oozie začne ich spracovávať v správnom poradí. Spravuje pracovný tok podľa špecifikácie DAG (Directed Acyclic Graph) a nie je potrebné včasné sledovanie.
Nástroje GIS
Práca s geografickými mapami je pre klastre s Hadoopom veľkou prácou. GIS ( Geografický informačný systém ) Nástroje pre projekty Hadoop upravili najlepšie nástroje založené na prostredí Java na porozumenie geografickým informáciám, aby mohli bežať s programom Hadoop. Databázy môžu teraz spracovávať geografické dotazy pomocou súradníc a kódy môžu nasadiť nástroje GIS.
Zhromažďovanie všetkých údajov sa rovná ich ukladaniu a analýze. Apache Flume odosiela „špeciálnych agentov“ na zhromažďovanie informácií, ktoré budú uložené v HDFS. Zhromaždené informácie môžu byť logovacie súbory, Twitter API alebo odkazy na webové stránky. Tieto údaje je možné reťaziť a podrobiť analýzam.
Iskra je ďalšia generácia, ktorá do značnej miery funguje ako Hadoop, ktorá spracúva údaje uložené v pamäti. Jeho cieľom je dosiahnuť, aby analýza dát mohla rýchlo bežať a písať pomocou všeobecného modelu vykonávania. To môže optimalizovať ľubovoľné operátorské grafy a podporovať výpočty v pamäti, čo umožňuje dopytovať údaje rýchlejšie ako diskové motory, ako je Hadoop.
SQL na Hadoop
Ak je potrebné spustiť rýchly ad-hoc dopyt na všetky údaje v klastri, je možné napísať novú úlohu Hadoop, ale to chvíľu trvá. Keď to programátori začali robiť častejšie, prišli s nástrojmi napísanými v jednoduchom jazyku SQL. Tieto nástroje poskytujú rýchly prístup k výsledkom.
Vŕtačka Apache
Apache Drill poskytuje ad-hoc dotazy s nízkou latenciou do mnohých a rozmanitých zdrojov údajov vrátane vnorených údajov. Aplikácia Drill, inšpirovaná spoločnosťou Dremel od spoločnosti Google, je navrhnutá tak, aby sa mohla rozšíriť na 10 000 serverov a dopytovať petabajty dát za pár sekúnd.
Toto sú základné nástroje Hadoop na prelomenie veľkých dát!
Máte na nás otázku? Uveďte ich prosím v sekcii komentárov a my sa vám ozveme.
Súvisiace príspevky:
Praktické dôvody, prečo sa naučiť Hadoop 2.0