Základné nástroje Hadoop na prelomenie veľkých dát



Hadoop je v dnešnom svete IT zvučným slovom a tento príspevok popisuje základné nástroje Hadoop, ktoré prekonávajú veľké dáta.

Dnes je najpopulárnejším pojmom v IT svete pojem „Hadoop“. V krátkom čase Hadoop výrazne vzrástol a ukázal sa ako užitočný pre veľkú zbierku rozmanitých projektov. Komunita Hadoop sa rýchlo rozvíja a vo svojom ekosystéme má popredné miesto.





Tu je pohľad na základné nástroje Hadoop, ktoré sa používajú na spracovanie veľkých dát.

ako urobiť upozornenie v html

ambari



Ambari je projekt Apache podporovaný Hortonworks. Ponúka webové grafické rozhranie (Graphical User Interface) s sprievodnými skriptmi na nastavenie klastrov s väčšinou štandardných komponentov. Ambari zabezpečuje, riadi a monitoruje všetky zoskupenia pracovných miest Hadoop.

hdfs-logo

The HDFS , distribuované pod licenciou Apache, ponúka základný rámec na rozdelenie zbierok údajov medzi viac uzlov. V HDFS sú veľké súbory rozdelené do blokov, kde niekoľko uzlov obsahuje všetky bloky zo súboru. Systém súborov je navrhnutý tak, aby kombinoval odolnosť proti chybám s vysokou priepustnosťou. Bloky HDFS sa načítajú, aby sa zabezpečilo stabilné streamovanie. Zvyčajne sa neukládajú do medzipamäte, aby sa minimalizovala latencia.



hbaselogo

HBase je stĺpcovo orientovaný systém pre správu databáz, ktorý beží nad HDFS. Aplikácie HBase sú napísané v Jave, podobne ako aplikácia MapReduce. Skladá sa zo sady tabuliek, kde každá tabuľka obsahuje riadky a stĺpce ako tradičná databáza. Keď dáta spadnú do veľkej tabuľky, HBase ich uloží, prehľadá ich a automaticky bude zdieľať tabuľku medzi viacerými uzlami, aby ich mohli úlohy MapReduce spustiť lokálne. Spoločnosť HBase ponúka obmedzenú záruku na niektoré miestne zmeny. Zmeny, ktoré sa stanú v jednom riadku, môžu byť úspešné alebo zlyhať súčasne.

hive

Ak už ovládate SQL, môžete Hadoop využiť pomocou Úľ . Úľ vyvinuli niektorí ľudia na Facebooku. Apache Hive reguluje proces extrakcie bitov zo všetkých súborov v HBase. Podporuje analýzu veľkých súborov údajov uložených v súboroch HDFS spoločnosti Hadoop a kompatibilných súborových systémoch. Poskytuje tiež jazyk podobný jazyku SQL s názvom HSQL (HiveSQL), ktorý sa dostane do súborov a extrahuje požadované úryvky kódu.

sqoop

Apache Sqoop je špeciálne navrhnutý na efektívny prenos hromadných údajov z tradičných databáz do Hive alebo HBase. Môže sa tiež použiť na extrakciu dát z Hadoopu a export ich do externých štruktúrovaných dátových skladov, ako sú relačné databázy a podnikové dátové sklady. Sqoop je nástroj príkazového riadku, ktorý mapuje medzi tabuľkami a vrstvou na ukladanie údajov a prevádza tabuľky do konfigurovateľnej kombinácie HDFS, HBase alebo Hive.

Pig1

Keď je uložené dáta viditeľné pre Hadoop, Apache Pig sa ponorí do údajov a spustí kód, ktorý je napísaný v jeho vlastnom jazyku, ktorý sa nazýva Pig Latin. Pig Latin je plný abstrakcií na spracovanie údajov. Prasa je dodávané so štandardnými funkciami pre bežné úlohy, ako je spriemerovanie údajov, práca s dátumami alebo hľadanie rozdielov medzi reťazcami. Ak štandardné funkcie nedokážu, program Pig umožňuje používateľovi samostatne písať jazyky nazývané UDF (User Defined Function).

zookeper

Ošetrovateľ v zoo je centralizovaná služba, ktorá udržuje, konfiguruje informácie, dáva meno a poskytuje distribuovanú synchronizáciu v rámci klastra. Ukladá klastru hierarchiu podobnú súborovému systému a ukladá všetky metadáta strojov, aby sme mohli synchronizovať prácu rôznych strojov.

NoSQL

Niektoré klastre Hadoop sa integrujú do NoSQL dátové úložiská, ktoré majú vlastné mechanizmy na ukladanie údajov v klastri uzlov. To im umožňuje ukladať a načítať údaje so všetkými funkciami databázy NoSQL, potom je možné program Hadoop použiť na naplánovanie úloh analýzy údajov v rovnakom klastri.

mahoutlogo

Mahout je navrhnutý na implementáciu veľkého množstva algoritmov, klasifikácií a filtrovania analýzy údajov do klastra Hadoop. Mnoho štandardných algoritmov, ako sú K-means, Dirichelet, paralelný vzor a Bayesovské klasifikácie, je pripravených na spustenie na dátach pomocou mapy typu Hadoop a redukcie.

Lucene, napísané v Jave a ľahko integrovateľné s Hadoop, je prirodzeným spoločníkom pre Hadoop. Je to nástroj určený na indexovanie veľkých blokov neštruktúrovaného textu. Lucene spracováva indexovanie, zatiaľ čo Hadoop spracováva distribuované dotazy v rámci klastra. Funkcie Lucene-Hadoop sa rýchlo vyvíjajú pri vývoji nových projektov.

Avro

Euro je systém serializácie, ktorý zhromažďuje údaje spolu so schémou na ich pochopenie. Každý paket má dátovú štruktúru JSON. JSON vysvetľuje, ako je možné údaje analyzovať. Hlavička JSON určuje štruktúru dát, kde je možné vyhnúť sa nutnosti zapisovať do údajov ďalšie značky na označenie polí. Výstup je podstatne kompaktnejší ako tradičné formáty ako XML.

Úlohu je možné zjednodušiť rozdelením do krokov. Pri rozdelení projektu do viacerých úloh Hadoop, Oozie začne ich spracovávať v správnom poradí. Spravuje pracovný tok podľa špecifikácie DAG (Directed Acyclic Graph) a nie je potrebné včasné sledovanie.

Nástroje GIS

Práca s geografickými mapami je pre klastre s Hadoopom veľkou prácou. GIS ( Geografický informačný systém ) Nástroje pre projekty Hadoop upravili najlepšie nástroje založené na prostredí Java na porozumenie geografickým informáciám, aby mohli bežať s programom Hadoop. Databázy môžu teraz spracovávať geografické dotazy pomocou súradníc a kódy môžu nasadiť nástroje GIS.

Zhromažďovanie všetkých údajov sa rovná ich ukladaniu a analýze. Apache Flume odosiela „špeciálnych agentov“ na zhromažďovanie informácií, ktoré budú uložené v HDFS. Zhromaždené informácie môžu byť logovacie súbory, Twitter API alebo odkazy na webové stránky. Tieto údaje je možné reťaziť a podrobiť analýzam.

Spark

Iskra je ďalšia generácia, ktorá do značnej miery funguje ako Hadoop, ktorá spracúva údaje uložené v pamäti. Jeho cieľom je dosiahnuť, aby analýza dát mohla rýchlo bežať a písať pomocou všeobecného modelu vykonávania. To môže optimalizovať ľubovoľné operátorské grafy a podporovať výpočty v pamäti, čo umožňuje dopytovať údaje rýchlejšie ako diskové motory, ako je Hadoop.

SQL na Hadoop

Ak je potrebné spustiť rýchly ad-hoc dopyt na všetky údaje v klastri, je možné napísať novú úlohu Hadoop, ale to chvíľu trvá. Keď to programátori začali robiť častejšie, prišli s nástrojmi napísanými v jednoduchom jazyku SQL. Tieto nástroje poskytujú rýchly prístup k výsledkom.

Vŕtačka Apache

Apache Drill poskytuje ad-hoc dotazy s nízkou latenciou do mnohých a rozmanitých zdrojov údajov vrátane vnorených údajov. Aplikácia Drill, inšpirovaná spoločnosťou Dremel od spoločnosti Google, je navrhnutá tak, aby sa mohla rozšíriť na 10 000 serverov a dopytovať petabajty dát za pár sekúnd.

Toto sú základné nástroje Hadoop na prelomenie veľkých dát!

Máte na nás otázku? Uveďte ich prosím v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Praktické dôvody, prečo sa naučiť Hadoop 2.0