Výukový program Apache Flume: Streamovanie dát z Twitteru



Tento výučbový blog Apache Flume vysvetľuje základné informácie o Apache Flume a jeho vlastnostiach. Predstaví tiež streamovanie z Twitteru pomocou Apache Flume.

V tomto výučbovom blogu Apache Flume pochopíme, ako Flume pomáha pri streamovaní údajov z rôznych zdrojov. Ale predtým si uvedomme dôležitosť prijímania údajov. Príjem dát je počiatočným a dôležitým krokom k spracovaniu a analýze údajov a následnému odvodeniu obchodných hodnôt. Existuje niekoľko zdrojov, z ktorých sa v organizácii zhromažďujú údaje.

Poďme sa baviť o ďalšom dôležitom dôvode, prečo sa Flume stal tak populárnym. Dúfam, že vás pozná , ktorý sa v priemysle nesmierne využíva, pretože dokáže ukladať všetky druhy údajov. Flume sa dá ľahko integrovať s Hadoopom a ukladať neštruktúrované aj pološtruktúrované dáta na HDFS, čo dopĺňa silu Hadoopu. Preto je Apache Flume dôležitou súčasťou ekosystému Hadoop.





V tomto blogu tutoriálu Apache Flume sa budeme venovať:



Tento tutoriál Flume začneme diskusiou o tom, čo je Apache Flume. Keď budeme napredovať, pochopíme výhody používania Flume.

Výukový program Apache Flume: Úvod do Apache Flume

Logo Apache Flume - Výukový program Apache Flume - EdurekaApache Flume je nástroj na prijímanie údajov v HDFS. Zhromažďuje, agreguje a prenáša veľké množstvo streamovaných údajov, ako sú súbory denníka, udalosti z rôznych zdrojov, ako je sieťový prenos, sociálne médiá, e-mailové správy atď., Na HDFS.Flume je vysoko spoľahlivý a distribuovaný.

Hlavnou myšlienkou dizajnu Flume je zachytiť streamované dáta z rôznych webových serverov do HDFS. Má jednoduchú a flexibilnú architektúru založenú na streamovaní dátových tokov. Je odolný voči chybám a poskytuje mechanizmus spoľahlivosti pre odolnosť proti chybám a zotavenie po zlyhaní.



Po pochopení toho, čo je Flume, poďme teraz napredovať v tomto blogu Flume Tutorial a pochopme výhody Apache Flume. Potom sa pozrieme na architektúru Flume a pokúsime sa pochopiť, ako to funguje v zásade.

fibonacci c ++ kód

Výukový program pre Apache Flume: Výhody Apache Flume

Existuje niekoľko výhod produktu Apache Flume, ktorý z neho robí lepšiu voľbu oproti iným. Výhody sú:

  • Žlab je škálovateľný, spoľahlivý, odolný voči chybám a prispôsobiteľný pre rôzne zdroje a umývadlá.
  • Apache Flume dokáže ukladať údaje do centralizovaných obchodov (tj. Údaje sa dodávajú z jedného úložiska), ako sú HBase a HDFS.
  • Žlab je horizontálne škálovateľný.
  • Ak rýchlosť čítania prekročí rýchlosť zápisu, Flume poskytuje stály tok údajov medzi operáciami čítania a zápisu.
  • Flume poskytuje spoľahlivé doručenie správ. Transakcie vo Flume sú založené na kanáloch, kde sú pre každú správu udržiavané dve transakcie (jeden odosielateľ a jeden prijímač).
  • Pomocou Flume môžeme do Hadoopu prijímať dáta z viacerých serverov.
  • Poskytuje nám spoľahlivé a distribuované riešenie, ktoré nám pomáha pri zhromažďovaní, zhromažďovaní a presúvaní veľkého množstva súborov údajov, ako sú Facebook, Twitter a webové stránky elektronického obchodu.
  • Pomáha nám prijímať online streamované údaje z rôznych zdrojov, ako sú sieťový prenos, sociálne médiá, e-mailové správy, súbory denníka atď., V systéme HDFS.
  • Podporuje veľkú skupinu typov zdrojov a cieľov.

Architektúra je taká, ktorá umožňuje Apache Flume využívať tieto výhody. Teraz, keď poznáme výhody Apache Flume, poďme napredovať a porozumieť architektúre Apache Flume.

Výukový program pre apache flume: Architektúra flume

Teraz pochopíme architektúru Flume z nasledujúceho diagramu:

Existuje agent Flume, ktorý prijíma streamované dáta z rôznych zdrojov údajov do HDFS. Z diagramu môžete ľahko pochopiť, že webový server označuje zdroj údajov. Twitter patrí medzi jeden zo slávnych zdrojov na streamovanie údajov.

Lamelový prostriedok má 3 komponenty: zdroj, drez a kanál.

    1. Zdroj : Prijíma údaje z prichádzajúceho prúdenia a ukladá ich do kanála.
    2. Kanál : Všeobecne je rýchlosť čítania vyššia ako rýchlosť zápisu. Potrebujeme teda nejaký buffer, ktorý by sa vyrovnal rozdielu v rýchlosti čítania a zápisu. Vyrovnávacia pamäť v zásade funguje ako sprostredkovateľské úložisko, ktoré dočasne ukladá prenášané údaje, a preto zabraňuje ich strate. Podobne funguje kanál ako lokálne úložisko alebo dočasné úložisko medzi zdrojom údajov a perzistentnými údajmi v HDFS.
    3. drez : Potom náš posledný komponent, tj. Sink, zhromažďuje údaje z kanála a trvale ich zaväzuje alebo zapisuje do HDFS.

Teraz, keď vieme, ako Apache Flume funguje, poďme sa pozrieť na praktickú časť, kde ponoríme údaje z Twitteru a uložíme ich do HDFS.

Výukový program Apache Flume: Streamovanie údajov z Twitteru

V tejto praktickej časti budeme streamovať dáta z Twitteru pomocou Flume a potom ich ukladať do HDFS, ako je to znázornené na nasledujúcom obrázku.

Prvým krokom je vytvorenie aplikácie Twitter. Najprv musíte prejsť na túto adresu URL: https://apps.twitter.com/ a prihláste sa do svojho účtu Twitter. Prejdite na vytvorenie karty aplikácie, ako je znázornené na nasledujúcom obrázku.

Potom vytvorte aplikáciu podľa obrázka nižšie.

Po vytvorení tejto aplikácie nájdete kľúč a prístupový token. Skopírujte kľúč a prístupový token. Tieto tokeny odovzdáme v našom konfiguračnom súbore Flume, aby sme sa pripojili k tejto aplikácii.

Teraz vytvorte súbor flume.conf v koreňovom adresári flume, ako je to znázornené na nasledujúcom obrázku. Ako sme diskutovali, v architektúre Flume’s budeme konfigurovať náš zdroj, drez a kanál. Náš Zdroj je Twitter, odkiaľ streamujeme dáta, a náš Sink je HDFS, kde zapisujeme údaje.

V konfigurácii zdroja odovzdávame typ zdroja Twitter ako org.apache.flume.source.twitter.TwitterSource. Potom odovzdávame všetky štyri tokeny, ktoré sme dostali z Twitteru. Na záver v konfigurácii zdroja odovzdávame kľúčové slová, na ktoré ideme načítať tweety.

V konfigurácii Sink ideme konfigurovať vlastnosti HDFS. Nastavíme cestu HDFS, formát zápisu, typ súboru, veľkosť dávky atď. Nakoniec nastavíme pamäťový kanál, ako je znázornené na nasledujúcom obrázku.

Teraz sme všetci pripravení na popravu. Poďme do toho a vykonajme tento príkaz:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Po vykonaní tohto príkazu na chvíľu, a potom môžete terminál opustiť pomocou kombinácie klávesov CTRL + C. Potom môžete pokračovať v adresári Hadoop a skontrolovať uvedenú cestu, či je súbor vytvorený alebo nie.

ako kopírovať objekt v

Stiahnite súbor a otvorte ho. Dostanete niečo, ako je znázornené na obrázku nižšie.

Dúfam, že tento blog bude informatívny a bude pre vás pridanou hodnotou. Ak máte záujem dozvedieť sa viac, môžete si to prečítať ktorá vám hovorí o veľkých dátach a o tom, ako spoločnosť Hadoop rieši výzvy spojené s veľkými dátami.

Teraz, keď ste pochopili Apache Flume, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.