Apache Flink: Rámec analýzy veľkých dát novej generácie pre streamované a hromadné spracovanie údajov



V tomto blogu sa dozviete všetko o Apache Flink a nastavení klastra Flink. Flink podporuje real-time a dávkové spracovanie a je nevyhnutnou technológiou Big Data pre Big Data Analytics.

Apache Flink je open source platforma pre distribuovaný stream a dávkové spracovanie dát. Môže bežať na Windows, Mac OS a Linux OS. V tomto blogovom príspevku si povieme, ako lokálne nastaviť klaster Flink. Podobá sa Sparku v mnohých ohľadoch - má API na spracovanie grafov a strojového učenia ako Apache Spark - ale Apache Flink a Apache Spark nie sú úplne rovnaké.





Ak chcete nastaviť klaster Flink, musíte mať vo svojom systéme nainštalovanú verziu Java 7.x alebo vyššiu. Pretože mám Hadoop-2.2.0 nainštalovaný na konci systému CentOS (Linux), stiahol som si balík Flink, ktorý je kompatibilný s Hadoop 2.x. Spustením príkazu nižšie stiahnete balíček Flink.

Príkaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Rozbaľte súbor a získate adresár flink.

Príkaz: tar -xvf Stiahnuté súbory / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Príkaz: je

Pridajte premenné prostredia Flink do súboru .bashrc.

Príkaz: sudo gedit .bashrc

Musíte spustiť nasledujúci príkaz, aby sa aktivovali zmeny v súbore .bashrc

Príkaz: zdroj .bashrc

Teraz choďte do flink adresára a lokálne spustite klaster.

Príkaz: cd statný-1.0.0

Príkaz: bin / start-local.sh

Po spustení klastra uvidíte, že beží nový démon JobManager.

Príkaz: jps

Otvorte prehliadač a choďte na http: // localhost: 8081, aby ste videli webové užívateľské rozhranie Apache Flink.

Ukážme si jednoduchý príklad počtu slov pomocou Apache Flink.

Pred spustením príkladu nainštalujte do systému netcat (sudo yum install nc).

Teraz v novom termináli spustite nasledujúci príkaz.

Príkaz: nc -lk 9000

Spustite nasledujúci príkaz vo flink termináli. Tento príkaz spustí program, ktorý vezme streamované dáta ako vstup a vykoná s týmito streamovanými dátami operáciu počtu slov.

Príkaz: príklady bin / flink run / streaming / SocketTextStreamWordCount.jar –hostitel localhost –port 9000

podreťazec v príklade servera sql

Vo webovom používateľskom rozhraní uvidíte prácu v spustenom stave.

Spustiť pod príkazom v novom termináli, toto vytlačí údaje streamované a spracované.

Príkaz: tail -f log / flink - * - jobmanager - *. out

Teraz choďte do terminálu, kde ste spustili netcat a niečo napíšte.

V okamihu, keď po zadaní niektorých údajov do terminálu netcat stlačíte tlačidlo Enter na vašom kľúčovom slove, použije sa na tieto dáta operácia slovného spojenia a výstup sa do milisekúnd vytlačí tu (protokol Jobmanager spoločnosti Flink)!

Vo veľmi veľmi krátkom čase budú dáta streamované, spracované a vytlačené.

O Apache Flink sa dá dozvedieť oveľa viac. V našom pripravovanom blogu sa dotkneme ďalších Flink tém.

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Apache Falcon: Nová platforma na správu údajov pre ekosystém Hadoop