Apache Flink je open source platforma pre distribuovaný stream a dávkové spracovanie dát. Môže bežať na Windows, Mac OS a Linux OS. V tomto blogovom príspevku si povieme, ako lokálne nastaviť klaster Flink. Podobá sa Sparku v mnohých ohľadoch - má API na spracovanie grafov a strojového učenia ako Apache Spark - ale Apache Flink a Apache Spark nie sú úplne rovnaké.
Ak chcete nastaviť klaster Flink, musíte mať vo svojom systéme nainštalovanú verziu Java 7.x alebo vyššiu. Pretože mám Hadoop-2.2.0 nainštalovaný na konci systému CentOS (Linux), stiahol som si balík Flink, ktorý je kompatibilný s Hadoop 2.x. Spustením príkazu nižšie stiahnete balíček Flink.
Príkaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Rozbaľte súbor a získate adresár flink.
Príkaz: tar -xvf Stiahnuté súbory / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Príkaz: je
Pridajte premenné prostredia Flink do súboru .bashrc.
Príkaz: sudo gedit .bashrc
Musíte spustiť nasledujúci príkaz, aby sa aktivovali zmeny v súbore .bashrc
Príkaz: zdroj .bashrc
Teraz choďte do flink adresára a lokálne spustite klaster.
Príkaz: cd statný-1.0.0
Príkaz: bin / start-local.sh
Po spustení klastra uvidíte, že beží nový démon JobManager.
Príkaz: jps
Otvorte prehliadač a choďte na http: // localhost: 8081, aby ste videli webové užívateľské rozhranie Apache Flink.
Ukážme si jednoduchý príklad počtu slov pomocou Apache Flink.
Pred spustením príkladu nainštalujte do systému netcat (sudo yum install nc).
Teraz v novom termináli spustite nasledujúci príkaz.
Príkaz: nc -lk 9000
Spustite nasledujúci príkaz vo flink termináli. Tento príkaz spustí program, ktorý vezme streamované dáta ako vstup a vykoná s týmito streamovanými dátami operáciu počtu slov.
Príkaz: príklady bin / flink run / streaming / SocketTextStreamWordCount.jar –hostitel localhost –port 9000
podreťazec v príklade servera sql
Vo webovom používateľskom rozhraní uvidíte prácu v spustenom stave.
Spustiť pod príkazom v novom termináli, toto vytlačí údaje streamované a spracované.
Príkaz: tail -f log / flink - * - jobmanager - *. out
Teraz choďte do terminálu, kde ste spustili netcat a niečo napíšte.
V okamihu, keď po zadaní niektorých údajov do terminálu netcat stlačíte tlačidlo Enter na vašom kľúčovom slove, použije sa na tieto dáta operácia slovného spojenia a výstup sa do milisekúnd vytlačí tu (protokol Jobmanager spoločnosti Flink)!
Vo veľmi veľmi krátkom čase budú dáta streamované, spracované a vytlačené.
O Apache Flink sa dá dozvedieť oveľa viac. V našom pripravovanom blogu sa dotkneme ďalších Flink tém.
Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.
Súvisiace príspevky:
Apache Falcon: Nová platforma na správu údajov pre ekosystém Hadoop