Podrobnejšia analýza Apache Drill, dotazovacieho modulu New Age



Tento výukový program Apache Drill vám poskytne všetky informácie, ktoré potrebujete, aby ste mohli začať s dotazovacím jadrom Apache Drill, používaním s Hadoop, Big Data a Apache Spark.

Apache Drill je prvý odvetvový stroj SQL bez schémy v odbore. Vŕtačka nie je prvým dotazovacím strojom na svete, ale je prvou, ktorá vytvára dokonalú rovnováhu medzi flexibilitou a rýchlosťou. Drill je navrhnutý na škálovanie na niekoľko tisíc uzlov a dopytovanie petabajtov dát interaktívnou rýchlosťou, ktorú prostredia BI / Analytics vyžadujú.





Môže sa integrovať s niekoľkými zdrojmi údajov, ako sú Hive, HBase, MongoDB, súborový systém, RDBMS. V aplikácii Drill môžete tiež ľahko použiť vstupné formáty ako Avro, CSV, TSV, PSV, Parquet, súbory Hadoop Sequence a mnoho ďalších.

Prečo Apache Drill?

Najväčšou výhodou aplikácie Apache Drill je, že dokáže schému objavovať za behu pri dotazovaní akýchkoľvek údajov. Okrem toho môže pracovať s vašimi nástrojmi BI, ako sú Tableau, Qlikview, MicroStrategy atď., Kvôli lepšej analýze.



Tu je citácia priemyselného analytika, ktorá sumarizuje hodnotu nástroja Apache Drill:

'Drill nie je len o SQL-on-Hadoop.' Je to o SQL-na-skoro-čomkoľvek, okamžite a bez formalít. “

- Andrew Burst, Gigaom Research, január 2015



Drillbit je démon Apache Drill, ktorý beží na každom uzle v klastri. Používa ZooKeeper na všetku komunikáciu v klastri a členstvo v klastri maintaisn. Je zodpovedný za prijímanie požiadaviek od klienta, spracovanie dotazov a vrátenie výsledkov klientovi. Cvičenie, ktoré prijme požiadavku od klienta, sa nazýva ‘majster’. Generuje plán vykonávania, fragmenty vykonávania sa odosielajú do ďalších vrtákov spustených v klastri.

Drillbits-Apache-Drill

Ďalšou výhodou je, že inštalácia a nastavenie vŕtačky je dosť jednoduché. Poďme sa naučiť, ako nainštalovať Apache Drill.

Prvým krokom je stiahnutie balíka cvičení.

čo je charat v jave

Príkaz: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Príkaz: tar -xvf apache-drill-1.5.0.tar.gz

Príkaz: je

Ďalej nastavte premenné prostredia v súbore .bashrc.

Príkaz: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Tento príkaz aktualizuje zmeny:

Príkaz: zdroj .bashrc

Teraz choďte do adresára drill conf a upravte súbor drill-override.conf s ID klastra a zookeeper host & port, spustíme ho na lokálnom klastri.

Príkaz: cd apache-drill-1.5.0

Príkaz: sudo gedit conf / drill-override.conf

V predvolenom nastavení bude DRILL_MAX_DIRECT_MEMORY mať 8 GB v drill-env.sh a musíme si ho uchovať podľa pamäte, ktorú máme.

Príkaz: sudo gedit conf / drill-env.sh

Ak chcete inštalovať drill iba v jednom uzle, môžete použiť vložený režim, v ktorom bude prebiehať lokálne. Po spustení tohto príkazu sa automaticky spustí služba drillbit.

Príkaz: ./bin/drill-embedded

Môžete spustiť jednoduchý dotaz na kontrolu inštalácie.

Príkaz: vyberte * zo sys.options WHERE type = ‘SYSTEM’ a názov ako ‘security%’

Ak chcete skontrolovať webovú konzolu Apache Drill, musíme vo webovom prehliadači prejsť na localhost: 8047.

Dotaz môžete spustiť aj na karte Dotaz.

Ak chcete spustiť nácvik v distribuovanom režime, musíte upraviť ID klastra a pridať informácie ZooKeeper do súboru drill-override.conf, ako je uvedené nižšie.

Potom musíme na každom uzle spustiť službu ZooKeeper. Potom musíte pomocou tohto príkazu spustiť službu drillbit na každom uzle.

pl sql návod pre začiatočníkov s príkladmi

Príkaz: ./bin/drillbit.sh štart

Príkaz: jps

Teraz pomocou príkazu nižšie spustíme vrták.

Teraz môžeme vykonávať naše dotazy na klastri v distribuovanom režime.

Toto je prvý blogový príspevok v dvojdielnej sérii blogov Apache Drill. Druhý blog v sérii už čoskoro.

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Vŕtanie vrtákov Apache, časť 2

Apache Spark Vs Hadoop MapReduce