ÚVOD DO APACHE HIVE .CO

Apache Hive je balík dátových skladov postavený na platforme Hadoop a používa sa na analýzu údajov. Úľ je zameraný na používateľov, ktorým vyhovuje SQL. Je to podobné ako SQL a nazýva sa HiveQL, ktoré sa používa na správu a dopytovanie štruktúrovaných údajov. Apache Hive sa používa na abstraktnú zložitosť Hadoopu. Tento jazyk tiež umožňuje tradičným programátorom mapovania / redukcie pripojiť svoje vlastné mapovače a reduktory. Populárnou vlastnosťou Hive je, že sa nemusíte učiť Javu.

Úľ, otvorený rámec pre skladovanie dát v petabajtových mierkach s dátumom založený na Hadoop, vyvinul tím dátovej infraštruktúry na Facebooku. Hive je tiež jednou z technológií, ktorá sa používa na riešenie požiadaviek na Facebooku. Úľ je veľmi obľúbený u všetkých používateľov interne na Facebooku a používa sa na vykonávanie tisícov úloh v klastri so stovkami používateľov pre najrôznejšie aplikácie. Klaster Hive-Hadoop na Facebooku ukladá viac ako 2 PB nespracovaných údajov a pravidelne každý deň načítava 15 TB dát.

Pozrime sa na niektoré z jeho funkcií, vďaka ktorým je populárny a užívateľsky prívetivý:

Umožňuje programátorom pripojiť vlastné mapovače a reduktory.
Má infraštruktúru Data Warehouse.
Poskytuje nástroje na povolenie ľahkého dátového ETL.
Definuje dotazovací jazyk podobný SQL s názvom QL.

Prípad použitia Apache Hive - Facebook:

Prípad použitia úľa - Facebook

triedenie poľa c ++

Pred implementáciou Hive čelil Facebook mnohým výzvam, pretože veľkosť generovaných údajov sa zväčšovala alebo skôr explodovala, takže bolo skutočne ťažké ich zvládnuť. Tradičný RDBMS tento tlak nezvládol a Facebook preto hľadal lepšie možnosti. Na vyriešenie tohto blížiaceho sa problému sa Facebook pôvodne pokúsil použiť program Hadoop MapReduce, ale s ťažkosťami v programovaní a povinnými znalosťami jazyka SQL z neho urobil nepraktické riešenie. Úľ im umožnil prekonať výzvy, ktorým čelili.

S Hive sú teraz schopní vykonávať tieto činnosti:

Tabuľky je možné deliť a deliť
Flexibilita a vývoj schémy
K dispozícii sú ovládače JDBC / ODBC
Tabuľky úľov je možné definovať priamo v HDFS
Rozšíriteľné - typy, formáty, funkcie a skripty

Prípad použitia úľa v zdravotníctve:

Kde používať úľ?

Apache Hive je možné použiť na nasledujúcich miestach:

Ťažba dát
Spracovanie denníka
Indexovanie dokumentov
Business Intelligence orientovaná na zákazníka
Prediktívne modelovanie
Testovanie hypotéz

Architektúra úľa:

Úľ sa skladá z nasledujúcich hlavných komponentov:

Metastore - Ak chcete uložiť metadáta.
JDBC / ODBC - Query Compiler and Execution Engine na prevod dotazov SQL na postupnosť MapReduce.
SerDe a ObjectInspectors - pre dátové formáty a typy.
UDF / UDAF - pre funkcie definované používateľom.
Klienti - podobne ako v príkazovom riadku MySQL a vo webovom používateľskom rozhraní.

Súčasti úľa:

Metastore:

Metastore ukladá informácie o tabuľkách, oddieloch a stĺpcoch v tabuľkách. V Metastore sú 3 spôsoby ukladania: Embedded Metastore, Local Metastore a Remote Metastore. Remote Metastore sa väčšinou použije v produkčnom režime.

ako používať charat v jave -

Obmedzenia úľa:

Úľ má nasledujúce obmedzenia a za takýchto okolností ho nemožno použiť:

Nie je určené na online spracovanie transakcií.
Poskytuje prijateľnú latenciu pre interaktívne prehliadanie údajov.
Neponúka dotazy v reálnom čase a aktualizácie na úrovni riadkov.
Latencia pri dotazoch na úle je všeobecne veľmi vysoká.

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Príkazy úľa

Úvod do Apache Hive

Apache Hive je balík dátových skladov postavený na platforme Hadoop a používa sa na analýzu údajov. Úľ je zameraný na používateľov, ktorým vyhovuje SQL.

Prípad použitia Apache Hive - Facebook:

Prípad použitia úľa v zdravotníctve:

Kde používať úľ?

Architektúra úľa:

Súčasti úľa:

Obmedzenia úľa:

Kategórie

Popular Articles

Demystifikácia rozdelenia disku na Spark

Docker Swarm pre dosiahnutie vysokej dostupnosti

Integrácia Jenkins Git - užitočné pre každého profesionála DevOps

Výukový program MySQL Workbench - komplexný sprievodca nástrojom RDBMS

Čo je KeyError v Pythone? Slovník a manipulácia s nimi

Učenie pod dohľadom Apache Mahout

Výukový program pre blockchain - Sprievodca technológiou blockchain pre začiatočníkov

Ako najlepšie implementovať súbežnú hashovú mapu v Jave?

Čo je Power BI - Začíname s Microsoft Power BI

Čo je šéfkuchár? - Nástroj používaný na správu konfigurácie

Kariérny postup v sieti Informatica: Všetko, čo potrebujete vedieť

Ako sa stať vývojárom blockchainu? - Typy, úlohy a zručnosti