Apache Hive je balík dátových skladov postavený na platforme Hadoop a používa sa na analýzu údajov. Úľ je zameraný na používateľov, ktorým vyhovuje SQL. Je to podobné ako SQL a nazýva sa HiveQL, ktoré sa používa na správu a dopytovanie štruktúrovaných údajov. Apache Hive sa používa na abstraktnú zložitosť Hadoopu. Tento jazyk tiež umožňuje tradičným programátorom mapovania / redukcie pripojiť svoje vlastné mapovače a reduktory. Populárnou vlastnosťou Hive je, že sa nemusíte učiť Javu.
Úľ, otvorený rámec pre skladovanie dát v petabajtových mierkach s dátumom založený na Hadoop, vyvinul tím dátovej infraštruktúry na Facebooku. Hive je tiež jednou z technológií, ktorá sa používa na riešenie požiadaviek na Facebooku. Úľ je veľmi obľúbený u všetkých používateľov interne na Facebooku a používa sa na vykonávanie tisícov úloh v klastri so stovkami používateľov pre najrôznejšie aplikácie. Klaster Hive-Hadoop na Facebooku ukladá viac ako 2 PB nespracovaných údajov a pravidelne každý deň načítava 15 TB dát.
Pozrime sa na niektoré z jeho funkcií, vďaka ktorým je populárny a užívateľsky prívetivý:
- Umožňuje programátorom pripojiť vlastné mapovače a reduktory.
- Má infraštruktúru Data Warehouse.
- Poskytuje nástroje na povolenie ľahkého dátového ETL.
- Definuje dotazovací jazyk podobný SQL s názvom QL.
Prípad použitia Apache Hive - Facebook:
triedenie poľa c ++
Pred implementáciou Hive čelil Facebook mnohým výzvam, pretože veľkosť generovaných údajov sa zväčšovala alebo skôr explodovala, takže bolo skutočne ťažké ich zvládnuť. Tradičný RDBMS tento tlak nezvládol a Facebook preto hľadal lepšie možnosti. Na vyriešenie tohto blížiaceho sa problému sa Facebook pôvodne pokúsil použiť program Hadoop MapReduce, ale s ťažkosťami v programovaní a povinnými znalosťami jazyka SQL z neho urobil nepraktické riešenie. Úľ im umožnil prekonať výzvy, ktorým čelili.
S Hive sú teraz schopní vykonávať tieto činnosti:
- Tabuľky je možné deliť a deliť
- Flexibilita a vývoj schémy
- K dispozícii sú ovládače JDBC / ODBC
- Tabuľky úľov je možné definovať priamo v HDFS
- Rozšíriteľné - typy, formáty, funkcie a skripty
Prípad použitia úľa v zdravotníctve:
Kde používať úľ?
Apache Hive je možné použiť na nasledujúcich miestach:
- Ťažba dát
- Spracovanie denníka
- Indexovanie dokumentov
- Business Intelligence orientovaná na zákazníka
- Prediktívne modelovanie
- Testovanie hypotéz
Architektúra úľa:
Úľ sa skladá z nasledujúcich hlavných komponentov:
- Metastore - Ak chcete uložiť metadáta.
- JDBC / ODBC - Query Compiler and Execution Engine na prevod dotazov SQL na postupnosť MapReduce.
- SerDe a ObjectInspectors - pre dátové formáty a typy.
- UDF / UDAF - pre funkcie definované používateľom.
- Klienti - podobne ako v príkazovom riadku MySQL a vo webovom používateľskom rozhraní.
Súčasti úľa:
Metastore:
Metastore ukladá informácie o tabuľkách, oddieloch a stĺpcoch v tabuľkách. V Metastore sú 3 spôsoby ukladania: Embedded Metastore, Local Metastore a Remote Metastore. Remote Metastore sa väčšinou použije v produkčnom režime.
ako používať charat v jave -
Obmedzenia úľa:
Úľ má nasledujúce obmedzenia a za takýchto okolností ho nemožno použiť:
- Nie je určené na online spracovanie transakcií.
- Poskytuje prijateľnú latenciu pre interaktívne prehliadanie údajov.
- Neponúka dotazy v reálnom čase a aktualizácie na úrovni riadkov.
- Latencia pri dotazoch na úle je všeobecne veľmi vysoká.
Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.
Súvisiace príspevky: