Úvod do Apache Hive



Apache Hive je balík dátových skladov postavený na platforme Hadoop a používa sa na analýzu údajov. Úľ je zameraný na používateľov, ktorým vyhovuje SQL.

Apache Hive je balík dátových skladov postavený na platforme Hadoop a používa sa na analýzu údajov. Úľ je zameraný na používateľov, ktorým vyhovuje SQL. Je to podobné ako SQL a nazýva sa HiveQL, ktoré sa používa na správu a dopytovanie štruktúrovaných údajov. Apache Hive sa používa na abstraktnú zložitosť Hadoopu. Tento jazyk tiež umožňuje tradičným programátorom mapovania / redukcie pripojiť svoje vlastné mapovače a reduktory. Populárnou vlastnosťou Hive je, že sa nemusíte učiť Javu.





Úľ, otvorený rámec pre skladovanie dát v petabajtových mierkach s dátumom založený na Hadoop, vyvinul tím dátovej infraštruktúry na Facebooku. Hive je tiež jednou z technológií, ktorá sa používa na riešenie požiadaviek na Facebooku. Úľ je veľmi obľúbený u všetkých používateľov interne na Facebooku a používa sa na vykonávanie tisícov úloh v klastri so stovkami používateľov pre najrôznejšie aplikácie. Klaster Hive-Hadoop na Facebooku ukladá viac ako 2 PB nespracovaných údajov a pravidelne každý deň načítava 15 TB dát.

Pozrime sa na niektoré z jeho funkcií, vďaka ktorým je populárny a užívateľsky prívetivý:



  • Umožňuje programátorom pripojiť vlastné mapovače a reduktory.
  • Má infraštruktúru Data Warehouse.
  • Poskytuje nástroje na povolenie ľahkého dátového ETL.
  • Definuje dotazovací jazyk podobný SQL s názvom QL.

Prípad použitia Apache Hive - Facebook:

Prípad použitia úľa - Facebook

triedenie poľa c ++

Pred implementáciou Hive čelil Facebook mnohým výzvam, pretože veľkosť generovaných údajov sa zväčšovala alebo skôr explodovala, takže bolo skutočne ťažké ich zvládnuť. Tradičný RDBMS tento tlak nezvládol a Facebook preto hľadal lepšie možnosti. Na vyriešenie tohto blížiaceho sa problému sa Facebook pôvodne pokúsil použiť program Hadoop MapReduce, ale s ťažkosťami v programovaní a povinnými znalosťami jazyka SQL z neho urobil nepraktické riešenie. Úľ im umožnil prekonať výzvy, ktorým čelili.

S Hive sú teraz schopní vykonávať tieto činnosti:



  • Tabuľky je možné deliť a deliť
  • Flexibilita a vývoj schémy
  • K dispozícii sú ovládače JDBC / ODBC
  • Tabuľky úľov je možné definovať priamo v HDFS
  • Rozšíriteľné - typy, formáty, funkcie a skripty

Prípad použitia úľa v zdravotníctve:

Kde používať úľ?

Apache Hive je možné použiť na nasledujúcich miestach:

  • Ťažba dát
  • Spracovanie denníka
  • Indexovanie dokumentov
  • Business Intelligence orientovaná na zákazníka
  • Prediktívne modelovanie
  • Testovanie hypotéz

Architektúra úľa:

Úľ sa skladá z nasledujúcich hlavných komponentov:

  • Metastore - Ak chcete uložiť metadáta.
  • JDBC / ODBC - Query Compiler and Execution Engine na prevod dotazov SQL na postupnosť MapReduce.
  • SerDe a ObjectInspectors - pre dátové formáty a typy.
  • UDF / UDAF - pre funkcie definované používateľom.
  • Klienti - podobne ako v príkazovom riadku MySQL a vo webovom používateľskom rozhraní.

Súčasti úľa:

Metastore:

Metastore ukladá informácie o tabuľkách, oddieloch a stĺpcoch v tabuľkách. V Metastore sú 3 spôsoby ukladania: Embedded Metastore, Local Metastore a Remote Metastore. Remote Metastore sa väčšinou použije v produkčnom režime.

ako používať charat v jave -

Obmedzenia úľa:

Úľ má nasledujúce obmedzenia a za takýchto okolností ho nemožno použiť:

  • Nie je určené na online spracovanie transakcií.
  • Poskytuje prijateľnú latenciu pre interaktívne prehliadanie údajov.
  • Neponúka dotazy v reálnom čase a aktualizácie na úrovni riadkov.
  • Latencia pri dotazoch na úle je všeobecne veľmi vysoká.

Máte na nás otázku? Uveďte ich v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Príkazy úľa