Najlepšie príkazy úľa s príkladmi v HQL



Tento blog pojednáva o príkazoch Hive s príkladmi v HQL. VYTVORIŤ, DROP, ZKRÁTIŤ, ZMENIŤ, ZOBRAZIŤ, POPIS, POUŽITIE, ZATIAHNUTIE, VLOŽIŤ, PRIPOJIŤ sa a mnoho ďalších príkazov Úľa

V tomto blogovom príspevku si poďme predstaviť príklady najlepších príkazov Hive. Tieto príkazy Hive sú veľmi dôležité pri vytváraní základov pre .

Príručka o postupe technikom Edureka 2019 je vonku! Najhorúcejšie pracovné úlohy, presné cesty učenia, priemyselné vyhliadky a ďalšie informácie v príručke. Stiahnuť ▼ teraz.

Čo je to Hive?

Apache Hive je systém dátových skladov, ktorý je navrhnutý pre prácu na Hadoop. Používa sa na dopytovanie a správu veľkých súborov údajov nachádzajúcich sa v distribuovanom úložisku. Predtým, ako sa Hive stal projektom open source programu Apache Hadoop, vznikol na Facebooku. Poskytuje mechanizmus na premietnutie štruktúry na údaje v Hadoop a na dopytovanie týchto údajov pomocou jazyka podobného SQL s názvom HiveQL (HQL).





Hive sa používa, pretože tabuľky v Hive sú podobné tabuľkám v relačnej databáze. Ak ovládate SQL, je to prechádzka na tortu. Mnoho používateľov môže súčasne dopytovať údaje pomocou Hive-QL.

Čo je to HQL?

Hive definuje jednoduchý dotazovací jazyk podobný SQL na dopytovanie a správu veľkých súborov údajov s názvom Hive-QL (HQL). Používanie je jednoduché, ak ovládate jazyk SQL. Hive umožňuje programátorom, ktorí sú oboznámení s jazykom, napísať vlastný rámec MapReduce, aby mohli vykonávať sofistikovanejšie analýzy.



Použitie úľa:

1. Distribuované úložisko Apache Hive.

2. Úľ poskytuje nástroje na umožnenie ľahkého extrakcie / transformácie / načítania údajov (ETL)

3. Poskytuje štruktúru rôznych formátov údajov.



4. Použitím Hive môžeme získať prístup k súborom uloženým v distribuovanom systéme súborov Hadoop (HDFS sa používa na dopytovanie a správu veľkých súborov údajov, ktoré sa v ňom nachádzajú) alebo v iných systémoch na ukladanie údajov, ako je Apache HBase.

Obmedzenia úľa:

& bull Hive nie je určený na online spracovanie transakcií (OLTP), používa sa iba na online analytické spracovanie.

& Bull Hive podporuje prepisovanie alebo zadržiavanie údajov, ale nie ich aktualizuje a odstraňuje.

& bull V Hive nie sú podporované poddotazy.

Prečo sa úľ používa napriek prasaťu?

Nasleduje dôvodov, prečo sa Hive používa napriek dostupnosti Pig:

  • Hive-QL je deklaratívna jazyková linka SQL, PigLatin je jazyk toku údajov.
  • Pig: jazyk a prostredie toku údajov na skúmanie veľmi veľkých súborov údajov.
  • Úľ: distribuovaný dátový sklad.

Súčasti úľa:

Metastore:

Úľ ukladá schému tabuliek Hive do metastore Hive. Metastore sa používa na uchovanie všetkých informácií o tabuľkách a oddieloch, ktoré sú v sklade. Predvolene sa metastore spúšťa v rovnakom procese ako služba Hive a predvoleným úložiskom Metastore je databáza DerBy.

SerDe:

Serializer, Deserializer dáva pokyny úlu, ako spracovať záznam.

Príkazy úľa:

Jazyk definície údajov (DDL)

Príkazy DDL sa používajú na zostavenie a úpravu tabuliek a iných objektov v databáze.

Príkaz DDL Funkcia
VYTVORIŤ Používa sa na vytvorenie tabuľky alebo databázy
ŠOU Používa sa na zobrazenie databázy, tabuľky, vlastností atď
VEK Používa sa na vykonávanie zmien v existujúcej tabuľke
POPIS Opisuje stĺpce tabuľky
OCELIŤ Používa sa na trvalé skrátenie a odstránenie riadkov tabuľky
ODSTRÁNIŤ Vymaže údaje z tabuľky, ale dá sa obnoviť

Prejdite do shellu Hive zadaním príkazu sudo hive a zadajte príkaz ‘Vytvárať databázy meno> “ na vytvorenie novej databázy v úli.

Vytvorte databázu Hive pomocou príkazov Hive

Ak chcete vypísať zoznam databáz v sklade Úľov, zadajte príkaz „ zobraziť databázy “.

Databáza sa vytvára v predvolenom umiestnení skladu Hive. V Cloudere uložte databázu Hive do / user / hive / warehouse.

Príkaz na použitie databázy je POUŽITIE

Skopírujte vstupné údaje na HDFS z lokálneho príkazu copy from local.

Keď vytvoríme tabuľku v úli, vytvorí sa v predvolenom umiestnení skladu úľov. - „/ užívateľ / úľ / sklad“, po vytvorení tabuľky môžeme presunúť údaje z HDFS do tabuľky úľov.

Nasledujúci príkaz vytvorí tabuľku s umiestnením „/user/hive/warehouse/retail.db“

def __init__ v pythone

Poznámka : retail.db je databáza vytvorená v sklade Hive.

Popíš poskytuje informácie o schéme tabuľky.

Jazyk manipulácie s údajmi (DML)

Príkazy DML sa používajú na získavanie, ukladanie, úpravy, mazanie, vkladanie a aktualizáciu údajov v databáze.

Príklad:

Výkazy LOAD, INSERT.

Syntax:

NAČÍTAJTE údajovú cestu do tabuľky [tablename]

Operácia Načítať sa používa na presun údajov do príslušnej tabuľky Úľov. Ak kľúčové slovo miestne je zadané, potom v príkaze na načítanie dá cestu k miestnemu súborovému systému. Pokiaľ nie je zadané kľúčové slovo local, musíme použiť cestu HDFS k súboru.

Tu je niekoľko príkladov príkazu LOAD data LOCAL

Po načítaní údajov do tabuľky Hive môžeme použiť príkazy na manipuláciu s údajmi alebo agregačné funkcie načítať údaje.

Príklad na spočítanie počtu záznamov:

Používa sa funkcia agregácie počtu, ktorá počíta celkový počet záznamov v tabuľke.

„Vytvoriť externú“ tabuľku:

The vytvárať externé kľúčové slovo sa používa na vytvorenie tabuľky a poskytuje umiestnenie, kde sa bude tabuľka vytvárať, aby Hive nepoužil pre túto tabuľku predvolené umiestnenie. An EXTERNÁ tabuľka ukazuje na akékoľvek miesto HDFS pre jeho úložisko, a nie na predvolené úložisko.

Vložiť príkaz:

The vložiť príkaz sa používa na načítanie tabuľky údajov Hive. Vložky je možné vkladať do tabuľky alebo do oddielu.

& bull INSERT OVERWRITE sa používa na prepísanie existujúcich údajov v tabuľke alebo oddiele.

& bull INSERT INTO sa používa na pripojenie údajov k existujúcim údajom v tabuľke. (Poznámka: Syntax INSERT INTO je práca od verzie 0.8)

Príklad príkazov „Rozdelené podľa“ a „Zoskupené podľa“:

„Rozdelené podľa „Používa sa na rozdelenie tabuľky na oddiel a dá sa rozdeliť na vedrá pomocou„ Zoskupené „Príkaz.

Keď vložíme chyby hádzania dátových úľov, režim dynamického oddielu je prísny a dynamický oddiel nie je povolený (od Jeff o webová stránka spoločnosti dresshead ). Musíme teda nastaviť nasledujúce parametre v Hive shell.

nastaviť hive.exec.dynamic.partition = true

Ak chcete povoliť dynamické oddiely, je to predvolene nepravdivé

nastaviť hive.exec.dynamic.partition.mode = nonstrict

Rozdelenie sa vykonáva podľa kategórie a dá sa rozdeliť do segmentov pomocou príkazu „Zoskupené podľa“.

Príkazom „Zrušiť tabuľku“ sa odstránia údaje a metaúdaje tabuľky. V prípade externých tabuliek sa odstránia iba metadáta.

Príkazom „Zrušiť tabuľku“ sa odstránia údaje a metaúdaje tabuľky. V prípade externých tabuliek sa odstránia iba metadáta.

Načítajte údaje lokálnej cesty „aru.txt“ do názvu tabuľky tabuľky a potom skontrolujeme tabuľku employee1 pomocou príkazu Vybrať * z názvu tabuľky

premeniť objekt na pole php

Ak chcete spočítať počet záznamov v tabuľke pomocou tlačidla Vybrať počet (*) z txnrecords

Agregácia:

Vyberte počet (DISTINCT kategória) z názvu tabuľky

Tento príkaz započíta inú kategóriu tabuľky „cate“. Tu sú 3 rôzne kategórie.

Predpokladajme, že existuje ďalšia tabuľka, kde f1 je názov poľa kategórie.

Zoskupenie:

Príkaz Group sa používa na zoskupenie sady výsledkov podľa jedného alebo viacerých stĺpcov.

Vyberte kategóriu, súčet (čiastku) zo skupiny záznamov txt podľa kategórie

Vypočíta sa suma rovnakej kategórie.

Výsledok, kedy je jedna tabuľka uložená do inej tabuľky.

Vytvorte tabuľku newtablename ako select * zo oldtablename

Pripojiť sa k príkazu:

Tu sa v názve vytvorí ešte jedna tabuľka „Maily“

Pripojte sa k operácii :

Operácia spojenia sa vykonáva kombinovaním polí z dvoch tabuliek pomocou hodnôt, ktoré sú spoločné pre každú z nich.

Ľavý vonkajší spoj :

Výsledok ľavého vonkajšieho spojenia (alebo jednoducho ľavého spojenia) pre tabuľky A a B vždy obsahuje všetky záznamy „ľavej“ tabuľky (A), aj keď podmienka spojenia nenájde žiadny zodpovedajúci záznam v „pravej“ tabuľke (B).

Správne vonkajšie :

Pravé vonkajšie spojenie (alebo pravé spojenie) sa veľmi podobá ľavému vonkajšiemu spojeniu, s výnimkou prípadu, keď je spracovanie tabuliek obrátené. Každý riadok z „pravej“ tabuľky (B) sa v spojenej tabuľke objaví aspoň raz.

Úplné pripojenie :

Pripojená tabuľka bude obsahovať všetky záznamy z oboch tabuliek a doplní NULL za chýbajúce zhody na oboch stranách.

Po dokončení práce s úľom môžeme na ukončenie úľovej schránky použiť príkaz quit.

Vychádza z Úľa

Úľ je len súčasťou veľkej skladačky s názvom Big Data and Hadoop. Hadoop je oveľa viac než len Úľ. Kliknutím nižšie zobrazíte ďalšie zručnosti, ktoré by ste mali ovládať v programe Hadoop.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.

Súvisiace príspevky:

Sedem spôsobov, ako školenie veľkých dát môže zmeniť vašu organizáciu

Úlové dátové modely