Programovanie ošípaných: Vytvorte si svoj prvý skript Apache Pig



Prečítajte si tento blogový príspevok a vytvorte svoj prvý skript Apache Pig. Skripty Apache Pig sa používajú na spoločné vykonávanie sady príkazov Apache Pig.

Programovanie ošípaných: Vytvorte si svoj prvý skript Apache Pig

V našom , teraz sa naučíme, ako vytvoriť skript Apache Pig. Skripty Apache Pig sa používajú na spoločné vykonávanie sady príkazov Apache Pig. To pomáha znižovať čas a úsilie investované do písania a manuálneho vykonávania každého príkazu, zatiaľ čo sa to deje v programovaní ošípaných.Je tiež neoddeliteľnou súčasťou .Tento blog je podrobným sprievodcom, ktorý vám pomôže vytvoriť váš prvý skript Apache Pig.

Režimy vykonávania skriptu Apache Pig

Miestny režim : V „lokálnom režime“ môžete vykonať prasací skript v lokálnom súborovom systéme. V takom prípade nemusíte údaje ukladať do súborového systému Hadoop HDFS, môžete s nimi pracovať skôr s údajmi uloženými v lokálnom systéme súborov.





Režim MapReduce : V režime „MapReduce“ je potrebné údaje uložiť do súborového systému HDFS a údaje môžete spracovať pomocou prasacieho skriptu.

Skript Apache Pig v režime MapReduce

Povedzme, že našou úlohou je načítať údaje z dátového súboru a zobraziť požadovaný obsah na termináli ako výstup.



Vzorový dátový súbor obsahuje nasledujúce údaje:

Informačný súbor txt - Apache Pig Script - Edureka

Uložte textový súbor s názvom „information.txt“



Vzorový údajový súbor obsahuje päť stĺpcov Krstné meno , Priezvisko , Mobilné číslo , Mesto a Profesia oddelené kláves tab . Našou úlohou je načítať obsah tohto súboru z HDFS a zobraziť všetky stĺpce týchto záznamov.

získať dátum z reťazca java

Ak chcete tieto údaje spracovať pomocou programu Pig, tento súbor by mal byť prítomný v serveri Apache Hadoop HDFS.

Velenie : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Krok 1: Písanie skriptu ošípaných

Vytvorte a otvorte súbor skriptu Apache Pig v editore (napr. Gedit).

Velenie : sudo gedit /home/edureka/output.pig

Tento príkaz vytvorí súbor „output.pig“ v domovskom adresári používateľa edureka.

Napíšme niekoľko príkazov PIG do súboru output.pig.

nainštalovať php na Windows 10
A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generate FName, MobileNo, Profession DUMP B

Uložte a zatvorte súbor.

  • Prvý príkaz načíta súbor „information.txt“ do premennej A s nepriamou schémou (FName, LName, MobileNo, City, Profession).
  • Druhý príkaz načíta požadované údaje z premennej A do premennej B.
  • Tretí riadok zobrazuje obsah premennej B na termináli / konzole.

Krok 2: Spustite skript Apache Pig

Ak chcete vykonať prasací skript v režime HDFS, spustite nasledujúci príkaz:

Velenie : prasa /home/edureka/output.pig

Po dokončení spustenia skontrolujte výsledok. Tieto obrázky nižšie zobrazujú výsledky a ich prechodné mapy a redukčné funkcie.

Obrázok nižšie ukazuje, že skript bol úspešne vykonaný.

Obrázok nižšie zobrazuje výsledok nášho skriptu.

Gratulujeme k úspešnému vykonaniu vášho prvého skriptu Apache Pig!

Teraz viete, ako vytvoriť a spustiť skript Apache Pig. Preto náš ďalší blog v bude pokrývať ako vytvorte UDF (User Defined Functions) v Apache Pig a spustite ho v režime MapReduce / HDFS.

Teraz, keď ste vytvorili a spustili skript Apache Pig, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.

Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.