Programovanie ošípaných: Vytvorte si svoj prvý skript Apache Pig
V našom , teraz sa naučíme, ako vytvoriť skript Apache Pig. Skripty Apache Pig sa používajú na spoločné vykonávanie sady príkazov Apache Pig. To pomáha znižovať čas a úsilie investované do písania a manuálneho vykonávania každého príkazu, zatiaľ čo sa to deje v programovaní ošípaných.Je tiež neoddeliteľnou súčasťou .Tento blog je podrobným sprievodcom, ktorý vám pomôže vytvoriť váš prvý skript Apache Pig.
Režimy vykonávania skriptu Apache Pig
Miestny režim : V „lokálnom režime“ môžete vykonať prasací skript v lokálnom súborovom systéme. V takom prípade nemusíte údaje ukladať do súborového systému Hadoop HDFS, môžete s nimi pracovať skôr s údajmi uloženými v lokálnom systéme súborov.
Režim MapReduce : V režime „MapReduce“ je potrebné údaje uložiť do súborového systému HDFS a údaje môžete spracovať pomocou prasacieho skriptu.
Skript Apache Pig v režime MapReduce
Povedzme, že našou úlohou je načítať údaje z dátového súboru a zobraziť požadovaný obsah na termináli ako výstup.
Vzorový dátový súbor obsahuje nasledujúce údaje:
Uložte textový súbor s názvom „information.txt“
Vzorový údajový súbor obsahuje päť stĺpcov Krstné meno , Priezvisko , Mobilné číslo , Mesto a Profesia oddelené kláves tab . Našou úlohou je načítať obsah tohto súboru z HDFS a zobraziť všetky stĺpce týchto záznamov.
získať dátum z reťazca java
Ak chcete tieto údaje spracovať pomocou programu Pig, tento súbor by mal byť prítomný v serveri Apache Hadoop HDFS.
Velenie : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
Krok 1: Písanie skriptu ošípaných
Vytvorte a otvorte súbor skriptu Apache Pig v editore (napr. Gedit).
Velenie : sudo gedit /home/edureka/output.pig
Tento príkaz vytvorí súbor „output.pig“ v domovskom adresári používateľa edureka.
Napíšme niekoľko príkazov PIG do súboru output.pig.
nainštalovať php na Windows 10
A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generate FName, MobileNo, Profession DUMP B
Uložte a zatvorte súbor.
- Prvý príkaz načíta súbor „information.txt“ do premennej A s nepriamou schémou (FName, LName, MobileNo, City, Profession).
- Druhý príkaz načíta požadované údaje z premennej A do premennej B.
- Tretí riadok zobrazuje obsah premennej B na termináli / konzole.
Krok 2: Spustite skript Apache Pig
Ak chcete vykonať prasací skript v režime HDFS, spustite nasledujúci príkaz:
Velenie : prasa /home/edureka/output.pig
Po dokončení spustenia skontrolujte výsledok. Tieto obrázky nižšie zobrazujú výsledky a ich prechodné mapy a redukčné funkcie.
Obrázok nižšie ukazuje, že skript bol úspešne vykonaný.
Obrázok nižšie zobrazuje výsledok nášho skriptu.
Gratulujeme k úspešnému vykonaniu vášho prvého skriptu Apache Pig!
Teraz viete, ako vytvoriť a spustiť skript Apache Pig. Preto náš ďalší blog v bude pokrývať ako vytvorte UDF (User Defined Functions) v Apache Pig a spustite ho v režime MapReduce / HDFS.
Teraz, keď ste vytvorili a spustili skript Apache Pig, pozrite sa na autor: Edureka, dôveryhodná online vzdelávacia spoločnosť so sieťou viac ako 250 000 spokojných študentov rozmiestnených po celom svete. Kurz certifikácie Edadoka Big Data Hadoop Certification Training pomáha študentom stať sa odborníkmi v oblasti HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocou prípadov použitia v reálnom čase v oblasti maloobchodu, sociálnych médií, letectva, cestovného ruchu, financií.
Máte na nás otázku? Uveďte to prosím v sekcii komentárov a my sa vám ozveme.