Informatica ETL: Sprievodca začiatočníkom v porozumení ETL pomocou Informatica PowerCenter



Pochopenie koncepcií Informatica ETL a rôznych etáp procesu ETL a precvičenie prípadu použitia týkajúceho sa databázy zamestnancov.

Účelom Informatica ETL je poskytnúť používateľom nielen proces extrakcie údajov zo zdrojových systémov a ich prenos do dátového skladu, ale tiež poskytnúť používateľom spoločnú platformu na integráciu ich údajov z rôznych platforiem a aplikácií.To viedlo k zvýšeniu dopytu po .Predtým, ako hovoríme o ETL Informatica, najskôr pochopíme, prečo potrebujeme ETL.

Prečo potrebujeme ETL?

Každá spoločnosťtieto dni musia spracovávať veľké súbory údajov z rôznych zdrojov. Tieto údaje je potrebné spracovať, aby poskytovali dôkladné informácie pri prijímaní obchodných rozhodnutí. Takéto údaje však často čelia nasledujúcim výzvam:





  • Veľké spoločnosti generujú veľa údajov a taký obrovský objem údajov môže byť v akomkoľvek formáte. Boli by k dispozícii vo viacerých databázach a mnohých neštruktúrovaných súboroch.
  • Tieto údaje musia byť zhromaždené, skombinované, porovnané a vyrobené tak, aby fungovali ako súvislý celok. Ale rôzne databázy nekomunikujú dobre!
  • Mnoho organizácií implementovalo rozhrania medzi týmito databázami, čelili však nasledujúcim výzvam:
    • Každá dvojica databáz vyžaduje jedinečné rozhranie.
    • Ak zmeníte jednu databázu, bude pravdepodobne potrebné inovovať mnoho rozhraní.

Nižšie vidíte rôzne databázy organizácie a ich interakcie:

Rôzne súbory údajov organizácie - Informatica - ETL - Edureka

Rôzne databázy používané rôznymi oddeleniami organizácie



Rôzne interakcie databáz v organizácii

Ako je vidieť vyššie, organizácia môže mať rôzne databázy v rôznych oddeleniach a interakcia medzi nimi sa stáva ťažko realizovateľnou, pretože je pre ne potrebné vytvoriť rôzne interakčné rozhrania. Na prekonanie týchto výziev je najlepším možným riešením použitie konceptov Integrácia údajov čo by umožnilo vzájomnú komunikáciu údajov z rôznych databáz a formátov. Nasledujúci obrázok nám pomáha pochopiť, ako sa z nástroja na integráciu údajov stáva bežné rozhranie na komunikáciu medzi rôznymi databázami.

Rôzne databázy prepojené prostredníctvom integrácie údajov



Na vykonanie integrácie údajov sú však k dispozícii rôzne procesy. Spomedzi týchto procesov je ETL najoptimálnejším, najefektívnejším a najspoľahlivejším procesom. Prostredníctvom ETL môže používateľ nielen získavať údaje z rôznych zdrojov, ale môže s dátami vykonávať rôzne operácie pred uložením týchto údajov do koncového cieľa.

Medzi rôznymi dostupnými nástrojmi ETL dostupnými na trhu je Informatica PowerCenter poprednou platformou pre integráciu údajov na trhu. Po testovaní na takmer 500 000 kombináciách platforiem a aplikácií pracuje Informatica PowerCenter inter s čo najširšou škálou rôznorodých štandardov, systémov a aplikácií. Poďme teraz pochopiť kroky, ktoré sú súčasťou procesu ETL Informatica.

ETL informatiky | Architektúra Informatica Výukový program Informatica PowerCenter Edureka

Tento výukový program Edureka Informatica vám pomôže podrobne porozumieť základom ETL pomocou Informatica Powercenter.

Kroky v procese Informatica ETL:

Predtým, ako prejdeme k rôznym krokom v Informatica ETL, urobme si prehľad o ETL. V ETL je extrakcia údajom, ktoré sú extrahované z homogénnych alebo heterogénnych zdrojov údajov, transformáciou, kde sú údaje transformované na ukladanie v správnom formáte alebo štruktúre na účely dotazovania a analýzy a načítaním, kde sú údaje načítané do konečnej cieľovej databázy, operačný dátový sklad, dátový trh alebo dátový sklad. Nasledujúci obrázok vám pomôže pochopiť, ako prebieha proces ETL Informatica.

Prehľad procesov ETL

Ako je vidieť vyššie, Informatica PowerCenter môže načítať údaje z rôznych zdrojov a ukladať ich do jedného dátového skladu. Teraz sa pozrime na kroky, ktoré sú súčasťou procesu InformLNa ETL.

V procese Informatica ETL sa nachádzajú hlavne 4 kroky, poďme im teraz porozumieť do hĺbky:

  1. Extrahovať alebo zachytiť
  2. Vydrhnite alebo vyčistite
  3. Transformácia
  4. Načítať a indexovať

1. Extrahovať alebo zachytiť: Ako je vidieť na obrázku nižšie, Zachytiť alebo Extrahovať je prvým krokom procesu ETL Informatica.Je to proces získavania snímky vybranej podmnožiny údajov zo zdroja, ktorý sa musí načítať do dátového skladu. Snímka je statické zobrazenie údajov v databáze iba na čítanie. Proces extrakcie môže byť dvoch typov:

  • Úplný výpis: Údaje sú úplne extrahované zo zdrojového systému a nie je potrebné sledovať zmeny v zdroji údajov od poslednej úspešnej extrakcie.
  • Prírastkový extrakt: Zachytia sa iba zmeny, ktoré nastali od poslednej úplnej extrakcie.

Fáza 1: Extrahujte alebo zachyťte

2. Vydrhnite alebo vyčistite: Toto je proces čistenia údajov prichádzajúcich zo zdroja pomocou rôznych techník rozpoznávania vzorov a AI na zvýšenie kvality údajov, ktoré sa prijímajú ďalej. Chyby ako preklepy, chybné dátumy, nesprávne použitie poľa, nesprávne priradené adresy, chýbajúce údaje, duplicitné údaje, nezrovnalosti sú zvyčajnezvýraznené a potom opravené alebo odstránenév tomto kroku. V tomto kroku sa tiež vykonávajú operácie ako dekódovanie, preformátovanie, časová pečiatka, prevod, generovanie kľúča, zlúčenie, detekcia / zaznamenanie chýb, lokalizácia chýbajúcich údajov. Ako je vidieť na obrázku nižšie, ide o druhý krok procesu Informatica ETL.

Fáza 2: Čistenie alebo čistenie údajov

3. Transformácia: Ako je vidieť na obrázku nižšie, jedná sa o tretí a najdôležitejší krok procesu Informatica ETL. Transformations je operácia prevodu údajov z formátu zdrojového systému na kostru Data Warehouse. Transformácia sa v zásade používa na predstavenie súboru pravidiel, ktoré definujú tok údajov a spôsob načítania údajov do cieľov. Ak sa chcete dozvedieť viac informácií o Transformácii, vyskúšajte Transformácie v Informatica Blog.

Fáza 3: Transformácia

4. Zaťaženie a index: Toto je posledný krok procesu ETL Informatica, ako je vidieť na obrázku nižšie. V tejto fáze umiestnime transformované údaje do skladu a vytvoríme pre ne indexy. Na základe procesu načítania sú k dispozícii dva hlavné typy načítania údajov .:

  • Plné alebo hromadné zaťaženie :Proces načítania údajov, keď to robíme úplne prvýkrát. Úloha extrahuje celý objem údajov zo zdrojovej tabuľky a po vykonaní požadovaných transformácií sa načíta do cieľového dátového skladu. Bude to jednorazová úloha, po ktorej budú samotné zmeny zachytené ako súčasť prírastkového extraktu.
  • Prírastkové načítanie alebo Obnovenie načítania : Samotné upravené údaje sa v cieli aktualizujú a potom sa načíta plné načítanie. Zmeny sa zachytia porovnaním vytvoreného alebo upraveného dátumu s dátumom posledného spustenia úlohy.Samotné upravené údaje sa extrahujú zo zdroja a budú aktualizované v cieli bez ovplyvnenia existujúcich údajov.

Fáza 4: Načítanie a indexovanie

Ak ste pochopili proces ETL Informatica, sme v lepšej pozícii, aby sme ocenili, prečo je Informatica v takýchto prípadoch najlepším riešením.

Vlastnosti Informatica ETL:

Pre všetky operácie integrácie údajov a ETL nás informatica poskytla Informatica PowerCenter . Pozrime sa teraz na niektoré kľúčové vlastnosti Informatica ETL:

  • Poskytuje možnosť určiť veľké množstvo pravidiel transformácie pomocou grafického používateľského rozhrania.
  • Generujte programy na transformáciu údajov.
  • Spracovanie viacerých zdrojov údajov.
  • Podporuje operácie extrakcie, čistenia, agregácie, reorganizácie, transformácie a načítania údajov.
  • Automaticky generuje programy na extrakciu údajov.
  • Vysokorýchlostné načítanie cieľových dátových skladov.

Ďalej uvádzame niektoré typické scenáre, v ktorých sa server Informatica PowerCenter používa:

  1. Migrácia údajov:

Spoločnosť zakúpila pre svoje účtovné oddelenie novú aplikáciu Splatné účty. PowerCenter môže presunúť údaje z existujúceho účtu do novej aplikácie. Obrázok nižšie vám pomôže pochopiť, ako môžete použiť Informatica PowerCenter na migráciu dát. Informatica PowerCenter môže počas procesu migrácie údajov ľahko uchovať údajový rad pre daňové, účtovné a iné zákonom predpísané účely.

Migrácia údajov zo staršej účtovníckej aplikácie do novej aplikácie

  1. Integrácia aplikácií:

Povedzme, že spoločnosť A kupuje spoločnosť B. Aby sme teda dosiahli výhody konsolidácie, musí byť fakturačný systém spoločnosti-B integrovaný do fakturačného systému spoločnosti-A, čo je možné ľahko vykonať pomocou Informatica PowerCenter. Obrázok nižšie vám pomôže pochopiť, ako môžete použiť Informatica PowerCenter na integráciu aplikácií medzi spoločnosťami.

Integrácia aplikácií medzi spoločnosťami

  1. Skladovanie údajov

Typické akcie vyžadované v dátových skladoch sú:

  • Kombinácia informácií z mnohých zdrojov na analýzu.
  • Presun údajov z mnohých databáz do dátového skladu.

Všetky vyššie uvedené typické prípady je možné ľahko vykonať pomocou Informatica PowerCenter. Ďalej môžete vidieť, že Informatica PowerCenter sa používa na kombinovanie údajov z rôznych druhov databáz, ako je Oracle, SalesForce atď., A na ich prenos do spoločného dátového skladu vytvoreného Informatica PowerCenter.

Dáta Z rôznych databáz integrovaných do spoločného dátového skladu

  1. Middleware

Povedzme, že maloobchodná organizácia využíva SAP R3 pre svoje maloobchodné aplikácie a SAP BW ako svoj dátový sklad. Priama komunikácia medzi týmito dvoma aplikáciami nie je možná z dôvodu nedostatku komunikačného rozhrania. Informatica PowerCenter je však možné medzi týmito dvoma aplikáciami použiť ako middlevér. Na obrázku nižšie vidíte architektúru toho, ako sa Informatica PowerCenter používa ako middleware medzi SAP R / 3 a SAP BW. Aplikácie zo systému SAP R / 3 prenášajú svoje údaje do rámca ABAP, ktorý ich následne prenáša do systému ABAPSAP Point of Sale (POS) a SAPFaktúry za služby (BOS). Informatica PowerCenter pomáha pri prenose dát z týchto služieb do SAP Business Warehouse (BW).

Informatica PowerCenter ako Middleware v SAP Retail Architecture

Aj keď ste videli niekoľko kľúčových funkcií a typických scenárov Informatica ETL, dúfam, že pochopíte, prečo je Informatica PowerCenter najlepším nástrojom pre proces ETL. Pozrime sa teraz na prípad použitia Informatica ETL.

Prípad použitia: Spojenie dvoch tabuliek s cieľom získať jednu podrobnú tabuľku

Povedzme, že chcete svojim zamestnancom zabezpečiť rozumnú prepravu, pretože oddelenia sa nachádzajú na rôznych miestach. Ak to chcete urobiť, najskôr musíte vedieť, do ktorého oddelenia každý zamestnanec patrí, a umiestnenie tohto oddelenia. Podrobnosti o zamestnancoch sú však uložené v rôznych tabuľkách a je potrebné pripojiť podrobnosti oddelenia k existujúcej databáze s podrobnosťami o všetkých zamestnancoch. Za týmto účelom najskôr načítame obe tabuľky do Informatica PowerCenter, vykonáme transformáciu zdrojovej kvalifikácie na údajoch a nakoniec načítame podrobnosti do cieľovej databázy.Začnime:

Krok 1 : Otvorte program PowerCenter Designer.

Nižšie je uvedená domovská stránka produktu Informatica PowerCenter Designer.

Pripojme sa teraz k úložisku. V prípade, že ste nenakonfigurovali svoje úložiská alebo nemáte problémy, môžete skontrolovať naše Blog.

Krok 2: Kliknite pravým tlačidlom myši na svoje úložisko a vyberte možnosť pripojenia.

Po kliknutí na možnosť pripojenia sa zobrazí výzva s nasledujúcou obrazovkou, ktorá vás požiada o používateľské meno a heslo úložiska.

Po pripojení k úložisku musíte otvoriť pracovný priečinok, ako je to vidieť nižšie:

Zobrazí sa výzva na zadanie názvu vášho mapovania. Zadajte názov svojho mapovania a kliknite na OK (pomenoval som ho ako m-ZAMESTNANEC ).

Krok 3: Načítajme teraz tabuľky z databázy, začnime pripojením k databáze. Ak to chcete urobiť, vyberte kartu Zdroje a možnosť Importovať z databázy, ako je uvedené nižšie:

Po kliknutí na Import z databázy sa zobrazí výzva na obrazovku, ako je uvedené nižšie, s dotazom na podrobnosti vašej databázy a jej používateľského mena a hesla na pripojenie (používam Oracle Database a používateľa HR).

Kliknutím na Pripojiť sa pripojíte k svojej databáze.

Krok 4: Ako sa chcem pripojiť k ZAMESTNANCI a ODDELENIE tabuľky, vyberiem ich a kliknem na OK.
Zdroje budú viditeľné vo vašom pracovnom priestore návrhára máp, ako je vidieť nižšie.

Krok 5: Podobne načítajte cieľovú tabuľku do mapovania.

Krok 6: Teraz prepojme kvalifikátor zdroja a cieľovú tabuľku. Pravým tlačidlom myši kliknite na ľubovoľné prázdne miesto v pracovnom priestore a vyberte Automatické prepojenie, ako je uvedené nižšie:

Nižšie je mapovanie, na ktoré odkazuje Autolink.

Krok 7: Pretože musíme obe tabuľky prepojiť so zdrojovým kvalifikátorom, vyberte stĺpce tabuľky oddelenia a umiestnite ho do zdrojového kvalifikátora, ako je vidieť nižšie:

Hodnoty stĺpcov vložte do kvalifikátora zdroja SQ_EMPLOYEES .

Nižšie je aktualizovaný Kvalifikátor zdroja.

Krok 8: Dvojitým kliknutím na Source Qualifier upravte transformáciu.

Zobrazí sa vyskakovacie okno Upraviť transformáciu, ako je vidieť nižšie. Kliknite na kartu Vlastnosti.

Krok 9: Na karte Vlastnosti kliknite na pole Hodnota v riadku UserDefined Join.

Získate nasledujúci editor SQL:

Krok 10: Zadajte EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID ako podmienku na spojenie oboch tabuliek v poli SQL a kliknutie na OK.

Krok 11: Teraz kliknite na riadok SQL Query a vygenerujte SQL na pripojenie, ako je vidieť nižšie:

Dostanete nasledujúci editor SQL, kliknite na možnosť Generovať SQL.

Nasledujúci SQL sa vygeneruje pre podmienku, ktorú sme zadali v predchádzajúcom kroku. Kliknite na OK.

Krok 12: Kliknite na Použiť a OK.

Nižšie je dokončené mapovanie.

Dokončili sme návrh spôsobu prenosu údajov zo zdroja do cieľa. K skutočnému prenosu údajov však ešte len dôjde, a preto musíme použiť návrh pracovného postupu PowerCenter. Vykonanie pracovného toku povedie k prenosu údajov zo zdroja do cieľa. Ak sa chcete dozvedieť viac informácií o pracovnom postupe, navštívte naše Výukový program Informatica: Pracovný tok Blog

Krok 13: ĽTeraz spustíme Správcu pracovných postupov kliknutím na ikonu W, ako je to znázornené nižšie:

Nižšie je uvedená domovská stránka návrhára pracovných postupov.

Krok 14: Poďme teraz vytvoriť nový pracovný postup pre naše mapovanie. Kliknite na kartu Pracovný tok a vyberte možnosť Vytvoriť.

Zobrazí sa pop-up okno. Zadajte názov svojho pracovného toku a kliknite na OK.

Krok 15 : Po vytvorení pracovného toku dostaneme ikonu Start v pracovnom priestore Workflow Manager.

Poďme si teraz pridať novú reláciu do pracovného priestoru, ako je vidieť nižšie, kliknutím na ikonu relácie a kliknutím na pracovný priestor:

Kliknutím na pracovný priestor umiestnite ikonu Relácia.

Krok 16: Pri pridávaní relácie musíte vybrať mapovanie, ktoré ste vytvorili a uložili vo vyššie uvedených krokoch. (Uložil som to ako m-ZAMESTNANEC).

Nižšie je uvedený pracovný priestor po pridaní ikony relácie.

Krok 17 : Teraz, keď ste vytvorili novú reláciu, musíme ju prepojiť so začiatočnou úlohou. Môžeme to urobiť kliknutím na ikonu Prepojiť úlohu, ako je vidieť nižšie:

algoritmy strojového učenia v r

Najskôr kliknite na ikonu Štart a potom na ikonu Relácia.

Nižšie je uvedený pripojený pracovný tok.

Krok 18: Teraz, keď sme dokončili dizajn, začnime pracovný tok. Kliknite na kartu Pracovný tok a vyberte možnosť Spustiť pracovný tok.

Správca pracovného toku spúšťa program Workflow Monitor.

Krok 19 : Hneď ako spustíme pracovný tok, automaticky sa spustí Správca pracovného tokuaumožňuje monitorovať vykonávanie vášho pracovného toku. Nižšie vidíte, že Monitor pracovného toku zobrazuje stav vášho pracovného toku.

Krok 20: Ak chcete skontrolovať stav pracovného toku, kliknite pravým tlačidlom myši na pracovný tok a vyberte možnosť Získať vlastnosti spustenia, ako je to zobrazené nižšie:

Vyberte kartu Štatistika zdroja / cieľa.

Nižšie vidíte počet riadkov, ktoré boli prenesené medzi zdrojom a cieľom po transformácii.

Výsledok môžete tiež overiť kontrolou cieľovej tabuľky, ako je uvedené nižšie.

Dúfam, že tento blog Informatica ETL pomohol rozšíriť vaše chápanie konceptov ETL pomocou Informatica a vytvoril dostatočný záujem na to, aby ste sa o Informatice dozvedeli viac.

Ak považujete tento blog za užitočný, môžete si tiež pozrieť našu sériu blogov Informatica Tutorial , Výukový program Informatica: Pochopenie Informatica „naruby“ a Transformácie Informatica: Srdce a duša Informatica PowerCenter . V prípade, že hľadáte podrobnosti o certifikácii Informatica, môžete si pozrieť náš blog Certifikácia Informatica: Všetko, čo treba vedieť .

Ak ste sa už rozhodli pre kariéru v spoločnosti Informatica, odporučil by som vám pozrieť si našu stránka kurzu. Certifikačné školenie Informatica na Edureke z vás urobí odborníka v oblasti Informatica prostredníctvom živých školení vedených inštruktormi a praktických školení využívajúcich prípady použitia v reálnom živote.