Aké sú predpoklady strojového učenia?



Tento blog o nevyhnutných podmienkach pre strojové učenie vám pomôže pochopiť základné pojmy, ktoré potrebujete poznať skôr, ako začnete so strojovým učením.

Strojové učenie je nepochybne najžiadanejšou technológiou doby! Ak ste začiatočník a začínate so strojovým učením, je dôležité, aby ste poznali predpoklady pre strojové učenie. Tento blog vám pomôže pochopiť rôzne koncepty, ktoré potrebujete poznať skôr, ako začnete so strojovým učením.

Ak chcete získať podrobné informácie o umelej inteligencii a strojovom učení, môžete sa zaregistrovať naživo od spoločnosti Edureka s nepretržitou podporou a doživotným prístupom.





Tu je zoznam tém v tomto blogu:

  1. Predpoklady pre strojové učenie
  2. Pochopenie strojového učenia s prípadom použitia

Predpoklady strojového učenia

Ak chcete začať sStrojové učenie musíte byť oboznámení s nasledujúcimi konceptmi:



  1. Štatistika
  2. Lineárna algebra
  3. Kalkul
  4. Pravdepodobnosť
  5. Programovacie jazyky

Štatistika

Štatistiky obsahujú nástroje, ktoré možno použiť na získanie určitého výsledku z údajov. Existuje popisná štatistika, ktorá sa používa na transformáciu nespracovaných údajov na niektoré dôležité informácie. Inferenčnú štatistiku je možné tiež použiť na získanie dôležitých informácií zo vzorky údajov namiesto použitia úplného súboru údajov.

Ak sa chcete dozvedieť viac o Štatistiky nájdete v nasledujúcich blogoch:

Lineárna algebra

Lineárne algebry zaoberás vektormi, maticami a lineárnymi transformáciami. Pri strojovom učení je to veľmi dôležité, pretože sa dá použiť na transformáciu a vykonávanie operácií na množine údajov.



Kalkul

Matematický počet je dôležité pole v matematike a hrá neoddeliteľnú úlohu v mnohých algoritmoch strojového učenia. Súbor údajov, ktorý má viac funkcií, súpoužíva sa na zostavenie modelov strojového učenia, pretože funkcií je viacnásobný počet, premenný počet hrá dôležitú úlohu pri zostavovaní modelu strojového učenia. Integrácie a diferenciácie sú nevyhnutnosťou.

Pravdepodobnosť

Pravdepodobnosť pomáha predpovedať pravdepodobnosť udalostí. Pomáha nám to usúdiť, že situácia sa môže alebo nemusí znova vyskytnúť. Pre strojové učenie je pravdepodobnosť a nadácia.

Mathematics

Ak sa chcete dozvedieť viac o pravdepodobnosti, môžete si prejsť toto Blog.

Programovací jazyk

Aby ste mohli implementovať celý proces strojového učenia, je nevyhnutné poznať programovacie jazyky ako R a Python. Python aj R poskytujú zabudované knižnice, ktoré veľmi uľahčujú implementáciu algoritmov strojového učenia.

krížové testovanie pomocou selénu

Okrem základných vedomostí o programovaní je tiež dôležité, aby ste vedeli, ako extrahovať, spracovať a analyzovať údaje. Toto je jedna z najdôležitejších zručností, ktoré sú potrebné pre strojové učenie.

Ak sa chcete dozvedieť viac o programovaní jazykov pre strojové učenie, môžete si prečítať nasledujúce blogy:

  1. Najlepšie knižnice Pythonu pre dátovú vedu a strojové učenie

Prípad použitia strojového učenia

Strojové učenie je predovšetkým o vytvorení algoritmu, ktorý sa dá naučiť z údajov a predpovedať, ako napríklad, aké druhy objektov sa nachádzajú na obrázku, alebo motor odporúčaní, najlepšia kombinácia liekov na vyliečenie určitej choroby alebo filtrovanie spamu.

Strojové učenie je postavené na matematických predpokladoch. Ak viete, prečo sa v strojovom učení používa matematika, bude to zábava. Musíte poznať matematiku za funkciami, ktoré budete používať, a ktorý model je vhodný pre dané údaje a prečo.

Začnime teda zaujímavým problémom predpovedania cien domov, ktorý má súbor údajov, ktorý obsahuje históriu rôznych funkcií a cien, zatiaľ zvážime plochu životného priestoru v štvorcových stopách a ceny.

Teraz máme množinu údajov obsahujúcu dva stĺpce, ako je uvedené nižšie:

Medzi týmito dvoma premennými musí byť nejaká korelácia, aby sme zistili, že budeme musieť vytvoriť model, ktorý dokáže predpovedať cenu domov, ako to môžeme urobiť?

Poďme si nakresliť tieto dáta a pozrime sa, ako to vyzerá:

Tu je os X cena za štvorcový meter obytného priestoru a os Y cena domu. Ak vykreslíme všetky dátové body, dostaneme bodový graf, ktorý môže byť znázornený čiarou, ako je to znázornené na obrázku vyššie, a ak zadáme nejaké údaje, potom predpovedá nejaký výsledok. V ideálnom prípade musíme nájsť čiaru, ktorá pretne maximum dátových bodov.

Tu sa pokúšame vytvoriť riadok, ktorý sa nazýva:

Y = mX + c

Táto metóda predikcie lineárneho vzťahu medzi cieľovou (závislá premenná) a predikčnou premennou (nezávislá premenná) sa nazýva lineárna regresia. Umožňuje nám študovať a sumarizovať vzťah medzi dvoma premennými.

  • X = nezávislá premenná
  • Y = závislá premenná
  • c = y-prechod
  • m = sklon priamky

Ak vezmeme do úvahy rovnicu, máme hodnoty pre X, čo je nezávislá premenná, takže musíme len vypočítať hodnoty pre m a c, aby sme mohli predpovedať hodnotu Y.

Ako teda nájdeme tieto premenné?

Na nájdenie týchto premenných môžeme vyskúšať množstvo hodnôt a pokúsiť sa nájsť čiaru, ktorá pretína maximálny počet dátových bodov. Ako však môžeme nájsť najvhodnejšiu líniu?

Takže aby sme našli najlepšiu líniu, môžeme použiť funkciu najmenších štvorcov, ktorá nájde chybu medzi skutočnou hodnotou y a predpokladanou hodnotou y`.

Chybovú funkciu najmenších štvorcov je možné znázorniť pomocou nasledujúcej rovnice:

Pomocou tejto funkcie môžeme zistiť chybu pre každý predpovedaný údajový bod porovnaním so skutočnou hodnotou údajového bodu. Potom urobíte sčítanie všetkých týchto chýb a zarovnáte ich, aby ste zistili odchýlku v predikcii.

Ak k nášmu grafu obsahujúcemu všetky možné chybové hodnoty pridáme tretiu os a vykreslíme ju v 3-dimenzionálnom priestore, bude to vyzerať takto:

Na vyššie uvedenom obrázku by ideálne hodnoty boli v spodnej čiernej časti, ktoré predpovedajú ceny blízke skutočnému údajovému bodu. Ďalším krokom je nájsť najlepšie možné hodnoty pre m a c. To je možné dosiahnuť pomocou optimalizačnej techniky zvanej gradientný zostup.

Gradientný zostup je iteračná metóda, pri ktorej začíname inicializáciou nejakej množiny hodnôt pre naše premenné a pomaly ich vylepšujeme minimalizáciou chyby medzi skutočnou hodnotou a predpovedanou hodnotou.

popis práce vývojára veľkých dát

Teraz, keď si myslíme, že ceny bytu v skutočnosti nezávisia iba od ceny za štvorcový meter, existuje veľa faktorov, ako je počet spální, kúpeľní atď. Ak vezmeme do úvahy aj tieto vlastnosti, potom bude rovnica vyzerať niečo Páči sa ti to

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Toto je multilineárna regresia, ktorá patrí k lineárnej algebre, tu môžeme použiť matice veľkosti mxn, kde m sú prvky a n sú dátové body.

Uvažujme ešte o inej situácii, keď môžeme pomocou pravdepodobnosti zistiť stav domu a klasifikovať ho podľa toho, či je v dobrom alebo zlom stave. Aby sme to mohli urobiť, budeme musieť použiť techniku ​​nazvanú Logistic Regression, ktorá pracuje na pravdepodobnosti výskytu reprezentovaných sigmoidnou funkciou.

V tomto článku sme sa venovali predpokladom strojového učenia a tomu, ako sa uplatňujú v strojovom učení. V zásade sa teda skladá zo štatistík, počtu, lineárnej algebry a teórie pravdepodobnosti. Kalkul má techniky používané na optimalizáciu, lineárna algebra má algoritmy, ktoré môžu pracovať na obrovských množinách dát, s pravdepodobnosťou môžeme predvídať pravdepodobnosť výskytu a štatistika nám pomáha odvodiť užitočné poznatky zo vzorky množín dát.

Teraz, keď poznáte Požiadavky na strojové učenie, som si istý, že by ste sa chceli dozvedieť viac. Tu je niekoľko blogov, ktoré vám pomôžu začať s Data Science:

Ak sa chcete prihlásiť na úplný kurz umelej inteligencie a strojového učenia, má Edureka špeciálne kurátora vďaka čomu ovládate techniky, ako je supervidované učenie, nekontrolované učenie a spracovanie prirodzeného jazyka. Zahŕňa školenie o najnovších pokrokoch a technických prístupoch v oblasti umelej inteligencie a strojového učenia, ako sú napríklad Deep Learning, Graphical Models a Reinforcement Learning.