Rozpoznávanie reči Python: Ako preložiť reč na text?



Tento blog sa venuje konceptu rozpoznávania reči v pythone pomocou ukážkového programu, ktorý prekladá reč do textu pomocou rozpoznávania reči.

Reč je najbežnejším komunikačným prostriedkom na celom svete. Väčšina obyvateľov sveta sa pri vzájomnej komunikácii spolieha na reč. Predpokladajme, že budujeme model a namiesto písomného prístupu chceme, aby náš systém reagoval na reč, stáva sa pomerne ťažkým a vyžaduje veľké množstvo údajov na spracovanie. Systém rozpoznávania reči prekonáva túto bariéru prekladom reči do textu. V tomto blogu si prejdeme rozpoznávanie reči modul v pythone . Tu je zoznam rovnakých položiek:

Ako funguje rozpoznávanie reči?

Systém rozpoznávania reči v podstate prekladá hovorené výroky do textu. Existuje mnoho príkladov systému rozpoznávania reči v reálnom živote. Napríklad - siri, ktorá berie reč ako vstup a prekladá ju do textu.





Výhodou používania systému rozpoznávania reči je, že prekonáva bariéru gramotnosti. Model rozpoznávania reči môže slúžiť rovnako gramotnému aj negramotnému publiku, pretože sa zameriava na hovorené výroky.

Pomocou systému rozpoznávania reči tiež môžeme urobiť súpis všetkých ohrozených jazykov na celom svete. Aj keď to vyzerá dosť zaujímavo a vôbec nie zložito, systém rozpoznávania reči čelí pri príprave mnohým výzvam.



Výzvy, ktorým čelí rozpoznávanie reči Systém

základné dátové štruktúry v jave

Systém rozpoznávania reči sa stáva ťažko vyrobiteľným, pretože pokiaľ ide o reč, máme toľko zdrojov variability.

Štýl rozprávania

Každý jednotlivec má rôzny štýl rozprávania vrátane akcentov. Ako všetci vieme, aj v angličtine máme rôzne akcenty. Ak hovoríme o najbežnejšom jazyku na svete, existuje americká angličtina, britská angličtina a mnoho ďalších prízvukov. Výslovnosť tiež sťažuje systému rozpoznávania reči celkový preklad reči.



Životné prostredie

Prostredie tiež dodáva systému veľa šumu. Izolovaná miestnosť v porovnaní s hľadiskom bude mať veľkú variabilitu zvukov v pozadí. Aj ozvena môže v systéme pridať veľa šumu.

Vlastnosti reproduktorov

Hlas starého človeka nemusí byť rovnaký ako hlas dieťaťa. Charakteristiky reči človeka závisia od mnohých faktorov vrátane tvrdosti a jasnosti.

Jazykové obmedzenia

Niektoré hovorené výroky nemusia mať životaschopný význam, pokiaľ ide o preklad.

Po prekonaní týchto výziev je celkom možné, aby akýkoľvek systém rozpoznávania reči preložil reč na text. Teraz, keď vieme, ako rozpoznávanie reči funguje, sa poďme pozrieť na niečo iné ktoré sú k dispozícii na rozpoznávanie reči v pythone.

Balíky dostupné na rozpoznávanie reči v pythone

  • apiai

  • Rozpoznávanie reči

  • Google_speech_cloud

  • zhromaždenie

  • Vreckova sfinga

  • Watson_developer_cloud

  • biely

V tomto blogu si prejdeme podrobnosti balíka SpeechRecognition. Poďme sa tiež pozrieť nižšie v pamäti, aby sme pochopili, ako sa systémy rozpoznávania reči v priebehu rokov vyvíjali.

Úplne prvým prototypom rozpoznávania reči bola v skutočnosti hračka s menom rozhlasový rex ktorá prišla okolo 20. rokov 20. storočia. Malo to psa sedieť v psej búde, ktorý by vyskočil, akonáhle niekto vyslovil slovo rex.

Jediným problémom modelu bolo, že pružina bola pripevnená k elektromagnetu citlivému na energiu v rozmedzí okolo 500 Hz. Keďže ide o čisto frekvenčný detektor, dalo by sa to na diaľku označiť ako model rozpoznávania reči.

vysvetlite architektúru MVC v Jave na príklade

V roku 1962 prišla spoločnosť IBM s botník model, ktorý bol schopný rozpoznať izolované slová a tiež vykonať niekoľko aritmetických operácií.

Potom prišlo HARPY z CMU, ktorá dokázala rozpoznať spojenú reč z 1000 slovnej zásoby. Okolo 80. rokov začali ľudia používať štatistické modely a jedným z najpoužívanejších paradigiem strojového učenia bol skrytý Markovov model.

Po zavedení hlbokých neurónových sietí väčšina modelov rozpoznávania reči pracuje na neurónových sieťach. Možnosti sú pri neurónových sieťach nepredstaviteľné, slovník môže čítať až 10 000 slov a viac.

Ako nainštalovať SpeechRecognition v Pythone?

Ak chcete nainštalovať balík SpeechRecognition je python, spustite nasledujúci príkaz v termináli a nainštaluje sa do vášho systému.

inštalácia-rozpoznávanie reči python-edureka

Ďalším prístupom k tomu je pridanie balíka od tlmočníka projektu, ak ho používate

Balíček má triedu Recognizer, ktorá je v podstate miestom, kde sa kúzlo deje. V zásade ide o triedu, ktorá slúži na rozpoznávanie reči. Nasleduje sedem metód, ktoré dokážu čítať rôzne zdroje zvuku pomocou rôznych rozhraní API.

  • rozpoznať_bing ()
  • rozpoznať_google ()
  • rozpoznať_google_cloud ()
  • rozpoznať_houndify ()
  • rozpoznať_ibm ()
  • rozpoznať_svet ()
  • rozpoznať_sphinx ()

Teraz je možné rozpoznať_sphinx použiť aj na spustenie systému rozpoznávania reči offline. Vyžaduje inštaláciu Pocketsphinx.

importovať rozpoznávanie reči ako sr # inštancia triedy rozpoznávača r = sr.Recognizer ()

Prijímanie vstupov z mikrofónov

Aby sme mohli používať mikrofóny, budeme si musieť nainštalovať aj modul pyaudio. Na získanie vstupnej reči z mikrofónu namiesto akejkoľvek inej metódy vstupu, ako je zvukový súbor, používame triedu mikrofónu.

Pre väčšinu projektov môžeme použiť predvolené mikrofóny. Ak si však neželáte použiť predvolený mikrofón,zoznam mien mikrofónov môžete získať pomocou metódy list_microphone_names.

Na zachytenie vstupu z mikrofónu používame metódu počúvania.

importujte rozpoznávanie reči ako sr r = sr.Recognizer () so sr.Mikrofón () ako zdroj: audio = sr.listen (zdroj)

Ako nainštalovať Pyaudio v Pythone?

Ak chcete nainštalovať Pyaudio v pythone, spustite nasledujúci príkaz v termináli alebo ak používate pycharm, pridajte v nastaveniach balíček od tlmočníka projektu.

Prípad použitia

Vytvoríme program pomocou modulu speechrecognition v pythone na rozpoznávanie reči a vykonanie nasledujúcich krokov:

  1. previesť reč na text
  2. otvorte URL pomocou modulu webový prehliadač
  3. zadajte dopyt pomocou rozpoznávania reči a vyhľadajte v adrese URL

Nasleduje program pre vyššie uvedené vyhlásenie o probléme:

import speech_recognition ako sr import webbrowser ako wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () so sr.Microphone () ako zdroj: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' so sr .Mikrofón () ako zdroj: tlač („vyhľadať dopyt“) audio = r2.listen (zdroj) vyskúšať: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) okrem sr.UnknownValueError: print ('error') okrem sr.RequestError ako e: print ('failed'.format (e)), ak' video 'v r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'so sr.Mikrofónom () ako zdrojom: tlač (' vyhľadať video ') audio = r2.listen (zdroj) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) okrem sr.UnknownValueError: print ('nerozumie') okrem sr.RequestError ako e: print (výsledky sa nepodarilo získať). formát (e) )

Získate výstup, ako je zobrazený na obrázku. Ak poviete edureka, vyzve vás, aby ste povedali dopyt, ktorý chcete vyhľadať v url edureka, ktorú sme napísali v premennej url. Ak poviete python, v prehliadači sa vám otvorí nasledujúca webová stránka.

V tomto blogu sme diskutovali o tom, ako môžeme pomocou rozpoznávania reči v pythone previesť reč na text pomocou balíka speechrecognition. sa stala potrebou hodiny pre koncepty, ako je rozpoznávanie reči alebo skľúčenie objektov, s ktoré poskytujú nepredstaviteľné možnosti pre systémy rozpoznávania reči, kde môžeme trénovať a testovať obrovské rečové údaje na vybudovanie systému. Môžete sa zaregistrovať do pre hlboké neurónové siete, aby ste si osvojili svoje schopnosti a naštartovali svoje učenie.

máte nejaké otázky? uveďte ich v komentároch, ozveme sa vám.