وینا پېژندنه

وینا پېژندنه (په انګلیسي: Speech recognition) د کمپیوټر پوهنې او محاسباتي ژب پوهنې هغه فرعي څانګه ده چې هغو لارو چارو او ټکنالوژیو ته پراختیا ورکوي چې د کمپیوټر په واسطه ویل کېدوني کلمات تشخیص او ژباړي؛ همدرانګه دغه اصلي ځانګړنه له ځانه سره لري چې د هغو اړوند لټون کوي. دغه چاره همدارنګه د اتوماتیک وینا پېژندنې (automatic speech recognition) کمپیوټري وینا پېژندنې (computer speech recognition) یا متن ته د وینا اړونکې (speech to text) په نومونو پېژندل کېږي. دغه چاره د کمپیوټر پوهنې، ژبپوهنې او کمپیوټري انجینرۍ په برخه کې پوهه او څېړنې په ځان کې رانغاړي. د دغې چارې معکوس بهیر ته په وینا متن اړول (د وینا سنتز یا speech synthesis) ویل کېږي. ^[۱]

د وینا پېژندنې یو شمېر سیسټمونه «لارښوونو» (چې همدارنګه ورته «ثبت کول» هم ویل کېږي) ته اړتیا لري؛ په دغه صورت کې یو لوستونکی یو متن یا جلا جلا کلمات د سیسټم لپاره لولي. دغه سیسټم بیا د خلکو ځانګړي غږونه تحلیل کوي او له هغو څخه د دغه شخص د دقیقې وینا پېژندنې په موخه ګټنه کوي او په پایله کې د هغو دقت زیاتېږي. هغه سیسټمونه چې له لارښوونې څخه په کې ګټنه نه کېږي هغو ته «له ویونکو – خپلواک یا speaker-independent » سیسټمونه ویل کېږي. هغه سیسټمونه چې لارښوونې ته اړتیا لري هغه بیا «ویونکو ته اړوند یا speaker dependent » بلل کېږي. ^[۲]

د غږ پېژندنې (voice recognition) یا د ویونکي پېژندنې (speaker identification) اصطلاح بیا د هغو په خبرو باندې د پوهېدو پر ځای د ویونکي پېژندنې ته اشاره لري. د ویونکي پېژندنه کولای شي په هغو سیسټمونو کې چې د یو ځانګړي کس پر غږ باندې تنظیم شوي وي د وینا ژباړه ساده کړي یا هم کولای شي د ویونکي د هویت پېژندنې یا تائید په موخه د یوه امنیتي بهیر د برخې په توګه ترې ګټنه وشي. ^[۳]^[۴]^[۵]^[۶]^[۷]^[۸]

له ټکنالوژیک پلوه وینا پېژندنه د پام وړ لاسته راوړنو د ګڼ شمېر پړاونو اوږده مخینه لري. په وروستیو کې د دغه سیسټم اړوند د دقیقو زده کړو او لویو اطلاعاتو په برخه کې له پرمختګونو ګټنه شوې. دغه پرمختګونه نه یوازې په دغه برخه کې د علمي مقالاتو پر بنسټ په اثبات رسېدلي، بلکې تر ټولو مهمه دا چې په نړیوال صنعت کې د دقیقو زده کړو اړوند له بېلابېلو لارو چارو څخه د وینا پېژندنې د سیسټمونو په طراحۍ او کارونه کې ګټنه شوې.

ګټنه

د موټرو په سیسټمونو کې

په معمول ډول په لاسي کنټرولیز سیسټم کې د بېلګې په توګه د موټر په شترنګ کې په ګوته باندې کنټرول کېدونی سیسټم د وینا پېژندنې سیسټم فعالوي چې چلونکي ته د یو غږیز اعلان په توګه څرګندېږي. له غږیزې لارښوونې وروسته سیسټم له «اورېدونکې برخې کار اخلي» چې بیا هغه کېدای شي ورته ویل شوي کلمات د تشخیص په موخه ومني.

له ساده غږیزو لارښوونو څخه د تلیفوني اړیکې د نیولو، د راډیویي چینلونو د انتخاب او په شرایطو برابر ځیرک ټلیفون، موسیقي غږونکو وسایلو (MP3 player) او یا هم د موسیقي لرونکو فلشونو څخه د موسیقۍ د چلانولو په برخه کې ګټنه وشي. په موټرو کې د وینا پېژندنې وړتیا د موټرو د ډولونو او ماډلونو له مخې توپیر کوي. یو شمېر نوي موټر د ثابتو چارو د ټولګې پر ځای په طبیعي بڼه د ژبې د تشخیص وړتیا لري او چلونکي ته د دې وړتیا وربخښي چې له بشپړو جملاتو یا رایجو عباراتو څخه ګټنه وکړي. له همدې امله په دغه ډول سیسټمونو کې کاروونکی اړتیا نه لري د هغو لپاره ټاکل شوي کلمات له یادو زده کړي.

روغتیا پالنه

طبي اسناد

د روغتیا پالنې په سکتور کې د وینا پېژندنې له سیسټم څخه کېدای شي د طبي اسنادو په وړاندنۍ (front-end) یا وروستنۍ (back-end) برخه کې ګټنه وشي. په وړاندنۍ برخه کې د وینا پېژندنې سیسټم هغه مهال کارول کېږي چې ارایه کوونکی د وینا پېژندنې ماشین هدایت کوي، پېژندل شوي کلمات هماغه ډول چې ویل کېږي څرګندېږي او هدایت کوونکی په اړوندو اسنادو کې د تصحیح او لاسلیک مسئولیت پرغاړه لري. په پای کې وینا پېژندنه هغه مورد ته اړوندېږي چې ارایه کوونکی ډیجټال هدایت کوونکي سیسټم ته لارښوونه کوي، غږ د وینا پېژندنې د ماشین له لارې په لیکلې مسوده اوړي او له اصلي غږیز فایل سره تصحیح کوونکي ته لېږل کېږي چېرې چې بیا په هغو کې سمونونه راوړل کېږي او له هغو بیا وروستی راپور جوړېږي. اوس مهال له تعلیقي وینا پېژندنې (Deferred speech recognition) څخه په پراخه کچه د صنعت په ډګر کې ګټنه کېږي.

پوځ

لوړ موثریت لرونکې جنګي الوتکې

د وروستۍ لسیزې پر مهال په جنګي الوتکو کې د وینا پېژندنې د سیسټمونو د ازمویلو او ارزونې په برخه کې پام وړ هڅې شوې دي. د وینا پېژندنې اړوند پام وړ هڅې د متحده ایالاتو له خوا د اف ۱۶ (اف ۱۶ وېسټا) پرمختللو جنګي الوتکو د ټکنالوژیک سیسټم د یو ډول کولو په پروژې، د فرانسې په میراژ الوتکو او د بریتانیا له خوا د الوتکو اړوندو بېلابېلو پروژو کې شوې دي. په دغو پروژو کې د وینا پېژندنې سیسټم په جنګي الوتکو کې عملي شوی چې د راډیويي فریکونسي د تنظیم، په اتوماتیک بڼه د الوتنې سیسټم د عیار کولو، د کورادیناتو د تنظیم، د وسلې د چمتو کولو په پارامترونو او همدارنګه د پروازي سکرین د کنټرول په برخه کې ترې بریالۍ ګټنه کېږي. ^[۹]

د یورو فایټر ټایفون جټ الوتکه چې اوس مهال ترې د بریتانیا سلطنتي هوايي ځواک ګټنه کوي، خبرې کوونکي ته له اړوند سیسټم (speaker-dependent system) څخه کار اخلي چې هر پیلوټ اړ دی د هغو لپاره د غږونو یوه ټولګه جوړه کړي. له دغه سیسټم څخه د خوندیتوب د هېڅ یوې حیاتي چارې یا د وسلو اړوند مهمو چارو لکه له وسلو څخه د کار اخیستنې او یا هم د لنډېنګ ګېر (د الوتکې د کېناستې او یا پورته کولو ګېر) په برخه کې ګتنه نه کېږي، خو د پیلوټ په کابین کې د ګڼ شمېر نورو چارو لپاره ترې ګټنه کېږي. غږیزه لارښوونه د بصري/ یا بېرته اورېدل کېدوني غبرګون له مخې تائید کېږي. د دغه سیسټم د طراحۍ اصلي ځانګړنه د پیلوټانو د کاري مسئولیتونو راکمول دي، آن پیلوټ ته د دې اجازه ورکوي څو خپلې الوتکې ته په دوه ساده غږیزو فرمانونو او یا هم تعقیب کوونکو الوتکو ته یوازې په پنځو فرمانونو لارښوونه وکړي. ^[۱۰]^[۱۱]^[۱۲]

چورلکې

د لوړ کیفیت لرونکې غږ پېژندنې پر وړاندې ستونزې په ځانګړې توګه د چورلکو او همدارنګه د جټ جنګي الوتکو په چاپېریال کې د فشار او اخلال سره اړوندې دي. د غږیز اخلال ستونزه د چورلکو په چاپېریال کې ډېره شتون لري، دا نه یوازې د چورلکې د غږ د لوړوالي له امله ده بلکې له دې امله هم ده چې د چورلکو پیلوټ له بشپړې سر پټونکې خولۍ څخه ګټنه نه کوي څو په مایکروفون کې د غږیز اخلال د کمښت لامل وګرځي. په چورلکو کې د وینا پېژندنې د سیسټمونو د پلي کولو لپاره په ورستۍ لسیزه کې پام وړ ازمویونکې او ارزونکې پروژې پلې شوي، له دغو څخه پام وړ یې د متحده ایالاتو د پوځ له خوا اویونیک څېړنې او پراختیايي چارې (AVRADA) او همدارنګه په بریتانیا کې د سلطنتي فضايي څېړنېز بنسټ هڅې دي. همدارنګه د فرانسې له خوا په پوما چورلکو کې د وینا پېژندنې هڅې هم په کې شاملېږي. له دې سربېره کاناډا هم په چورلکو کې د وینا پېژندنې اړوند ګټمنې چارې ترسره کړې. د هغو پایلې هڅونکې وې چې د مخابرو د کنټرول، د هدایت او لار موندنې د سیسټمونو د تنظیم، او په اتوماتیک توګه د موخې ټاکلو په سیسټم کې ترې ګټنه کېدله.

د زده کړو په ډګر کې ګټنه

د ژبې د زده کړې په برخه کې، وینا پېژندنه کولای شي د دویمې ژبې په زده کولو کې ګټمنه پرېوزي. د هغو په مرسته کېدای شي سم تلفظ زده شي؛ همدارنګه له کاروونکي شخص سره مرسته کوي څو په روانه توګه خبرې کول زده کړي. ^[۱۳]

هغه زده کوونکي چې ړانده دي یا هم د کمزوري لید لرونکي دي کولای شي له دغې ټکنالوژۍ څخه د کلماتو د انتقال او وروسته د کمپیوټر په مرسته د هغو له بېرته لوستلو ګټه واخلي، همدارنګه کمپیوټر او یا هم کیبورډ ته له کتلو پرته په غږیز هدایت له کمپیوټر ګټنه وکړي. ^[۱۴]

سرچينې

↑ P. Nguyen (2010). "Automatic classification of speaker characteristics". International Conference on Communications and Electronics 2010. مخونه 147–152. doi:10.1109/ICCE.2010.5670700. S2CID 13482115. د کتاب نړيواله کره شمېره 978-1-4244-7055-6. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. خونديځ د اصلي څخه 11 نومبر 2013. لاسرسي‌نېټه 15 جون 2013. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "British English definition of voice recognition". Macmillan Publishers Limited. خونديځ د اصلي څخه 16 سېپټمبر 2011. لاسرسي‌نېټه 21 فېبروري 2012. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "voice recognition, definition of". WebFinance, Inc. خونديځ د اصلي څخه 3 ډېسمبر 2011. لاسرسي‌نېټه 21 فېبروري 2012. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "The Mailbag LG #114". Linuxgazette.net. خونديځ د اصلي څخه 19 فېبروري 2013. لاسرسي‌نېټه 15 جون 2013. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ Reynolds, Douglas; Rose, Richard (جنوري 1995). "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. خونديځ (PDF) د اصلي څخه 8 مارچ 2014. لاسرسي‌نېټه 21 فېبروري 2014. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. خونديځ د اصلي څخه 25 فېبروري 2014. لاسرسي‌نېټه 21 فېبروري 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ Englund, Christine (2004). Speech recognition in the JAS 39 Gripen aircraft: Adaptation to speech at different G-loads (PDF) (Masters thesis). Stockholm Royal Institute of Technology. خونديځ (PDF) د اصلي څخه 2 اکتوبر 2008. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "The Cockpit". Eurofighter Typhoon. خونديځ د اصلي څخه 1 مارچ 2017. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "Eurofighter Typhoon – The world's most advanced fighter aircraft". www.eurofighter.com. خونديځ د اصلي څخه 11 می 2013. لاسرسي‌نېټه 1 می 2018. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ Schutte, John (15 October 2007). "Researchers fine-tune F-35 pilot-aircraft speech system". United States Air Force. د اصلي آرشيف څخه پر ۲۰ اکتوبر ۲۰۰۷ باندې. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "Can speech-recognition software break down educational language barriers?". Curiosity.com. Discovery Communications. د اصلي آرشيف څخه پر ۰۷ اپرېل ۲۰۱۴ باندې. لاسرسي‌نېټه ۲۶ مارچ ۲۰۱۴. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)
↑ "Speech Recognition for Learning". National Center for Technology Innovation. 2010. خونديځ د اصلي څخه 13 اپریل 2014. لاسرسي‌نېټه 26 مارچ 2014. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[1] P. Nguyen (2010). "Automatic classification of speaker characteristics". International Conference on Communications and Electronics 2010. مخونه 147–152. doi:10.1109/ICCE.2010.5670700. S2CID 13482115. د کتاب نړيواله کره شمېره 978-1-4244-7055-6. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[2] "Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation". Fifthgen.com. خونديځ د اصلي څخه 11 نومبر 2013. لاسرسي‌نېټه 15 جون 2013. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[Macmillan_Brit._def_of_voice_recognition-3] "British English definition of voice recognition". Macmillan Publishers Limited. خونديځ د اصلي څخه 16 سېپټمبر 2011. لاسرسي‌نېټه 21 فېبروري 2012. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[Voice_rec,_definition-4] "voice recognition, definition of". WebFinance, Inc. خونديځ د اصلي څخه 3 ډېسمبر 2011. لاسرسي‌نېټه 21 فېبروري 2012. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[mail_bag,_gazette-5] "The Mailbag LG #114". Linuxgazette.net. خونديځ د اصلي څخه 19 فېبروري 2013. لاسرسي‌نېټه 15 جون 2013. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[6] Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[7] Reynolds, Douglas; Rose, Richard (جنوري 1995). "Robust text-independent speaker identification using Gaussian mixture speaker models" (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. خونديځ (PDF) د اصلي څخه 8 مارچ 2014. لاسرسي‌نېټه 21 فېبروري 2014. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[8] "Speaker Identification (WhisperID)". Microsoft Research. Microsoft. خونديځ د اصلي څخه 25 فېبروري 2014. لاسرسي‌نېټه 21 فېبروري 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[9] Englund, Christine (2004). Speech recognition in the JAS 39 Gripen aircraft: Adaptation to speech at different G-loads (PDF) (Masters thesis). Stockholm Royal Institute of Technology. خونديځ (PDF) د اصلي څخه 2 اکتوبر 2008. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[10] "The Cockpit". Eurofighter Typhoon. خونديځ د اصلي څخه 1 مارچ 2017. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[11] "Eurofighter Typhoon – The world's most advanced fighter aircraft". www.eurofighter.com. خونديځ د اصلي څخه 11 می 2013. لاسرسي‌نېټه 1 می 2018. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[12] Schutte, John (15 October 2007). "Researchers fine-tune F-35 pilot-aircraft speech system". United States Air Force. د اصلي آرشيف څخه پر ۲۰ اکتوبر ۲۰۰۷ باندې. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[13] Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "Can speech-recognition software break down educational language barriers?". Curiosity.com. Discovery Communications. د اصلي آرشيف څخه پر ۰۷ اپرېل ۲۰۱۴ باندې. لاسرسي‌نېټه ۲۶ مارچ ۲۰۱۴. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[brainline-14] "Speech Recognition for Learning". National Center for Technology Innovation. 2010. خونديځ د اصلي څخه 13 اپریل 2014. لاسرسي‌نېټه 26 مارچ 2014. منځګړی |CitationClass= له پامه غورځول شوی (لارښود)

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]