शोर मीटर - शोर दमन का परिचय
शोर दमन (दूरस्थ श्रोताओं को स्पष्ट रूप से सुनने के लिए स्पीकर के पर्यावरणीय शोर को दबाना) और सक्रिय शोर में कमी (श्रोता के स्वयं के पर्यावरणीय शोर को संतुलित करना) के बीच बुनियादी अंतर को समझने के बाद, आइए इस बात पर ध्यान दें कि शोर दमन कैसे प्राप्त किया जाए।
एक तरीका डेटा को दबाने के लिए एकाधिक माइक्रोफ़ोन का उपयोग करना है। कई स्थानों से डेटा एकत्र करने के परिणामस्वरूप उपकरणों को समान (लेकिन फिर भी विभेदित) सिग्नल प्राप्त होंगे। बोलने वाली आबादी के पास माइक्रोफ़ोन द्वारा प्राप्त ध्वनि संकेत द्वितीयक माइक्रोफ़ोन की तुलना में काफी मजबूत होता है। दो माइक्रोफ़ोन को समान सिग्नल शक्ति के साथ गैर-ध्वनि पृष्ठभूमि ध्वनि प्राप्त होगी। मजबूत ध्वनि माइक्रोफोन और द्वितीयक माइक्रोफोन द्वारा एकत्र की गई ध्वनि जानकारी को घटा दें, और शेष बहुमत ध्वनि जानकारी है। माइक्रोफ़ोन के बीच की दूरी जितनी अधिक होगी, निकट और दूर के माइक्रोफ़ोन के बीच सिग्नल का अंतर उतना अधिक होगा, जिससे शोर को दबाने के लिए इस सरल एल्गोरिदम का उपयोग करना आसान हो जाएगा। हालाँकि, जब आप बोल नहीं रहे हैं, या जब आप समय के साथ वॉयस डेटा में बदलाव की उम्मीद करते हैं (जैसे कि जब आप चलते हैं या दौड़ते हैं, और आपका फोन हिलता रहता है), तो इस पद्धति की प्रभावशीलता कम हो जाएगी। मल्टी माइक्रोफ़ोन शोर दमन निश्चित रूप से विश्वसनीय है, लेकिन अतिरिक्त हार्डवेयर और प्रसंस्करण में कमियां हैं।
तो, क्या होगा यदि केवल एक माइक्रोफ़ोन होता? यदि सत्यापन/तुलना के लिए अतिरिक्त ध्वनि स्रोतों का उपयोग नहीं किया जाता है, तो एक एकल माइक्रोफ़ोन समाधान प्राप्त शोर विशेषताओं को समझने और उन्हें फ़िल्टर करने पर निर्भर करेगा। यह स्थिर-अवस्था और गैर-स्थिर शोर की पहले उल्लिखित परिभाषाओं से संबंधित है। स्थिर स्थिति शोर को डीएसपी एल्गोरिदम के माध्यम से प्रभावी ढंग से फ़िल्टर किया जा सकता है, जबकि गैर-स्थिर शोर एक चुनौती पैदा करता है, गहरे तंत्रिका नेटवर्क (डीएनएन) समस्या को हल करने में मदद कर सकते हैं।
इस विधि के लिए नेटवर्क को प्रशिक्षित करने के लिए डेटासेट की आवश्यकता होती है। इस डेटासेट में अलग-अलग (स्थिर-अवस्था और गैर-स्थिर) शोर और स्पष्ट भाषण शामिल हैं, जो एक संश्लेषित शोर भाषण पैटर्न बनाते हैं। डेटासेट को डीएनएन में इनपुट के रूप में फ़ीड करें और इसे स्पष्ट आवाज के साथ आउटपुट करें। यह एक तंत्रिका नेटवर्क मॉडल बनाएगा जो शोर को खत्म करेगा और केवल स्पष्ट भाषण देगा।
प्रशिक्षित डीएनएन के साथ भी, विचार करने के लिए अभी भी कुछ चुनौतियाँ और संकेतक हैं। यदि आप कम विलंबता के साथ वास्तविक समय में चलना चाहते हैं, तो आपको मजबूत प्रसंस्करण शक्ति या छोटे डीएनएन की आवश्यकता है। DNN में जितने अधिक पैरामीटर होंगे, उसकी चलने की गति उतनी ही धीमी होगी। ऑडियो सैंपलिंग दर का ध्वनि दमन पर समान प्रभाव पड़ता है। उच्च नमूना दर का मतलब है कि DNN को अधिक मापदंडों को संभालने की आवश्यकता है, लेकिन बदले में, यह उच्च गुणवत्ता वाला आउटपुट प्राप्त करेगा। वास्तविक समय के शोर दमन के लिए नैरोबैंड ध्वनि संचार एक आदर्श विकल्प है।
