پیشنهاد برای افزایش دقت: ما چون فقط بر اساس یک ماکزیمم درحال تصمیم گیری هستیم خطای بالایی داریم بهتر است برای بهینه کردن و افزایش دقت مجموعه ای از ماکسیمم ها و مینیمم های محلی را پیدا کنیم و الگوی انها را با الگوی اکسترمم های محلی هر جنسیت تطابق دهیم. البته چون ویس های ما زیاد نویز ندارند پس زیاد فرکانس ها تغییر نکرده اند و با همان پیک فرکانس میتوان به راحتی تشخیص داد.
پیشنهاد برای افزایش دقت: ما چون فقط بر اساس یک ماکزیمم درحال تصمیم گیری هستیم خطای بالایی داریم بهتر است برای بهینه کردن و افزایش دقت مجموعه ای از ماکسیمم ها و مینیمم های محلی را پیدا کنیم و الگوی انها را با الگوی اکسترمم های محلی هر جنسیت تطابق دهیم. البته چون ویس های ما زیاد نویز ندارند پس زیاد فرکانس ها تغییر نکرده اند و با همان پیک فرکانس میتوان به راحتی تشخیص داد.
برای این کار میتوان از تابع \lr{findpeaks} استفاده کرد که در نرم افزار \lr{octave} در پکیج \lr{signal} است.
برای این کار میتوان از تابع \lr{findpeaks} استفاده کرد که در نرم افزار \lr{octave} در پکیج \lr{signal} است.
\lr{convolve}
\section{ الگوریتم هایی برای بهبود صدا}
\section{ الگوریتم بهبود صدا}
\subsection{معرفی مختصری از الگوریتم تفاضل طیف}
\subsection{تشخیص جنسیت}
الگوریتم تفاضل طیف یکی از قدیمی ترین و مشهورترین روش های بهسازی سیگنال گفتار است که برای بازیابی طیف توان سیگنال آلوده به نویز استفاده می شود. در این روش طیف توان نویز تخمین زده شده را از طیف توان سیگنال نویزی کم کرده و سیگنال بهسازی شده را تولید می کند.
این الگوریتم یک الگوریتم تک کاناله است روش های دیگر چند کاناله ای هم وجود دارند مثل استفاده از دو میکروفون یکی برای ضبط صدا و یکی برای ضبط نویز محیط که به کمک یک سیستم وفقی میتوانستیم صدای ضبط شده را بهبود ببخشیم.
در روش تفاضل طیفی ، تخمین اندازه طیف توان نویز با استفاده از نواحی سکوت و از طریق میانگین گیری اندازه طیف توان نویز در پنجره های مختلف این نواحی انجام می شود. اساسی ترین مشکل این روش وجود نویزی آزار دهنده بنام نویز موزیکال در سیگنال بهسازی شده است که دلیل اصلی آن عدم دقت در تخمین طیف نویز است.
میدانیم که عواملی مانند طول فریم و… روی دقت تخمین طیف نویز موثر هستند و به طور خاص اثر آن بر روی نویز موزیکال ایجاد شده مورد مطالعه قرار می گیرد. مطالعات انجام شده نشان می دهند که هر چقدر طول فریم کمتر باشد و به عبارتی پنجره کوتاهتر باشد به علت \lr{convolve} شدن طیف گفتار و طیف پنجره، طیف سیگنال گفتار نیز به این طریق خراب خواهد شد.
همه عوامل فوق ما را به این سمت سوق می دهند که طول فریم را بزرگ انتخاب کنیم. بزرگتر گرفتن طول فریم دقت تخمین طیف نویز را افزایش داده و بنابراین موجب کاهش نویز موزیکال و افزایش کیفیت سیگنال شنیداری بهسازی شده می گردد و ثانیأ اگر دقت تخمین طیف بیشتر باشد می توان در روش تفریق طیفی،ضریب تفریق را بزرگتر انتخاب کرده و مقدار بهبود \lr{SNR} را افزایش داد.
هرچه میزان سکوت نویزی اول صدا بیشتر باشد تخمین بهتری زده خواهد شد.
نسبت سیگنال به نویز \lr{(SNR - Signal to Noise ratio) } معیاری برای نمایش میزان سیگنال مفید در مقابل سیگنال مزاحم (یا نویز) در سیستمهای الکتریکی است. این عدد، نسبت توان سیگنال به توان نویز است، و آن را بر حسب دسیبل بیان میکنند.
\subsection{پیاده سازی و نکات آن}
ایده اصلی این الگوریتم برای حذف نویز صحبت در سال 1975 توسط ویس ارائه شد و نتیجه عملی آن در سال 1979 توسط بول منتشر گردید.
ابتدائا برای حذف نویز های سفید و ایسا طراحی شده بود و محدود عملی زیادی داشت که از جمله آن نویز های موزیکال بودند.
این روش بعد ها اصلاح شد و الگوریتم های پیچیده و روش های غیر خطی به کار گرفته شد تا علاوه بر حذف نویزهای واقعی محیط نویز موزیکال را نیز کاهش دهد.
ما در اینجا الگوریتم بول را پیاده سازی کردهایم که در فایل