چکیده :

با توجه به اهمیت روزافزون پردازش سیگنال های شنیداری ، ضرورت طبقه بندی این سیگنالها در مراحل اولیه و قبل از انجام پردازشهای پیشرفته تر ضروری می باشد . با مشخص شدن نوع سیگنال شنیداری و اینکه آیا سیگنال گفتاری ، موسیقی و یا … است می توان نسبت به نوع پردازش های بعدی که باید روی آن انجام بگیرد تصمیم گیری نمود . در اینجا نیز سعی می شود یک الگوریتم مقاوم برای طبقه بندی سیگنالهای شنیداری ارائه شود ، به طوری که قادر به طبقه بندی و قطعه بندی هر جریان شنیداری۱ به دو طبقه گفتاری و غیر گفتاری باشد. بعد از استخراج ویژگیهای زمان کوتاه ، روشهای مختلف طبقه بندی آماری بر روی طولهای متفاوت از دادگان این دو طبقه آزمایش می شوند.

.۱مقدمه

تحقیق در مورد طبقه بندی و دوباره بدست آوردن تصاویر عمر طولانی دارد. با گسترش روز افزون صوت در اینترنت و دیگر وسایل ارتباطی و شبکه های سوئیچ کننده با فرامین صوتی ، این تحقیقات بر روی سیگنالهای شنیداری نیز متمرکز شده است . به بیان دیگر پیشرفتهای اخیر در

موردبازشناخت گفتار و صوت ، طبقه بندی این سیگنالها را بسیار مهم جلوه می کند . سیستم شنوایی انسان قابلیت بسیار بالایی در طبقه بندی سیگنالهای شنیداری دارد . بدین ترتیب که با شنیدن هر صدا پس از تعیین نوع آن ، به سراغ تجزیه و تحلیل آن می رود . به طور کلی می توان به دلایل زیر برای اهمیت طبقه بندی سیگنالهای شنیداری اشاره نمود :

(۱ انواع مختلف سیگنالهای شنیداری نیاز به پردازشهای مختلفی دارند . به عنوان مثال در سیستمهای باز شناسی گفتار اگر سیگنالهای غیر گفتاری ، مورد پردازش قرار گیرند ممکن است موتور بازشناخت دچار اشتباه شود ، حال آنکه با طبقه بندی سیگنال شنیداری می توان فقط سیگنال گفتار را در این سیستم وارد نمود.

(۲ در بسیاری از کاربردها نوع سیگنال مهم می باشد .

(۳ برای سیگنالهای تصویری شنیداری می توان کل سیگنال را فقط بر اساس سیگنال شنیداری طبقه بنـدی نمـود .کـه در بسیاری از اوقات طبقـه بنـدی سـیگنال تصـویری صـوتی بـر حسب صوت بسیار ساده تر از طبقه بندی تصویر می باشد .
(۴ فضای جستجو در سیگنال شنیداری کاهش می یابد .

(۵ سیستمهای سوئیچ شونده با صوت در کارهای ارائه شده برای طبقه بندی سیگنالهای شنیداری

، بحث بر روی تفاوت مشخصات گفتار ، موسیقی و دیگر اصوات می باشد بدین ترتیب که پس از استخراج بردارهای

audio stream 1

ویژگی برای هر طبقه ، با استفاده از روشهای مختلف طبقه بندی ، سیگنالهای شنیداری طبقه بندی می گردند . به طور کلی طبقه بندی سیگنالهای شنیداری نیز همانند بازشناسی الگو دارای دو بعد انتخاب ویژگی و طبقه بندی بر اساس ویژگیهای انتخاب شده می باشد . با توجه به مطالب گفته شده یک بازنمائی مؤثر باید بتواند مهمترین خصوصیات اصوات را برای طبقه بندی ارائه کند ، به نحوی که تحت شرایط مختلف انعطاف خوبی داشته باشد و توانایی طبقه بندی اصوات مختلف را داشته باشد . بعد از بازنمائی، انتخاب معیار فاصله و قوانین طبقه بندی کننده نکته اساسی دیگر می باشد .

سیستم باز شناخت و طبقه بندی کننده ماسـل-فـیش توسـط آقای ارلینگ وود در سال ۱۹۹۶ میلادی ارائه شد.این کـار نسبت به کارهای کوچک قبلی بسیار متمایز و قابل قبول بود

. در ایــن روش بــرای تحلیــل و طبقــه بنــدی ســیگنالهای شنیداری از چهـار ویژگـی اکوسـتیکی صـوت اسـتفاده مـی شود که عبارتند از : پیچ صوتی ، دامنـه ، روشـنایی و پهنـای باند .با استفاده از یک فاصله اقلیدسی نرمالیزه شده و قـوانین طبقــه بنــدی نزدیکتــرین همســایگی ، ســیگنالهای شــنیداری مختلف به طبقه های مربوطه نسبت داده می شوند [۴],[۵]

در کار دیگری [۶] ، از ویژگی ضرایب کپسترال در مقیاس مل۳ با ساختار درختی استفاده شده است ، برای هر نمونه صوت با توجه به فرکانسهای آن ، یک هیستوگرام ساخته می شود و از آن بعنوان یک بردار ویژگی استفاده می شود . سپس فضای بردارهای ویژگی ، به تعدادی منطقه گسسته۴ تقسیم می شوند و در نهایت طبقه بندی بر اساس فاصله کسینوسی و قوانین نزدیکترین همسایگی انجام می گیرد .

یک روش سلسله مراتبی نیز برای طبقه بندی سیگنالهای شنیداری تا جزئی ترین طبقات ارائه شده است . [۷] در این روش ابتدا با استفاده از ویژگیهای آماری زمان کوتاه ، سیگنالهای شنیداری را در یک سطح کلی به طبقات گفتار ،

mel frequency cepsteal coefficients 3

bin 4

موسیقی و اصوات محیطی تقسیم می کند و سپس در یک سطح جزئی با استفاده از مدل مارکوف پنهان طبقه مربوط به اصوات محیطی را به زیر طبقات جزئی تر تقسیم می کند. در دومقاله دیگر از همین نویسنده [۸],[۹] ، سیگنالهای مخلوط صوتی تصویری فقط بر اساس سیگنالهای صوتی طبقه بندی می شوند که در مقایسه با طبقه بندی سیگنالهای تصویری بسیار راحتتر و مقرون به صرفه تر می باشد .

سیستمی برای طبقه بندی فایلهای صوتی جمع آوری شده در وب ارئه گردید [۱۳] ،که این روش سیگنالها را به سه دسته گفتار ، موسیقی و غیره طبقه بندی می کند. در یک کار جامع از ویژگیهای سیگنالهای شنیداری در چهار حوزه زمان ، فرکانس ، زمان-فرکانس و حوزه ضرایب استفاده گردید و با توجه به اهمیت هر ویژگی برای هر طبقه از الگوریتم انتخاب ویژگی ترتیبی ( SFS ) برای بردار ویژگی هر طبقه استفاده شد . در نهایت برای طبقه بندی روشهای مختلف طبقه بندی بر روی دادگان آزمایش گردید و در بهترین شرایط دقتی حدود ۹۳% بدست آمد . [۳]

در چنـد کــار اخیـر از تبــدیل ویولـت بــرای اســتخراج بردار ویژگی استفاده مـی شـود . . [۱],[۲],[۳] ,[۱۴ ] بـه دلیل رزولوشن زمانی-فرکانسی تبدیل ویولت و نزدیکی بـه سیستم درک صوت انسان ، بردارهای ویژگی از ضرایب در هرزیر باند تبدیل ویولت گسسته استخراج می گردند
در اینجا ، یک الگوریتم با دقت بالا برای طبقه بندی و قطعه بندی سیکتالهای شنیداری مطرح می شود ، که در آن هدف نهایی طبقه بندی و تمایز بین طبقات گفتار و غیر گفتاری در پنجره های زمانی با طولهای متفاوت از ۳۲ میلی ثانیه( یعنی برابر طول یک فریم ) الی یک ثانیه می باشد .