مراجع
[۱] حمید علوی مجد، محسن واحدی، یدالله محرابی، بهار تقوی ، “به کارگیری روشهای خوشه بندی در زیرآرایه DNA”، پژوهش در پزشکی (مجله پژوهشی دانشکده پزشکی) دانشگاه علوم پزشکی و خدمات بهداشتی درمانی شهید بهشتی دوره ۳۱، شماره ۱، صفحات ۱۹ تا ۲۵، بهار ۱۳۸۶.
۲) فاطمه یاوری، ” کاربرد میکرو آرایه در بیان ژن”، ماهنامه تخصصی مهندسی پزشکی ، شماره ۷۷، سال ۷، شهریور ۱۳۸۶. r[ مهندسی امین عصاره، دکتر حسن مرادی، مهندسی سرور بهبهانی،”پروتئومیکس “، ماهنامه مهندسی پزشکی، شماره ۷۶، صفحات ۵۰ تا ۶۱ .

۱. مقدمه
بیماری سرطان دلیل مشخصی ندارد و حتی هنگامی که این بیماری در کل بدن انسان منتشر می شود، باز هم علایم این بیماری غیرملموسی می باشد و همین امر عامل اصلی ناتوانی بشر در مهار آن می باشد. در سالهای اخیر استخراج اطلاعات بیولوژیک از منبع اصلی آن یعنی سلول، به یکی از بحثهای روز مجامع پزشکی و مهندسی پزشکی تبدیل شده است [۳]، در واقع هدف از تحلیل داده بیان ژن تعیین چگونگی تأثیر بیان هر ژن منفرد روی بیان ژن های دیگر در همان شبکه ژنتیکی است. هدف دیگر مشخص کردن این نکته است، که چگونه ژنها در سلولهای سالم و بیمار بیان میشوند. کاربرد عملی پروفایل بیان ژن میکروآرایه، مدیریت و کنترل سرطان و بیماریهای عفونی است و در واقع هدف اصلی این مطالعات، تعیین و شناسائی فرایند پاتولوژیک مرتبط با نوع بیماری و مرحله آن و نیز پیش بینی بیماری و پیش بینی پاسخ به درمانی خاص است، که هنگام تشخیص ممکن است برخی از مسائل مشکل، با استفاده از تحلیل دادههای بیان ژن حل شوند [۲]با توجه به اینکه داده های پزشکی بسیار پیچیده و متغیر می باشند [۳]، می بایست این دادهها را به نحوی آماده نمود تا الگوریتم های یادگیری ماشینی که شامل تحلیل جداکننده خطی فیشر، رای گیری وزن شده ، بیز، شبکه های عصبی ، درخت تصمیم گیری ، خوشه بندی ، نزدیکترین همسایگی ماشین بردار پشتیبان ، بوستینگ” و … می باشند، قادر به استخراج اطلاعات کلیدی از آنها و طبقه بندی نمونه های جدید براساسی مجموعه داده های تعلیمی باشند که این امر هدف مرحله پیش پردازشی است و انتخاب ژن نیز بعنوان یک مرحله پیش پردازشی مفید، در این مقاله بررسی می شود.
در اینجا ابتدا در بخش ۲ یکسری اطلاعات بیولوژیکی مطرح می شود، سپس در بخش ۳ روش های مختلف طبقه بندی سرطان و ارزیابی آن ها بررسی می شود، و بعد در بخش ۴ انتخاب ژن بعنوان یک روش پیش پردازشی بیان می شود، سپس مقاله در بخش ۵ مورد استنتاج واقع می شود.
۲. مروری بر اطلاعات بیولوژیکی همه موجودات زنده به جز ویروسها از سلول تشکیل شده اند. در بدن انسان تریلیونها سلول وجود دارد. در هسته سلولها کروموزوم و در کروموزوم DNA وجود دارد. DNA از دو بخش کد کننده و غیر کد کننده تشکیل شده که بخش کد کننده آنها را ژن می نامند، ژن ها کدهای ساختن پروتئینها هستند. پروتئینها مولکولهای بزرگی هستند که اساس هر ارگانیزمی را تشکیل می دهند. همه سلولها در یک ارگانیزم ژنهای مشابهی دارند، اما این ژن ها در زمانهای مختلف و در شرایط مختلف، بیان متفاوتی دارند [۱۴ و ۱۰]
۳. شیوه های طبقه بندی سرطان و ارزیابی آنها روش های مختلف برای طبقه بندی سرطان روی مجموعه داده ها قابل اعمالی هستند، که در برخی سایتها مثل http://WWW.genOme.Wi.mit.edu/MPR موجود هستند، در اینجا مجموعه داده سرطان خون که شامل ۷۲ نمونه می باشد، توسط عموم قابل استفاده است. مجموعه داده ها شامل یکسری سطر و ستون هستند، مثلاً در نمونه افراد سالم و بیمار سطرها نشاندهنده نام اشخاص و ستون ها ویژگی های افراد مورد نظر مثلاً ضربان قلبشان و خصوصیات دیگر می باشد، در یادگیری با ناظر” داده ها دارای برچسب هستند، یعنی قبل از اینکه ماشین دسته بندی اش را شروع کند، برای ماشین مشخص می کنیم که کدام شخصی بیمار یا سالم است و در واقع سیستم بر اساس این داده های آموزشی یاد می گیرد و در مرحله تست سیستم خود قابلیت تشخیص فرد سالم یا بیمار را خواهد داشت. در یادگیری بدون ناظرا “داده ها برچسب ندارند، در این حالت سیستم بر اساسی مشخصات نمونه های مختلفی که موجود است باید دسته ها یا کلاس های موجود بین داده ها را پیدا کند [۱۷]، در مجموع جهت دسته بندی سرطان از روش های مختلفی می توان استفاده نمود، که در اینجا برخی از این روش ها بررسی می شوند .
۳. ۱. تحلیل جدا کننده خطی فیشر
در این روش می خواهیم ویژگی ها را به نحوی در نظر بگیریم که اگر دو کلاس داشته باشیم، فاصله میانگین آن دو ماکزیمم شود و نیز واریانسی داخلی هر کلاسی مینیمم شود و در نتیجه ابعاد کاهش یابند. در واقع جداکننده خطی فیشر بردار W ای است که مقدار تابع زیر را ماکزیمم می نماید [۱۷]:

۳. ۲. روش رای گیری وزن شده
این روش توسط Golu و Slonim برای داده کلاس باینری پیشنهاد شده است [۱۵ و ۹ و۷] روش GS یک دسته کننده بر اساس همبستگی است. این روش ساده است و در برخی داده ها مانند مجموعه داده سرطان خون نتایج خوبی را دستیابی می کند، اما این روش در کنار سادگی اش شامل برخی محدودیت هاست. اول اینکه، تنها برای کلاسی باینری قابل اجراست پس در مواردی که بیش از دو کلاس سرطان درگیر می شود، الگوریتم GS مؤثر نخواهد بود. دوم، این الگوریتم ژن ها را به نحوی انتخاب می کند که هر دو کلاس شامل تعداد مساوی از ژن ها باشند [۱۷]
۳ . ۳٫ روش بیز
این روش برای دسته بندی، هر کلاسی را به صورت توزیع گاوسی نمونه های آموزشی مدل می کند [۱۱] دسته کننده بیز با دقت ۱۰۰ درصد روی مجموعه داده سرطان خون و دقت ۸۴ درصد در مجموعه داده تخمدان و کولن بدست آمده است [۴] قانون بیز با وجود سادگی اشی نتایج بهتری را در مقایسه با الگوریتم های پیچیده تر کسب کرده است [۱۷]
۴٫۳٫ روش شبکه عصبی
برای پیشگویی نوع سرطان استفاده شده است که شامل سه گام اصلی تحلیل اجزای اصلی، انتخاب ژن مناسب و پیشگویی شبکه عصبی مصنوعی است [۱۷].
لازم به ذکر است که تحلیل اجزای اصلی برای کاهش ابعاد ژنها استفاده می شود و در نتیجه باعث اجتناب از “OVerfitting” می شود [۱۲ و ۱۱].
برای انتخاب ژن های مناسب می بایست حساسیت هر ژن در کلاسی مربوطه اش محاسبه شود، که برای یک مجموعه داده از N نمونه و ک کلاس، حساسیت هر ژن gi با مراجعه به هر کلاس Cj به صورت زیر بدست می آید:

بر این اساس، هر ژنی که در کلاسی مربوطه اش حساسیت بالاتری دارد، انتخاب می شود. در واقع با انتخاب ژن ها، کارایی مجموعه داده ها افزایش می یابد [۱۷]
۵.۳. روش درخت تصمیم گیری
درخت تصمیم گیری شامل یک مجموعه از گره های داخلی و گره های برگ است. نودهای برگ با یک اتیکت منفرد برچسب گذاری شده اند. ساخت درخت تصمیم گیری معمولاً یک پردازش دو فازه است. در فاز ۱، فاز رشد، یک درخت تصمیم گیری از داده آموزشی ساخته می شود. در فاز ۲، فاز هرس کردن، بخشی از درخت را به نحوی از بین می بریم که مرحله تست روی آن شاخه انجام نشود.