چکیده

پس از ورود کامپیوتر به سیستم های پزشکی و ذخیره داده ها در سیستم های کامپیوتری حجم عظیمی از داده ها در سیستم های کامپیوتری ذخیره شده است. این داده ها شامل مشخصات بیمار، علائم مشاهده شده، تشخیص های صورت گرفته و کارهای انجام شده جهت بهبود وضعیت بیمار می باشد . اشکالی که سیستم های ذکر شده دارند ذخیره داده ها به صورت غیر ساخت یافته می باشد. ذخیره داده ها به صورت غیر ساخت یافته امکان تهیه گزارش های پیشرفته و یا تشخیص های اتوماتیک را سخت می کند و به همین جهت اکثر روش های داده کاوی روی داده های متنی ابتدا در مرحله پیش پردازش سعی بر ساخت یافته کردن متن ورودی دارد. در این مقاله ابزاری معرفی می گردد که با استفاده از آن در مراکز درمانی تمامی داده ها به صورت ساخت یافته در سیستم های کامپیوتری ذخیره می گردد و طبیعتاً این داده ها امکان تهیه گزارش های پیشرفته و تشخیص خودکار را خواهد داد.

کلمات کلیدی: داده کاوی، داده های ساخت یافته، داده های غیر ساخت یافته

-۱مقدمه
داده های ذخیره شده در سیستم های کامپیوتری در حوزه های متفاوتی اعم از اقتصادی، اجتماعی، فرهنگی، پزشکی و غیره می باشد. تمام حوزه های مذکور از اهمیت زیادی برخوردار بوده منتهی مباحث پزشکی با توجه به اینکه مباحث پزشکی مرتبط با جان و سلامت انسان ها بوده لذا جایگاه ویژه ای دارد. با توجه به اهمیت ویژه ای که مباحث پزشکی دارد تمامی مسائلی که کمک به بهبود وضعیت تشخیص و درمان کمک کند می تواند مهم باشد. داده های ساختیافته به داده هایی اطلاق می گردد که بطورکاملاً مستقل از همدیگر ولی یکسان از لحاظ ساختاری در یک محل گردآوری شده اند. انواع بانکهای اطلاعاتی را می توان نمونه هایی از این دسته اطلاعات نام برد . در اینصورت مسئله داده کاوی عبارت از کسب ا طلاعات و دانش از این مجموعه ساخت یافته. اما در مورد متون کهعمدتاً غیر ساخت یافته یا نیمه ساخت یافته هستند ابتدا باید توسط روشهایی ، آنها را ساختارمند نمود و سپس از این روشها برای استخراج اطلاعات و دانش از آنها استفاده کرد.

داده های متنی به صورت غیر ساخت یافته، نیمه ساخت یافته و کاملا ساخت یافته می تواند باشد . هر چقدر از داده های غیر ساخت یافته فاصله بگیریم وبه سمت داده های ساخت یافته پیش برویم، تهیه گزارش های پیشرفته و تشخیص های خودکار مختلف مانند نوع بیماری و روش درمان آن وکمک به پزشکان در تصمیم گیری دقیقتر و سریعتر، بهتر قابل پیاده سازی است، زیرا در داده های ساخت یافته سیستم درک بهتری از داده هاگزای ذخیره شده در سیستم کامپیوتری دارد. هدف ما از ارائه این ابزار طراحی ابزاری است تا داده های پزشکی شامل گزارشات متنی حاصل از آزمایشات مختلف پزشکی مانند رادیولوژی، گزارشات پرونده سلامت بیماران و در کل هرگونه اطلاعات متنی که بصورت الکترونیکی در مراکز بهداشت و درمان ذخیره می شوندرا به صورت ساخت یافته در سیستم های کامپیوتری ذخیره نماید تا از این طریق از محاسن ذکر شده در مورد داده های ساخته یافته برخوردار گردیم.

-۲-۱ بررسی کارهای مشابه

(۱۷۹۱)Reynolds, C.F., M. Shackell, and G. Sutton در با بررسی داده های کلینیک به این نتیجه رسیده اند که برای آنالیز بهتر داده های کلینیک بایستی ساختاری برای داده ها پیش بینی شود و داده ها را با همان ساختار وارد نمود. البته این مقاله به صورت کلی به بررسی این موضوع

۱

اولین همایش ملی پیشرفت های تکنولوژی در مهندسی برق، الکترونیک و کامپیوتر

First National Conference of Technology Developments on Electronical, Electronics and Computer Engineering
. . . W W W . T D E C O N F . I R . . .

پرداخته و وارد جزئیات نشده است و به همین جهت به معرفی اجزای ساختار نپرداخته است. همانطور که در شکل مشخص شده فرم پیش بینی شده در ابتدا حاوی هیچ اطلاعاتی نیست و متخصص به صورت دستی و با توجه به تشخیص خود داده های مورد نظر را وارد می نماید.

در حقیقت CODIL برای دسته بندی داده ها به منظور بایگانی و آنالیز بهتر داده ها می باشد. هر متخصص می تواند از واژه های دلخواه خود برای ورود داده ها استفاده نماید. از اشکالات محققین ذکرشده در مرجع[۱] عدم وجود آیتم های مشخص برای ورود داده ها می باشد. لذا متخصصان از واژه های متفاوت برای بیان منظور خود استفاده خواهند کرد و این باعث عدم همخوانی داده های موجود در فرم ها خواهد شد. ابزاری که ما تمایل به طراحی آن داریم ضعف ساختارذکرشده را بر طرف خواهد کرد . برای حل ضعف مذکور از آیتم های مشخص استفاده خواهیم کرد به صورتی که متخصصان برای ورود اطلاعات از آیتم های یکسان برای ورود اطلاعات استفاده خواهند کرد و مشکل عدم همخوانی داده های وارد شده توسط متخصصان متفاوت برطرف خواهد شد.

(۲۱۱۱) Angelova, G., S. Boytcheva, and D. Tcharaktchiev قالبی برای ورود اطلاعات معرفی کردند و هدف ساخت یافته کردن و مرتبط کردن اطلاعات وارد شده از لحاظ زمانی برای بیمار می باشد. برای دست یابی به هدف ذکر شده قالبی در نظر گرفته شده که در این قالب ها بازه های زمانی در نظر گرفته شده است. در قسمت نتیجه گیری این مقاله ذکر شده که جمع آوری داده های پزشکی و تصمیم گیری بر اساس وقایعی که در طول زمان برای بیمار اتفاق افتاده بسیار مهم می باشد ولی ورود داده های ساخت یافته بر اساس زمان باعث سخت تر شدن استخراج اتوماتیک داده ها می شود زیرا چینش داده ها بر اساس پارامتر زمان می باشد و از کارهای آینده مولفان مقاله کار روی استخراج اتوماتیک می باشد و می توان عدم استخراج اتوماتیک را از ضعف های مقاله ذکر شده عنوان کرد. در ابزاری که ما تمایل به طراحی آن داریم با توجه به اینکه تمامی داده ها به صورت ساخت یافته وارد سیستم کامپیوتری می گردد لذا امکان استخراج اتوماتیک اطلاعات وجود خواهد داشت و عملاً ضعفی که در مقاله ذکر شده بود در ابزار ما وجود نخواهد داشت.

(۲۱۱۱) Berman, G.D., et al., Structured radiology reporting از ساختار منویی برای ورود گزارشها به صورت ساخت یافته استفاده نمودند و محاسن ورود و ذخیره گزارش به صورت ساخت یافته به صورت زیر بیان شده است:
• بهبود کیفیت و هم خوانیٌ گزارشها
• آماده سازی سریعتر گزارشها و بهبود مراقبت از بیمار و کاهش زمان بستری در بیمارستان

• حذف هزینه تایپ گزارشها
• آماده سازی قبض هزینه به صورت خودکار و کاهش هزینهها
در این مقاله از قالب های از پیش تعیین شده برای متخصصان پزشکی استفاده می گردد به صورتی که متخصصان داده های مورد نظر خود را با استفاده از قالب های از پیش تعیین شده وارد سیستم کامپیوتری می کنند. از محاسن این ابزار می توان به کاملاً ساخت یافته بودن قالب های پیش بینی شده اشاره کرد و طبیعتاً تمامی داده هایی که با استفاده از قالب های از پیش تعیین شده وارد سیستم کامپیوتری می گردد کاملا ساخت یافته بوده و عملاً استخراج اتوماتیک اطلاعات امکان پذیر است . استفاده از قالب های از پیش تعیین شده محدودیت در ورود داده را به همراه خواهد داشت زیرا متخصصان ملزم به ورود داده تحت قالب از پیش تعیین شده خواهند بود و مورد مذکور از ضعف های ابزار معرفی شده در مرجع مذکور خواهد بود. در همین مرجع ذکر شده که متخصصان درخواست قرار دادن بخشی برای ورود اطلاعات متنی (غیر ساخت یافته) در این ابزار نموده اند زیرا متخصصان به مواردی بر می خورند که در قالب پیش بینی نشده است و تمایل به ورود داده به صورت متنی (غیر ساخت یافته) دارند. با توجه به اینکه ابزار پیشنهادی ما امکان

تعریف قالب (الگو) را به متخصصان خواهد داد لذا هر متخصص تمامی مواردی که نیاز خواهد داشت را در قالب پیش بینی می کند و عملا تمامی داده ها به صورت ساخت یافته وارد سیستم کامپیوتری می گردد. از طرف دیگر در صورتیکه متخصص با مواردی برخورد کند که در گذشته پیش بینی نکرده است می تواند به محض مشاهده مورد خاص که در گذشته پیش بینی نشده آن را به عنوان قالب در سیستم کامپیوتری تعریف نماید و مورد مذکور را به
صورت کاملاً ساخت یافته وارد سیستم کامپیوتری نماید.

(۲۱۱۲) Rafeh, R. and M. Ahmadi تشخیص های بیماری را به صورت ساخت یافته تعریف نمودند .در ادامه یک مدل دسته بندی معرفی شده و متن ورودی را به یکی از تشخیص های بیماری که به صورت ساخت یافته است نسبت می دهد و با این روش تشخیص بیماری صورت می گیرد. در حقیقت این پروژه روی داده های بدون ساختار که در گذشته وارد شده کار می کند لذا امکان استفاده از دسته بندی وجود دارد ولی کاری که ما تمایل به تحقیق در آن زمینه داریم ابزاری برای ورود اطلاعات به صورت ساخت یافته است در نتیجه داده ای در سیستم کامپیوتری وارد نشده است تا با استفاده از دسته بندی داده ها را دسته بندی نماییم لذا امکان استفاده از این روش در کار تحقیقاتی ما وجود ندارد.

-۳-۱ داده های ساخت یافته:

داده های متنی به سه صورت غیر ساخت یافته ، نیمه ساخت یافته . ساخت یافته ذخیره می شوند که در اینجا توضیحی مختصر راجع به این مفاهیم آورده ایم:

Consistenc1

۲

اولین همایش ملی پیشرفت های تکنولوژی در مهندسی برق، الکترونیک و کامپیوتر

First National Conference of Technology Developments on Electronical, Electronics and Computer Engineering
. . . W W W . T D E C O N F . I R . . .

داده غیر ساخت یافته داده ای است که به سادگی قابل درک و استفاده توسط کامپیوتر نباشد LASHKARI, A.H., F. MAHDAVI, and V. GHOMI)،.(۲۱۱۷ متون موجود در صفحات اینترنتی، متن مقالات و متون تایپ شده توسط کاربران سیستم های کامپیوتری شاغل در مباحث پزشکی از داده های غیر ساخت یافته هستند. دادههای ذخیره شده در بیشتر پایگاه دادههای متنی، دادههای نیمه ساخت یافته هستند چون نه به طور کامل غیرساخت یافته هستند و نه به طور کامل ساخت یافته هستند. برا ی مثال یک سند شامل تعدادی فیلد ساخت یافته مانند عنوان، نویسندگان، تاریخ انتشار، رده ٍ و ….. و از طرف دیگر شامل برخی کامپوننتهای متنی غیرساختاریافته مانند چکیده و محتویات است داده های ساختیافته به داده هایی اطلاق میگردد که بطورکاملاً مستقل از همدیگر ولی یکسان از لحاظ ساختاری در یک محل گردآوری شده اند.

انواع بانکهای اطلاعاتی را میتوان نمونه هایی از این دسته اطلاعات نام برد . در اینصورت مسئله داده کاوی عبارت از کسب اطلاعات و دانش از این مجموعه ساخت یافته. اما در مورد متون کهعمدتاً غیر ساخت یافته یا نیمه ساخت یافته هستند ابتدا باید توسط روشهایی ، آنها را ساختارمند نمود و سپس از این روشها برای استخراج اطلاعات و دانش از آنها استفاده کرد. بانک های اطلاعاتی رابطه ای نمونه ای از داده های ساخت یافته می باشد. بازیابی اطلاعات از داده های غیر ساخت یافته ساده نمیباشد Prasad, K., et al)،(۲۰۱۰
از جمله مشکلاتی که در زمینه متن کاوی وجود دارد کشف کردن دانش مفید از متن نیمه ساخت یافته یا غیرساخت یافته است که توجه زیادی را به خود جلب کرده است. روشهای داده کاوی سنتی فرض میکنند که اطلاعات به فرم پایگاه دادههای رابطهای هستند به همین دلیل برای بسیاری از کاربردها مانند اطلاعات الکترونیکی قابل دسترس به فرم نیمه ساخت یافته یا غیرساخت یافته مفید نیستند.

روش های متفاوتی تا کنون برای ساخت یافته کردن گزارشات و داده های متنی ارائه شده که به اختصار بیان می شود:

(۱۷۷۹) Müller ساختاری برای گزارش ها تعریف کرده است. هدف از این ساختار یادداشت کردن داده ها طبق ساختاری یکسان بین تمام گزارش ها بوده تا بررسی و تحلیل داده ها ساده تر گردد.

(۱۷۷۱)Macleod, I.A ساختار کلی یک متن را نمایش می دهد. در این ساختار یک متن به صورت مجموعه ای از پاراگراف ها در نظر گرفته شده است. قسمت ویژگی ها مرتبط با سند می باشد. به عنوان مثال عنوان سند یا شماره سند جزو ویژگی های سند محسوب می گردد.

(۲۱۱۱) Schweiger, R., et al فرم مشخصات کلی بیمار را به صورت ساخت یافته تحلیل نمودند و پس از تحلیل داده ها آیتم هایی برای بیمار در نظر گرفتند. در ادامه برای هر آیتم یک قسمت برای وارد کردن داده ها به صورت ساخت یافته تعریف شده و کاربران سیستم های کامپیوتری از این فرم برای وارد کردن داده ها استفاده می کنند.

(۲۱۱۳) Tahraouia, M.A., et al یک ساختار در نظر گرفته شده از سند را نشان می دهند. در این ساختار هر متن به صورت کلی شامل ویژگی ها ، هدر و بدنه می باشد. ویژگی های سند در حقیقت خصوصیات کلی از سند می باشد . به عنوان مثال تاریخ ایجاد سند، شماره سند و هر خصوصیتی که مرتبط با یک سند باشد جزو ویژگی های سند محسوب می گردد.هدر شامل عنوان و نام مؤ لفین می باشد. بدنه سند شامل قسمت های متفاوت می باشد. که هر قسمت می تواند شامل عنوان و تعدادی پاراگراف باشد.

(۱۷۷۷) Salminen, A. and F.W. Tompa گرامری برای ساختار متون ارائه کرده اند. در این گرامر متون به صورت مجموعه ای از صفحه ها در نظر گرفته شده است. هر صفحه می تواند شامل ابتدا، بدنه و انتها باشد. در قسمت ابتدا نام مولفین و قسمت چکیده قرار می گیرد. قسمت چکیده شامل تعدادی پاراگراف می باشد. و هر پاراگراف شامل مجموعه ای از جمله ها در نظر گرفته شده است. قسمت بدنه شامل تعدادی قسمت بوده و هر قسمت شامل عنوان و تعدادی پاراگراف می باشد. همانطور که گفته شد هر پاراگراف به صورت مجموعه از جمله ها در نظر گرفته شده است. در این مرجع با در نظر گفتن گرامر برای هر صفحه بیان کننده ساختاری در صفحه های متنی می باشد که این بیان کننده ساختاری برای متون می باشد.

(۲۱۱۳) Lande, D.V., et al نیز برای تعیین ساختار از گراف استفاده کرده اند . نودها در صورتیکه مربوط به یک جمله یا پاراگراف باشد به هم متصل می گردد در غیر اینصورت به هم متصل نمی شود و به این صورت گراف ساخته می شود.

-۲ مواد و روش

داده های استفاده شده در کار تحقیقاتی از مراکز کلینیک تهیه شده است. این داده ها به صورت ترکیبی از فارسی و لاتین می باشد. ابتدا تحلیل روی نوع داده ها و روش ذخیره سازی داده ها انجام شد و در ادامه ابزاری برای وارد کردن داده های مورد نظر به صورت ساخت یافته ارائه گردید. داده های پزشکی مورد بررسی قرار گرفت و در ادامه نوع داده های ذخیره شده درسیستم های کامپوتری مورد بررسی قرار گرفت. داده ها به صورت متنی، عکس و ویدیو می باشد. داده های متنی اکثرا به صورت متون غیر ساخت یافته در سیستم های کامپیوتری ذخیره می گردد. داده های عکس و ویدیویی معمولا به همان صورت در سیستم های پزشکی تهیه و بایگانی می گردد. منتها بعضی از مراکز درمانی این داده های عکس و ویدیو را پس از بررسی و گزارش متنی توسط متخصص پزشکی به صورت متون غیر ساخت یافته در سیستم های کامپیوتری توسط کارمندان مربوطه تایپ و ذخیره می کنند. در مرحله بعد تمامی نوع داده های ذخیره شده متنی مورد بررسی قرارگرفت و در ادامه روشی برای ساخت یافته کردن این داده ها ارائه شد. سپس ابزاری به زبان vb.net برای پیاده سازی روش مذکور پیاده سازی شد و در نهایت نتایج مورد بررسی قرار گرفت.

category 2

۳

اولین همایش ملی پیشرفت های تکنولوژی در مهندسی برق، الکترونیک و کامپیوتر

First National Conference of Technology Developments on Electronical, Electronics and Computer Engineering
. . . W W W . T D E C O N F . I R . . .

متخصصان کلینیک پس از بررسی وضعیت بیمار و پس از بررسی علائم قابل توجه در بیمار، نوع بیماری را تشخیص می دهند. متخصص کلینیک پس از تشخیص بیماری گزارشی از وضعیت بیمار و تشخیص خود یادداشت تهیه می کند و تحویل کارمندان سیستم های کامپوتری می دهد . این یادداشت ها به صورت متنی وارد سیستم کامپیوتری شده و ذخیره می گردد. این یادداشت ها در مراجعه های بعدی بیمار مورد استفاده قرار می گیرد زیرا تشخیص های کلینیک با توجه به وضعیت فعلی بیمار و سوابق بیماری که در گذشته وجود داشته انجام می گیرد . به همین جهت وارد کردن این اطلاعات در سیستم های کامپیوتری از اهمیت زیادی برخودار می باشد. فرآیند وارد کردن داده های متنی کلینیک در سیستم های کامپیوتری و ذخیره آن در سیستم های کامپیوتری گاهی با مشکل هایی همراه می باشد که گزارش گیری سوابق بیمار را با مشکل مواجه می کند. برای روشن شدن مطلب به شرح برخی از این اشکال های می پردازیم.

الف) کاربرانی که داده ها را وارد سیستم های کامپیوتری می کنند به دلیل عدم داشتن تخصص پزشکی عملاً تسلطی بر داده هایی که وارد سیستم های کامپیوتری می کنند ندارند و این گاهی منجر به ورود داده های متنی می شود که عملا از لحاظ پزشکی معنا دار نیست. به عنوان مثال به داده های کلینیک زیر دقت می کنیم:
“کدورت غیر هوموژن در سگمان مدیال RT middle lobe مشهود است”
حال تصور کنیم که کاربر سیستم کامپیوتری به دلایل متعدد از جمله عدم تمرکز یا مشغله زیاد قسمت “سگمان مدیال” را وارد سیستم کامپیوتری نکند. پس جمله فوق تبدیل به جمله زیر می شود:

“کدورت غیر هوموژن در RT middle lobe مشهود است”

در صورتی که کاربر مجددا این جمله را بررسی نماید ولی با گزارش متخصص کلینیک مقایسه نکند به دلیل عدم تخصص پزشکی متوجه بدون معنا بودن این جمله نمی گردد. این یکی از مشکل هایی است که به ازای عدم تخصص کاربر سیستم های کامپیوتری شاغل در کلینیک امکان دارد اتفاق بیفتد.

به جمله “کدورت الوئرلر پراکنده در LLL به نفع پروسه عفونی می باشد” دقت می کنیم. فرض کنیم کاربر سیستم کامپیوتری در وارد کردن جمله مذکور واژه “الوئرلر” را وارد نکند. پس جمله تبدل به جمله زیر می گردد:

” کدورت پراکنده در LLL به نفع پروسه عفونی می باشد”

کاربر سیستم کامپیوتری به دلیل عدم داشتن تخصص متوجه نمی شود که جمله وارد شده دارای معنا در پزشکی نمی باشد. حتی در صورتیکه مجدداً این جمله را بررسی کند و با گزارش متخصص کلینیک مقایسه نکند متوجه خطای به وجود آمده نمی گردد.

ب )از اشکال های دیگری که در ورود داده ها توسط کاربران غیر متخصص کلینیک مشهود است ادغام دو جمله متوالی می باشد. در محیط های کاری به دلیل مشغله زیاد کاربران سیستم های کامپیوتری ممکن است بخشی از جمله اول را وارد سیستم کامپیوتری نماید و ورود داده ها را متوقف کند و به کار دیگری بپردازد و پس از پایان یافتن کار دوم به کار اول که وارد کردن داده های کلینیک است بازگردد. در این حالت گاهی از ادامه جمله دوم شروع به وارد کردن داده ها در ادامه داده های جمله اول می کند و به دلیل عدم داشتن تخصص پزشکی متوجه بدون معنا بودن جمله وارد شده نمی گردد.

جمله های کلینیک متوالی معمولا دارای ارتباط معنایی می باشد. به عنوان مثال دو جمله متوالی اول و دوم در رابطه با “کلیه” می باشد و در هر دو جمله اول و دوم واژه “کلیه” به کار رفته است. کاربر سیستم های کامپیوتری جمله اول را تا واژه “کلیه” وارد سیستم کامپیوتری می کند و به کار دیگری می پردازد و پس از برگشت به کار وارد کردن داده های کلینیک از جمله دوم و از واژه کلیه به بعد وارد سیستم کامپیوتری می کند.

ج)معمولا متخصصان کلینیک داده های متنی را که تمایل به ذخیره در سیستم های کامپیوتری دارند خودشان فرصت وارد کردن این داده های متنی در سیستم های کامپیوتری ندارند و داده های متنی را روی برگه های کاغذی یادداشت می کنند و تحویل کاربران غیر متخصص پزشکی می دهند و کاربران وارد سیستم های کامپیوتری می کنند. در این حالت دو دلیل باعث خطای تایپ کاربران می گردد. ابتدا به دلیل مناسب نبودن دستخط متخصص کلینیک و عدم خوانا بودن دستخط متخصص کلینیک و دلیل دوم عدم تخصص کاربر سیستم های کامپیوتری منجر به خطا در ورود اطلاعات در سیستم های کامپیوتری می گردد. به عنوان مثال به جمله زیر توجه می نماییم: