داده کاوی: آماده سازی داده

داده کاوی،‌مبحثی است که در بیوانفورماتیک چالش و مفهوم جدیدی را وارد کرده است و در مرکز آموزش بیوانفورماتیک نصر بر آن هستیم تا در سری مجموعه مقالات پیوسته به توضیح و تشریح دانش داده کاوی و مراحل آن بپردازیم.  امیدواریم با خواندن آن بتوانید در آینده ی نزدیک یک پروژه ی بیوانفورماتیکی قدرتمند و چالشی را با نگاهی جدید راه اندازی و اجرا نمایید.

این مرحله مربوط به آماده سازی داده ها می باشد و شامل مراحل زیر می باشد:

  • انتخاب داده ها

  • تمیز کردن داده ها

  • تبدیل داده ها

  • تلفیق داده ها

بصورتی که کدگذاری و نام گذاری داده ها حالت استاندارد ویکسان داشته باشد.

Data selecting انتخاب داده

در دو بخش انجام می گیرد: یکی زمانی است که تعداد صفات را کم می کنیم و دیگری زمانی که با کم کردن مشاهدات داده ها را انتخاب می کنیم که ما در اینجا به بخش دوم می پردازیم:

کم کردن تعداد مشاهدات به سه روش می باشد:

  • نمونه گیری Sampling

  • نمونه گیری هوشمند Intelligent sampling

  • یادگیری برای صرفنظر Learn to forget

درآمار،نمونه گیری تصادفی است که داده ها به صورت تصادفی انتخاب می گردند. ولی این تصادفی انتخاب کردن ممکن است که زیـان زیادی برای ما داشته باشد و ما خیلی از داده هـای با ارزشمان را از دست بدهیم. به عـنوان مثال اگر اخراج یکسری از افراد یک شرکت به صورت نمونه گیری تصادفی باشد، ممکن است یکسری ازکارمندهای حرفه ای وخبره را ازدست بدهیم. عمـل نمونه گیری به این دلیل است کـه حجم بالای اطلاعات وداده ها قابل پردازش نیست. حجم نمونه باید به اندازه بهینه باشد. حجم نمونه به عنوان پارامتراضافی مدل است و میتوان آنرا آنقدرتغییرداد تابه حالت مطلوب برسیم.

نمونه گیری هوشمند:

در این حالت طوری نمونه گیری انجام می شود که طبق قوانین ومقرراتی باشد و ما اطلاعات اصلی را از دست ندهیم.

درنمونه گیری تصادفی اساس براین است که هر کدام از مشاهدات احتمال معادل ومعلوم داشته باشند که بتوانند در نمونه گیری ما انتخاب شوند.

وقتی تعداد جامعه خیلی زیاد باشد می توان از نمـونه گیری بدون جایگذاری استفاده کرد. روش انتخاب نمونه :

مشاهده اول بصورت تصـادفی بعنوان نقطه شـروع انتخاب می گردد و بعد برای مشاهدات بعدی به هـر مشاهده به اندازه k اضافه می کنیم و به این ترتیب کل نمونه انتخاب می گردد.

نمونه گیری طبقه بندی:

زمانی این نمونه گیری انجام میشودکه یک جامعه نامتجانس داشته باشیم. به این صورت است که ابتداجامعه راطبقه بندی می کنیم واین مرحله مربوط به آماده سازی داده ها می باشد و شامل مراحل زیر می باشد:

  • انتخاب داده ها

  • تمیز کردن داده ها

  • تبدیل داده ها

  • تلفیق داده ها

بصورتی که کدگذاری و نام گذاری داده ها حالت استاندارد ویکسان داشته باشد.

Data selecting انتخاب داده

در دو بخش انجام می گیرد: یکی زمانی است که تعداد صفات را کم می کنیم و دیگری زمانی که با کم کردن مشاهدات داده ها را انتخاب می کنیم که ما در اینجا به بخش دوم می پردازیم:

کم کردن تعداد مشاهدات به سه روش می باشد:

  • نمونه گیری Sampling

  • نمونه گیری هوشمند Intelligent sampling

  • یادگیری برای صرفنظر Learn to forget

درآمار،نمونه گیری تصادفی است که داده ها به صورت تصادفی انتخاب می گردند. ولی این تصادفی انتخاب کردن ممکن است که زیـان زیادی برای ما داشته باشد و ما خیلی از داده هـای با ارزشمان را از دست بدهیم. به عـنوان مثال اگر اخراج یکسری از افراد یک شرکت به صورت نمونه گیری تصادفی باشد، ممکن است یکسری ازکارمندهای حرفه ای وخبره را ازدست بدهیم. عمـل نمونه گیری به این دلیل است کـه حجم بالای اطلاعات وداده ها قابل پردازش نیست. حجم نمونه باید به اندازه بهینه باشد. حجم نمونه به عنوان پارامتراضافی مدل است و میتوان آنرا آنقدرتغییرداد تابه حالت مطلوب برسیم.

نمونه گیری هوشمند:

در این حالت طوری نمونه گیری انجام می شود که طبق قوانین ومقرراتی باشد و ما اطلاعات اصلی را از دست ندهیم.

درنمونه گیری تصادفی اساس براین است که هر کدام از مشاهدات احتمال معادل ومعلوم داشته باشند که بتوانند در نمونه گیری ما انتخاب شوند.

وقتی تعداد جامعه خیلی زیاد باشد می توان از نمـونه گیری بدون جایگذاری استفاده کرد.

K= تعداد افراد در نمونه / تعداد افراد در جامعه

روش انتخاب نمونه

مشاهده اول بصورت تصـادفی بعنوان نقطه شـروع انتخاب می گردد و بعد برای مشاهدات بعدی به هـر مشاهده به اندازه k اضافه می کنیم و به این ترتیب کل نمونه انتخاب می گردد.

نمونه گیری طبقه بندی:

زمانی این نمونه گیری انجام میشودکه یک جامعه نامتجانس داشته باشیم. به این صورت است که ابتداجامعه راطبقه بندی می کنیم و سپس دو حالت داریم: یکی آنکه از کل طبقه ها نمونه گیری تصادفی انجام می دهیم و دیگر آنکه از هر طبقه به تعداد مساوی نمونه می گیریم.

مرکز آموزش بیوانفورماتیک نصر

error: Content is protected !!
X