مقدمه ای بر داده کاوی: قسمت سوم

در مقالات گذشته از سری مقالات مقدمه ای بر داده کاوی در مرکز آموزش بیوانفورماتیک نصر به بررسی علم داده کاوی،‌مفاهیم و تعاریف کاربردی آن پرداختیم،‌دانشی که با استفاده از آن مرزهای تحلیل و آنالیز در بیوانفورماتیک جا به جا شده است و امروز قصد داریم تا در مقاله ی سوم،‌به بررسی بیشتر این مفاهیم بپردازیم.

تفاوت داده کاوی و آنالیز های آماری

داده کاوی با آنالیز های متداول آماری متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهده نمود

آنالیز آماری

متخصصان آمار همیشه با یک فرضیه شروع به کار می کنند
  آنها از داده های عددی استفاده می کنند
  آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است
آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند
  آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند

داده کاوی

متخصصان داده کاوی

  به فرضیه احتیاجی ندارد
ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند
الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند
داده کاوی به داده های صحیح و درست نیاز دارد
نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد

مراحل داده کاوی
مرحله ی اول شناخت فرآیند

ین مرحله مهمترین مرحله فرایند می باشد. در ابتدا بـاید صورت مسئله دانسته شود تا پروژه داده کاوی صورت پذیرد.همچنین باید تاثیرگذارهای بر روی پروژه مشخص شوند که چه کسانی می باشند. سپـس باید دانش بـاشد تا چگونگی عمل نیز مشخص شود

مرحله ی دوم : شناخت داده

این مرحله مربوط به مفهوم داده ها می باشد. شامل مراحل زیر می باشد:
جمع آوری داده های اولیه واصلی
شرح وتوصیف داده ها
کاوش داده ها
تحقیق در مورد کیفیت داده ها

مرحله ی سوم: جمع آوری داده ها

مسئله اصلی در این قسمت این است که :
((ما چه داده هایی را احتیاج داریم؟))
این داده ها کجا هستند؟
بزرگی داده های مورد نیاز چقدر باشد؟
چه مدت طول می کشد تا به داده ها دسترسی پیدا کنیم؟
آیا روش خاص ومنحصربفردی برای جمع آوری داده ها است؟
آیا داده های بدست آمده مفید،مفهومی،موثر و بهره ور هستند؟
یکی از سوال هایی که جهت جمع آوری داده مطرح شد ،این بود که داده ها کجا هستند؟
منابع مورد نیاز داده ها شامل:

Flat Files: فایل های فلت

Databases: پایگاه های داده

دیتا بیس های نامتجانس و نا همگون

دیتابیس های ناشناس و نا مشخص

دیتابیس های موروثی

Dataware House = انبار داده ها

انبار داده ها

سیستمی است که عمل تلفیق درآن انجام می گیرد.قابل تغییر نیست. به مدیران در گرفتن تصمیم گیری بهتر کمک می کنند. در این سیستم چند خاصیت وجود دارد؟
یک: به مسائل به خصوصی درجنبه استراتژیک می پردازد.(مشتریان،محصولات)
دو: پس از ورود اعداد به سیستم می توان اعداد را خانه تکانی کرد.(یکسان سازی کدها، نام ها و..)
سه:‌ پویا است وبایداطلاعات جدید وارد آن شود

خبر خوب

شاید هنگام مطالعه ی این مقاله با خود در مورد پیچیدگی داده ها و اطلاعات و گذاره های موجود در این مقاله را مغایر با اهداف و نقشه راه بیوانفورماتیک بدانید،‌اما مطابق با نظر هیئت تحریریه ی مرکز بیوانفورماتیک نصر،‌این مقاله می تواند در آینده ی نزدیک در هنگام مباحثی چون زبان های برنامه نویسی و … چشم انداز و نگاه باز تری به شما نسبت به مسایل بدهد امیدواریم از خواندن آن لذت ببرید و همچنان همگام با مرکز آموزش بیوانفورماتیک نصر همراه باشید.

error: Content is protected !!
X