داده کاوی: انبار داده

پیرو نقشه راه انتشار مطالب در مرکز آموزش بیوانفورماتیک نصر،‌بر آن شدیم تا در این مقاله ی کوتاه به بررسی مفهوم انبار داده در داده کاوی بپردازیم،‌فرایندی که در بیوانفورماتیک پیشرفته و داده کاوی حجیم به شدت به کار می آید. امیدواریم از خواندن آن لذت ببرید

سیستمی است که عمل تلفیق درآن انجام می گیرد.قابل تغییر نیست. به مدیران در گرفتن تصمیم گیری بهتر کمک می کنند. در این سیستم چند خاصیت وجود دارد؟

1- به مسائل به خصوصی درجنبه استراتژیک می پردازد.(مشتریان،محصولات)

2- پس از ورود اعداد به سیستم می توان اعداد را خانه تکانی کرد.(یکسان سازی کدها، نام ها و..)

3-پویا است وبایداطلاعات جدید وارد آن شود.

معماری DWH :

اعداد در سیستم operative وجود دارندواعدادممکن است درچندتا از این DWH ها باشند. باید اول اعداد را تعریف کرده ، ببینیم درکجا قراردارند و بعداعدادمورد نیاز را به DWH میانی می آوریم و بعد درمـرحله Staging اینکار انجام می شود و وقتی اعدادآماده شد ، Loud شده و به DWH می رود. سپس بعـد از خـانه تکانی ، با

اعـداد تمیز با سیستم ها وابـزارهای Olap یا mining یا Reporting عمل می کنیم.

بحث شرح وتوصیف داده ها:

برخی از اندازه گیری های شخصیت داده ها شامل:

*تعداد مشاهدات :

observation یا مشاهدات در جاهای متفاوت با عناوین مختلفی نام برده شده که از آن جمله می توان به این موارد اشاره کرد: Case, data, object, entity, event, instance, pattern, point, record, sample,…

*تعداد صفات : Attribute

هر مشـاهده به وسیله یک یا چند صفت شـرح داده می شود. پس تعـداد صفات حتما باید کمتر از تعداد مشاهدات باشد. صفات یک مشاهده برای تعریف نوع وخاصیت مشاهده لازم وضروری است.

نام های دیگر Attribute به این شرح است: Feature, Field, Variable, …

انواع صفات: انواع صفات بوسیله انواع مقیاس های اندازه گیری اعداد تعریف می شوند.

انواع صفات از نظر مقیاس اندازه گیری:

Ratio داده های نسبتی

Nominal داده های اسمی

Ordinal داده های ترتیبی

Interval داده های فاصله ای

مقادیر اسمی:

مانند نژاد .آیا این شخص زرد پوست است یا نه؟ فقط در همین حد می باشد و نمی توان روی آن عملیاتی انجام داد.

مقادیر ترتیبی :

برای تمیز دادن هر مشـاهده از دیگرمشاهدات است.

A=B or A=B

وهمچنین ترتیب ورتبه مشاهدات را نیز مشخص می کند. (بیشتر است یا کمتر، بهتر است یا بدتر و …)

A>B or A<B

مقادیر فاصله ای:

علاوه بر حالات قبل عمل تفاضل را نیز می توان بر روی داده ها انجام داد. در این حالت صفر، صفر مطلق نیست.

بعنوان مثال در مورد درجه حرارت هوا ، می توان گفت که این مقدار درجه هوا گرمترشده . ولی درجه حرارت صفر به این معنا نیست که هوا گرما وسرما ندارد.

مقادیر نسبتی :

تمام خصوصیات مقیاس فاصله ای را دارد.بعلاوه آنکه صفر معنای کامل ومطلق دارد. مثلا اگر گفتیم درآمـد صفر است ،یعنی واقـعا هیچ پولی وجود ندارد.

انواع دیگر دسته بندی صفات:

discrete اعداد گسسته

continuous اعداد پیوسته

اعدادگسسته : مقادیر محدود ( مانند تعداد بچه ) یا نامحدود قابل شمارش ( مانند شماره اعداد یا فراوانی ) هستند،

اغلب با اعداد طبیعی نشان داده می شوند ، حالت خاص آن اعداد دوتایی binary می باشد.

اعدادپیوسته : اعدادحقیقی هستند. تمام مقادیر بین دو مقدار را هم می پذیرند(مانند وزن)

پارامترهای آماری ای که برای خلاصه کردن داده ها مورد نیاز است شامل موارد زیر است:

  • فراوانی

  • میانگین میانه

  • مد

  • ماکزیمم داده ها

  • مینیمم داده ها

  • دامنه یابرد داده ها

  • واریانس

  • انحراف معیار

  • میانگین انحرافات

خبر خوب

همراهی شما عزیزان با مجموعه مقالات داده کاوی یکی از انگیزه های انتشار مطالب بیشتر در این مورد بوده است،‌خبر خوب این است که با توسعه ی این مفاهیم شما در آینده ای نزدیک خواهید توانست یک پروژه ی بیوانفورماتیکی با قابلیت تبدیل شدن به مقاله و در بهترین حالت آن تبدیل شدن به یک محصول را خواهید داشت که افتخار ما در مرکز آموزش بیوانفورماتیک نصر همراهی با شما در این مسیر است.

مرکز آموزش بیوانفورماتیک نصر

error: Content is protected !!
X