یافتن مشاهدات پرت

تحقیق در مورد یافتن مشاهدات پرت 24 ص

فرمت فایل word و قابل ویرایش و پرینت

تعداد صفحات: 28

یافتن مشاهدات پرت:

مشاهدات پرت تحلیل های آماری را مشکل می سازند. هنگام تحلیل داده ها، گاهی اوقات مقادیری دور از بقیه داده ها پیدا می کنید چنین مقادیری مشاهدات پرت نامیده می شود.

هنگامی که شما با یک مشاهده پرت روبه رو می شوید ممکن است وسوسه شوید که آن را حذف کنید. در ابتدا از خود این سوال ها را بپرسید:

آیا این مقدار را به طور صحیح وارد کامپیوتر شده؟ اگر خطایی در وارد کردن داده ها دارد آن را تصحیح کنید.

آیا در رابطه با این مقدار خطای آزمایشی وجود دارد؟

آیا آن مشاهده از یک تنوع زیستی سبب شده است؟ اگر هر مقدار، از یک شخص مختلف بیاید آن مشاهده ممکن است یک مقدار صحیح باشد و علت آن مشاهده علت فردی است که با دیگران تفاوت دارد.

بعد از پاسخ منفی به این سوال ها، شما باید تصمیم بگیرید که با این مشاهدات چه کار کنید؟

که 2 احتمال وجود دارد:

یک امکان این است که آن مشاهده پرت از شانس ناشی شود در این مورد شما باید آن مقدار را در تحلیل نگه دارید که آن مقدار از جامعه ای می آید که دیگر مقادیر آمده اند بنابراین باید محاسبه شود.

امکان دیگر آن است که مشاهده پرت از یک خطا ناشی شود (مانند صفره یا سوراخی در فیلتر). وقتی یک مقدار نادرست در تحلیل وارد شود نتیجه بی اعتبار خواهد بود و آن مقدار از جامعه متفاوت از بقیه می آید که گمراه کننده است و باید از داده ها حذف شود.

مسأله این است که شما هرگز مطمئن نیستید که کدام از این امکان ها درست است.

به طور آشکار هیچ محاسبات ریاضی به شما نخواهد گفت که آن مشاهده پرت از جامعه همانند یا مختلف از بقیه داده ها می آید اما محاسبات آماری می تواند به این سوال پاسخ دهد. اگر مقادیر واقعاً همه نمونه گرفته شده از یک توزیع باشند شانسی که یک مقدار دور از بقیه داده ها باشد چیست؟ اگر این احتمال کوچک باشد شما نتیجه گیری خواهید کرد که با احتمال زیاد مشاهده پرت یک مقدار نادرست است و شما برای حذف آن توجیه و دلیل دارد.

آمار شناسان چندین روش را برای شناسایی نقاط پرت تدبیر کرده اند. همه روشها در ابتدا معلوم می کنند که این شاهدات پرت چقدر از بقیه نقاط دور هستند. این با محاسبه اختلاف بین مشاهده پرت و میانگین مقادیر باقی مانده و سپس تقسیم بر انحراف معیار که استاندارد کردن آن است بدست می آید.

سپس مقدار p-value را برای این سوال مقایسه می کنیم. که اگر مقدار p- value کوچک باشد شما نتیجه می گیرد که انحراف مشاهده پرت از بقیه نقاط معنی دار است.

پس وقتی در منابع مشاهدات پرت جستجو می کنیم در ابتدا باید بررسی کنیم که در ثبت و وارد کردن داده ها خطایی نباشد. برای کاهش رخداد در خطای ثبت داده ها از برنامه ای استفاده کنید که امکان اجرای محاسبات روی چندین ستون اعداد را برقرار کند مانند EXCEL و SAS نیز مخصوصاً ابزار خوبی برای این هدف است و دلیل دیگر برای مشاهدات پرت حادثه هایی هستند که به ندرت رخ می دهند مانند یک روز 70 درجه در ژانویه در OREGON

چرا مشاهدات پرت مسأله و مشکل هستند؟

روشهای در حال توسعه بر جستجوی مشاهدات پرت و فهمیدن این که

لینک دانلود ...