آمار توصیفی
هنگامی که تودهای از اطلاعات کمی برای تحقیق گرد آوری میشود، ابتدا سازمان بندی و خلاصه کردن آنها به طریقی که به صورت معنی داری قابل درک و ارتباط باشند، ضروری است. روشهای آمار توصیفی (Descriptive Statistics) به همین منظور بکار برده میشوند. غالبا مفیدترین و در عین حال اولین قدم در سازمان دادهها مرتب کردن دادهها بر اساس یک ملاک منطقی است و سپس استخراج شاخصهای مرکزی و پراکندگی و در صورت لزوم محاسبه همبستگی میان دو دسته اطلاعات و استفاده از تحلیلهای پیشرفته تر نظیر رگراسیون (Regression) و پیش بینی (Prediction) میباشد .
در یک جمعبندی با استفاده مناسب از روشهای آمار توصیفی میتوان دقیقا ویژگیهای یک دسته از اطلاعات را بیان کرد. آمار توصیفی همیشه برای تعیین و بیان ویژگیهای اطلاعات پژوهشها بکار برده میشوند.
روشهای آمار توصیفی
تشکیل جدول توزیع فراوانی
توزیع فراوانی عبارت است از سازمان دادن دادهها یا مشاهدات به صورت طبقات همراه با فراوانی هر طبقه. برای تشکیل یک جدول توزیع فراوانی باید دامنه تغییرات ، تعداد طبقات و حجم طبقات توسط فرمولهای مربوطه محاسبه شده و سپس اقدام به نوشتن جدول توزیع در دو ستون X (ستون طبقات) و F (فراوانی طبقات) شود. پس از این مرحله در صورت تمایل یا لزوم پژوهشگر میتواند شاخصهای دیگری نظیر فراوانی تراکمی ، فراوانی تراکمی درصدی را محاسبه نماید. تشکیل جدول توزیع فراوانی یک روش اقتصادی و در عین حال آسان برای نمایش انبوهی از دادههای نامنظم است. اما در طبقه بندی کردن ، برخی از اطلاعات به علت خطای گروه بندی از دست میروند که در محاسبه شاخصهای آماری نیز منعکس میشود. ولی مقدار آن ناچیز بوده و اشکال عمدهای ایفا نمیکند.
ترسیم نمودار
یکی از نقاط ضعف نمایش دادهها به صورت جدول فراوانی عدم درک سریع اطلاعات جدول است. نمودارها ابزار مناسبی برای نمایش تصویری اطلاعات هستند. انواع مختلفی از نمودار وجود دارد که از جمله میتوان به نمودار هیستوگرام ، نمودار ستونی ، نمودار چند ضلعی تراکمی ، نمودار دایرهای ، نمودار سریهای زمانی و …اشاره کرد.
محاسبه شاخصهای مرکزی
در محاسبات آماری لازم است که ویژگیها و موقعیت کلی دادهها تعیین شود. برای این منظور شاخصهای مرکزی محاسبه میشوند. شاخصهای مرکزی در سه نوع نما (Mode) ، میانه (Median) و میانگین (Mean) هستند که هر یک کاربرد خاص خود را دارا میباشند. در تحقیقاتی که مقیاس اندازه گیری دادهها حداقل فاصلهای است میانگین بهترین شاخص است. ولی در تحقیقاتی که مقیاس اندازه گیری دادهها رتبهای یا اسمی است، میانه یا نما مورد استفاده قرار میگیرند.
محاسبه شاخصهای پراکندگی
شاخصهای پراکندگی برخلاف شاخصهای مرکزی هستند. آنها میزان پراکندگی یا تغییراتی را که در بین دادههای یک توزیع (نتایج تحقیق) وجود دارد، نشان میدهند. دامنه تغییرات ، انحراف چارکی (Quartile Deviation) ، واریانس (Variance) و انحراف استاندارد (Standard Deviation) شاخصهایی هستند که به همین منظور در تحقیقات مورد استفاده قرار میگیرند. پس از محاسبه شاخصهای مرکزی و پراکندگی میتوان نمرههای استاندارد را محاسبه و منحنی طبیعی (Z) را ترسیم کرد.
محاسبه همبستگی
تحقیقاتی وجود دارد که پژوهشگر میخواهد رابطه بین دو متغیر را تعیین کند و به همین منظور از روشهای همبستگی (Correlation) استفاده میکند. در محاسبه همبستگی ، نوع مقیاس اندازه گیری دخالت دارد و بطور کلی به دو دسته پارامتری و ناپارامتری تقسیم میشوند.
• محاسبه همبستگی برای تحقیقات پارامتری : چنانچه دو متغیر در مقیاسهای فاصله یا نسبی اندازه گیری شده باشند، میتوان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. ولی اگر در تمام مفروضات ضریب همبستگی پیرسون صادق نباشد، نمیتوان از آنها استفاده کرد و به جای آن میتوان از روشهای دیگری مانند ضریب همبستگی دو رشتهای ( ) ، دورشتهای ( ) و یا ضریب تتراکوریک ( ) استفاده کرد.
• محاسبه همبستگی برای تحقیقات ناپارامتری : در تحقیقاتی که در سطح مقیاسهای اسمی و رتبهای انجام میگیرد، باید از روشهای دیگری برای محاسبه همبستگی بین دو متغیر استفاده کرد. برخی از این روشها عبارتند از : ضریب همبستگی فی (φ) ضریب کریمر (C) ، ضریب کپا (K) و ضریب لامبدا ، در تحقیقات اسمی و ضریب همبستگی اسپرمن ( ) ، ضریب کندال و آماده گاما (G) برای تحقیقات ترتیبی
رگراسیون و پیش بینی
رگراسیون (Regression) روشی برای مطالعه سهم یک یا چند متغیر مستقل در پیش بینی متغیر وابسته است. از تحلیل رگراسیون هم در تحقیقات توصیفی (غیر آزمایشی) و هم در تحقیقات آزمایشی میتوان استفاده کرد. با توجه به نوع تحقیق و متغیرهای آن روش متنوعی برای تحلیل رگراسیون وجود دارد که برخی از آنها عبارتند از : رگراسیون خطی (با سه راهبرد همزمان ، گام به گام ، سلسله مراتبی) ، رگراسیون انحنایی ، رگراسیون لوجیستیک و تحلیل کواریانس.
تحلیل دادههای ماتریس کواریانس
از جمله تحلیلهای همبستگی ، تحلیل ماتریس کواریانس یا ماتریس همبستگی است. دو نوع از معروفترین این تحلیلها عبارتند از : مدل تحلیل عاملی برای پی بردن به متغیرهای زیر بنایی یک پدیده در دو دسته اکتشافی و تاییدی و مدل معادلات ساختاری برای بررسی روابط علی بین متغیرها.
آمار استنباطی
آمار استنباطی به شیوههایی اطلاق میشود که از طریق آنها ویژگیهای گروههای بزرگ بر اساس اندازه گیری همان ویژگیها و گروههای کوچک استنباط میشود.
دیدکلی
• چه روش آموزشی برای گروه سنی از دانش آموزان مناسب است؟
• توزیع بهره هوشی در یک جامعه چگونه است؟
در پژوهشهای روان شناسی و سایر علوم رفتاری کسب اطلاعات در باره گروههای کوچک غالبا هدف پژوهشگر نیست، بلکه او علاقمند است که از طریق یافتههای این گروه کوچک ، اطلاعات لازم را در باره جامعهای که این گروه کوچک را از آن انتخاب کرده است، کسب کند. به عبارت دیگر در این پژوهشها هدف پژوهشگر تعمیم نتایج بدست آمده از یک گروه کوچک به یک جامعه بزرگتر میباشد. این تعمیم مستلزم آن است که پژوهشگر از روشهای آماری پیشرفته تری تحت عنوان آمار استنباطی (Inferential Statistics) استفاده نماید.
روش آمار استنباطی
برآورد
روشهای آمار استنباطی به منظور برآورد پارامترهای جامعه (میانگین جامعه) از طریق نمونه گیری علمی از جامعه مورد نظر بکار میرود. برای مثال اگر از جامعهای نمونه انتخاب کنیم و میانگین این نمونه را به منظور برآورد میانگین جامعه محاسبه کنیم، در واقع یک برآورد یا پیش بینی در باره میانگین جامعه از طریق نمونه انتخابی انجام دادهایم. آمار برآوردی دارای ارزش است که بدون سوگیری (Unbiased) ، با ثبات (Consistent) ، کارا (Efficient) و مکفی (Sufficent) باشد.
آزمون فرض
فرضیه آماری نقطه آغاز آزمون فرض است. فرضیه آماری یک بیان مقداری در باره پارامترهای جامعه است و اصولا بدون داشتن فرضیه آماری امکان انجام یک آزمون دشوار است. فرضیه آماری به دو دسته فرض صفر (H0) و فرض خلاف (HA) بیان میشود.
آزمونهای آمار استنباطی
آزمونهای آماری مورد استفاده جهت تجزیه و تحلیل اطلاعات بدست آمده از یک گروه کوچک (نمونه) و تعمیم آن به جامعه مورد نظر با توجه به مقیاس اندازه گیری متغیرها به دو گروه پارامتری و ناپارامتری تقسیم میشوند. آزمونهای پارامتری به تجزیه و تحلیل اطلاعات در سطح مقیاس فاصلهای و نسبی میپردازند که حداقل شاخص آماری آنها میانگین (Mean) و واریانس (Variance) است. در حالیکه آزمونهای نا پارامتری به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی و رتبهای میپردازند که شاخص آماری آنها میانه (Median) و نما (Mode) است.
آزمونهای پارامتری آمار استنباطی
آزمون t
آزمون t ، توزیع یا در حقیقت خانوادهای از توزیعها است که با استفاده از آنها فرضیههایی را در باره نمونه در شرایط جامعه ناشناخته است، آزمون میکنیم. اهمیت این آزمون (توزیع) در آن است که پژوهشگر را قادر میسازد با نمونههای کوچکتر (حداقل 2 نفر) اطلاعاتی در باره جامعه بدست آورد. آزمون t شامل خانوادهای از توزیعها است (برخلاف آزمون z) و اینگونه فرض میکند، که هر نمونهای دارای توزیع مخصوص به خود است، که شکل این توزیع از طریق محاسبه درجات آزادی (Degrees of Freedom) مشخص میشود. به عبارت دیگر توزیع t تابع درجات آزادی است و هر چه درجات آزادی (d.F) افزایش پیدا کند به توزیع طبیعی نزدیکتر میشود. هرچه درجات آزادی کاهش یابد، پراکندگی بیشتر میشود. خود درجات آزادی نیز تابعی از اندازه نمونه انتخابی هستند. هر چه تعداد نمونه بیشتر باشد بهتر است. از آزمون t میتوان برای تجزیه و تحلیل میانگین در پژوهشهای تک متغیری یک گروهی و دو گروهی و چند متغیری دو گروهی استفاده کرد.
آزمون تحلیل واریانس
مواقعی که پژوهشگری بخواهد بیش از دو میانگین (بیش از دو نمونه) را مقایسه کند، باید از تحلیل واریانس استفاده کند. تحلیل واریانس یک روش فراگیرنده تر از آزمون t است و برخی پژوهشگران حتی وقتی مقایسه میانگینهای دو نمونه مورد نظر است از این روش استفاه میکنند. طرحهای متنوعی برای تحلیل واریانس وجود دارد و هر یک تحلیل آماری خاص خودش را طلب میکند. از جمله این طرحها میتوان به تحلیل یک عاملی واریانس (تحلیل یک طرفه) و تحلیل عاملی متقاطع واریانس ، تحلیل واریانس چند متغیری ، تحلیل کوواریانس یک متغیری و چند متغیری و …. اشاره کرد.
آزمونهای ناپارامتری آمار استنباطی
در پژوهشهایی که در سطح مقیاسهای اسمی و رتبهای اجرا میشوند، باید از آزمونهای ناپارامتریک برای تجزیه و تحلیل اطلاعات استفاده شود. آزمونهای زیادی برای این امر وجود دارد که براساس نوع تحلیل (نیکویی برازش ، همسویی دو نمونه مستقل ، همسویی دو نمونه وابسته ، همسویی K نمونه مستقل و همسویی K نمونه وابسته) و مقیاس اندازه گیری میتوان دست به انتخاب زد. از آزمونهای مورد استفاده برای پژوهشها در سطح اسمی میتوان به آزمون X2 ، آزمون تغییر مک نمار ، آزمون دقیق فیشر و آزمون کاکرن اشاره کرد. از آزمونهای مورد استفاده برای پژوهشها در سطح رتبهای میتوان به دو آزمون کولموگروف - اسمیرونف ، آزمون تقارن توزیع ، آزمون علامت ، آزمون میانه ، آزمون uمان – ویتنی ، آزمون تحلیل واریانس دو عاملی فریدمن و … اشاره کرد.
آمار استنباطی:
در آمار مقدماتی خواندیم که آمار علم جمع آوری داده ها – توصیف داده ها (با استفاده از جدول فراوانی – نمودار و مشخص کننده های عددی) و نیز رابطه بین متغیی هایی که از جامعه آماری بدست آمده است . و استنباط از داده های نمونه برای بدست آوردن اطلات مربوط به جامعه آماری (برآورد- آزمون های آماری و پیش بینی ) می با شد پس بر این اساس می توان آمار را به دو دسته آمار توصیفی و آمار استنباطی تقسیم کرد.
در زمانی که تعداد جامعه آماری زیاد باشد و ما می توانیم بخاطر کمبود وقت و کمبود هزینه تمامی جامعه آماری را مطالعه کنیم از جامعه آماری خود نمونه گیری می کنیم و از اطلاعات مربوط به نمونه آماری خود اطلاعات جامعه آماری را استنباط و یا بر آورد می کنیم.
مثلا:
در زمانی که ما یک گونی برنج داریم می خواهیم بدانیم که آیا این برنج ها پخت خوبی دارند یا نه بهترین کار این است که نمونه ای را انتخاب کنیم و بپزیم و بعد نظر خود را با استفاده از اطلاعات نمونه آماری تعمیم دهیم.که می توان این مفهوم را از این ضربالمثال نیز استنباط
کرد : مشت نمونه خر بار است.
پس همانطور که می توان فهمید بهترین راه برای نمونه گیری این است که تمامی جامعه آماری شانس برای انتخاب شدن را داشته باشد که براساس نمونه گیری به دو طبقه نمونه گیری تصادفی ونمونه گیری غیر تصادفی تقسیم می شود.
منظور از نمونه گیری تصادفی این است که همه افراد شانس برابر برای انتخاب شدن را داشته باشند و منظور از غیر تصادفی آن است که محقق افراد در دسترس خود را به صورت غیر شانسی انتخاب می کند.
نمونه گیری تصادفی خود به سه دسته : ساده ، طبقه ای ، خوشه ای تقسیم می شود.
علت متفاوت بودن نمونه گیری تصادفی به پخش شدن متفاوت جامعه آماری برمی گردد.زمانی که جامعه آماری ما بصورت ساده مثلاً دانشجویان یک کلاس باشد برای نمونه گیری از روش نمونه گیری تصادفی ساده است که خود بر دو نوع است. استفاده از روش سیستمیاتیک و استفاده از جدول اعداد تصادفی
عددی را بدست می آوریم و بعد با استفاده از این عدد بصورت فاصله ای نمونه را انتخاب می کنیم مثلاً می خواهیم از بین 10 نفر 5 نفر را انتخاب نمائیم. که ابتدا بصورت زیر عددی را بدست می آوریم و دو به دو انتخاب می کنیم.
و در مواقعی که جامعه ما در طبقه هایی قرار گرفته است. ( مثلاً: دانشجویان در رشته های متفاوت و ورودی های متفاوت پخش شده اند.) از نمونه گیری طبقه ای استفاده می کنیم. و در مواقعی که جامعه آماری ما بصورت گسترده پخش شوند.( مثلاً: دانش آموزان یک استان)
ابتدا جامعه آماری را به دلایلی محدود می کنیم و با محدود کردن خود آنرا به جامعه طبقه ای تبدیل می کنیم ودر مرحله بعد با استفاده از نمونه گیری تصادفی از طبقه ها نمونه گیری می کنیم.
در آمار استنباطی چون زمانی که ما از اطلاعات نمونه آماری اطلاعات جامعه آماری را برآورد می کنیم این برآوردها صددرصد واقعی نخواهد بود و حتماً یک خطایی خواهیم داشت( خطای قابل قبول یک درصد و 5 درصد است) به خاطر این برای درک بهتر آمار استنباطی باید قبل از شروع به این مبحث اطلاعاتی راجع به احتمالات را یاد گرفت
تحلیل واریانس
برای تحلیل واریانس تصمیم گیری دربارهی این امر را مورد توجه قرار میدهیم که آیا تفاوتهای مشاهده شده بین بیش از دو میانگین نمونهای را میتوان معلول تصادف دانست و یا اینکه بین میانگینهای جامعههای مورد نمونهگیری تفاوتهای واقعی وجود دارند. مثلا ممکن است بخواهیم بر مبنای دادههای نمونهای تصمیم بگیریم که آیا واقعا تفاوتی بین میزان مؤثر بودن سه روش تدوین یک زبان خارجی موجود است یا خیر. یا بخواهیم میزان متوسط محصول در هر جریب برای شش نوع مختلف گندم را مقایسه کنیم. چون اختلافهایی که مشاهده میشوند میتوانند همواره معلول عواملی بجز عوامل مشخصی باشند- مثلا اختلاف در وضع یادگیری دانشآموزانی که تحت آموزش سه روش مختلف هستند میتواند ناشی از اختلاف هوش آنها باشد- ما برخی سوالات مربوط به طرح آزمایشها را نیز مورد بحث قرار میدهیم تا با درجه اطمینان معقولی ، نتایج معنیدار آماری را بتوان به علل مشخصی نسبت داد.
تعریف واریانس
از امید ریاضی میدانیم که گشتاور ام حول میانگین متغیرتصادفی ، که آن را با نشان میدهیم، مقدار امید است؛ بدین ترتیب را واریانس توزیع یا صرفا واریانس مینامند و آن را با ، یا
نشان میدهند. ، ریشه دوم مثبت واریانس را انحراف معیار مینامند. با توجه بشکل مشخص است که چگونه واریانس ، منعکسکننده پراکندگی توزیع متغیر تصادفی است. همانطور که دیده میشود، یک مقدار کوچک این نکته را القا میکند که بدست آوردن مقداری نزدیک میانگین محتملتر است، و یک مقدار بزرگ ، این نکته را القا میکند که بدستآوردن مقداری که نزدیک میانگین نیست احتمال زیادی دارد. بطور کلی نتیجهای که میتوان گرفت این است که هر چه واریانس کم باشد پراکندگی اطراف میانگین کم است.
نکته
اضافهکردن مقداری ثابت به متغیر تصادفی که نتیجه آن انتقال تمام مقادیر به چپ یا به راست است، به هیچ وجه اثری بر پراکندگی توزیع آن ندارد. همینطور اگر متغیر تصادفی را در ثابتی ضرب کنیم. واریانس در مربع آن ثابت ضرب میشود که موجب تغییر متناظری در پراکندگی توزیع میشود. بطور کلی قضیه زیر را میآوریم:
قضیه
اگر واریانس برابر باشد، آنگاه .
تحلیل واریانس یک طرفه
در حالت کلی در چنین مسائلی ، نمونه تصادفی مستقل به اندازه از جامعه داریم و مقدار ام با نشان داده میشود و فرض خواهیم کرد که متغیرهای تصادفی متناظر یعنی ها ، که همه مستقلاند دارای توزیعهای نرمال با میانگینهای مربوط ، و واریانس مشترک باشند. با بیان این فرضها بگونهای نسبتا متفاوت ، میتوانیم بگوئیم که مدل مشاهدات با عبارت به ازای
داده میشود که در آن ها مقادیر متغیر تصادفی نرمال با میانگینهای صفر و واریانس مشترک هستند. برای آنکه امکان تعمیم این مدل به انواع وضعیتهای پیچیدهتر موجود باشد معمولا آن را با می نویسند در اینجا به میانگین کل اطلاق میشود و ها که اثرهای تیماری ، نامیده میشوند، چناناند که .
چون به ازای هر ، ها مقادیر نمونهای تصادفی به اندازه از جامعه نرمالی با واریانس است، نتیجه میشود که به ازای هر i .
یک متغیر تصادفی خیدو با درجه آزادی است. به علاوه چون این متغیر تصادفی مستقلاند نتیجه میشود که یک متغیرتصادفی خیدو با درجه آزادی است. چون میانگین توزیع خیدو دو برابر درجه آزادی آن است، نتیجه میگیریم که عبارت بالا مقدار یک متغیر تصادفی با میانگین است. بنابراین سیگماهای فوق تقسیم بر را میتوان بعنوان برآورد بکار برد. این کمیت را میانگین مربعات خطا نامیده و با MSE نشان میدهند.
تحلیل واریانس دو طرفه
اساسا دوره مختلف در تحلیل آزمایشهای دو متغیره وجود دارد و راهها بستگی به این دارند که آیا متغیرها مستقلاند یا تأثیر متقابل دارند. برای آنکه منظور خود را از "تأثیر متقابل" روشن کنیم فرض میکنیم که یک سازنده لاستیک اتومبیل آجهای مختلف را آزمایش میکند و به این نتیجه میرسد که یک نوع آنها مناسب جاده خاکی و نوع دیگر مناسب جاده آسفالته است. اگر چنین باشد، گوئیم که بین شرایط جاده و طرح آن آج تاثیر متقابل وجود دارد. در اینگونه مسائل برای بررسی اینکه آیا اختلاف بین میانگینها برای مسیرهای مختلف معنیدار هستند یا نه با تحلیل واریانس دو طرفه سر و کار خواهیم داشت.
کاربردها
تحلیل واریانسها در صنعت ، مهندسی کشاورزی ، اقتصاد - علوم انسانی و اجتماعی از اهمیت خاصی برخوردار است. برای مثال در مورد کشاورزی به ذکر یک مثال میپردازیم: فرض کنید میخواهیم 25 نوع گندم و در همان حال تاثیر 12 کود مختلف را با هم مقایسه کنیم. برای انجام آزمایشی که در آن هر یک از 25 نوع گندم در ارتباط با هر یک از 12 کود بکار میروند باید 300 قطعه زمین را بکاریم و میتوان به آسانی تصور کرد که یافتن این همه قطعه زمین که برای آنها ترکیب خاک ، آبیاری ، شیب و ... ثابت یا قابل کنترل باشد تا چه اندازه مشکل است. در نتیجه به طرحهایی نیازمندیم که درباره پارامترهای مربوط به مدل آزمون کردن فرضهایی را بر مبنای آزمایشهایی که از نقطه نظر عملی قابل انجاماند، مقدور سازند.
میانگین گیری
شاید مهمترین نکته در مطالعه توزیع یک نمونه از اندازهها ، تعیین یک مقدار مرکزی باشد، یعنی ، یک مقدار نماینده که اندازهها در اطراف آن توزیع شدهاند. هر معیار عددی را که معرف مرکز مجموعه دادهها باشد، معیار گرایش به مرکز مینامند. دو تا از متداولترین معیارهای گرایش به مرکز عبارتند از : میانگین و میانه.
تعریف میانگین
میانگین یا متوسط نمونه ای مرکب از n اندازه x1، x2 ، ... ، xn ، عبارت است از خارج قسمت مجموع این اندازه ها بر n، میانگین را با نشان می دهند که در عملیات، به صورت زیر نوشته می شود:
x´ = ∑ xi/n (به ازای i=0 تا n)
همان طوریکه از مفهوم "متوسط" بر میآید، میانگین ، مرکز مجموعه دادهها را نمایش میدهد. اگر نمودار نقطهای مجموعه دادهها را این طور تجسم کنیم که روی میلاه افقی نازکی ، گویهای هم اندازهای در محل دادهها قرار دارند، آنگاه ، میانگین نشان دهنده نقطهای است که این میله در آن نقطه به حال تعادل در میآید.
تعریف میانه نمونهای
میانه نمونهای مرکب از n اندازه x1، x2 ، ... ، xn ، عبارت است از اندازه وسطی ، در صورتی که اندازهها را به ترتیب از کوچکترین به بزرگترین مقدار مرتب کرده باشیم. اگر n فردی باشد، یک مقدار وسطی منحصر به فرد وجود دارد که میانه است. اگر n زوج باشد در مقدار وسطی وجود دارند که متوسط آنها به عنوان میانه تعریف میشود. اجمالا میتوان گفت که ، میانه مقداری است که دسته دادهها را به دو نیمه مساوی تقسیم میکند. به عبارت دیگر ، 50% دادهها در زیر میانه و 50% در بالای میانه قرار میگیرند.
موارد استفاده از میانه و میانگین
وجود معدودی مشاهده خیلی برزرگ یا خیلی کوچک ، در میانه تاثیر ندارد، در حالی که وجود اینگونه مقادیر فرین در میانگین اثر قابل ملاحظهای دارد. به نظر میرسد برای توزیعهایی که خیلی نامتقارن هستند، میانه معیار معقولتری از گرایش به مرکز است تا میانگین. به این دلیل در گزارشهای دولتی راجع به توزیع درآمد، به جای میانگین ، میانه درآمدها را ذکر میکنند. وقتی توزیع خیلی نامتقارن نیست، میانگین به میانه ترجیح داده میشود و خیلی بیشتر از میانه بکار میرود، زیرا در روشهای استنباطی ، میانگین از لحاظ نظری دارای امتیازاتی است که میانه فاقد آنهاست.
مفهوم چارک و صدک
اگر تعداد مشاهدات خیلی زیاد باشد (مثلا بیشتر از 25 یا 30) ، گاهی مفید است که مفهوم میانه را تعمیم دهیم و مجموعه دادههای مرتب شده را به چهار قسمت تقسیم کنیم. درست همان طور که نقطه تقسیم دادهها به دو نیمه ، میانه خوانده شده نقاط تقسیم دادهها ، به چهار قسمت را چارک مینامند. بنابراین به جای این که بحث را محدود به تقسیم چهار قسمتی کنیم، دادهها را به قسمتهای زیادتری تقسیم ، و صدک را تعریف میکنیم.
صدک
صدک (100P) ام نمونه، مقداری است که وقتی داده ها از کوچکتذرین تا بزرگترین مقدار مرتب شدند، حداقل 100P% از مشاهدات منطبق بر این مقدار یا در سمت چپ (زیر) آن و حداقل 100P% از مشاهدات منطبق بر این مقدار یا در سمت راست (بالای) آن باشند.
چارکهای نمونه
• چارک (اول) کوچکتر صدک 25 ام = Q1
• چارک (دوم) میانه صدک 50 ام = Q2
• چارک (سوم) بالایی صدک 75 ام = Q3
فرمول میانگین
فرمول اول میانگین، دومی واریانس و سومی انحراف معیار n تا متغیر تصادفی است:
میانگین
• همانطور که میدانیم، میانگین چند عدد که معمولاً معدل نیز نامیده میشود برابر مجموع اعداد بخش بر تعداد آنها به عبارت دیگر، میانگین از رابطه زیر محاسبه میشود؛
• که در این رابطه x میانگین، مجموع دادهها و N تعداد دادهها است
خواص میانگین
• همیشه حاصلضرب میانگین دادهها در تعداد آنها، مساوی جمع کل دادهها میباشد.
• اگر عدد ثابتی را به تمام دادهها اضافه کنیم یا از آنها کم کنیم، به همان نسبت به میانگین اضافه و یا از آن کم میشود.
• اگر عدد ثابتی را در تمام دادهها ضرب کنیم یا تمام دادهها را بر آن تقسیم کنیم، میانگین نیز در آن عدد ثابت ضرب یا بر آن تقسیم میشود.
• مجموع اختلاف دادهها از میانگین همیشه برابر صفر است
• اگر فاصله یک سری اعداد از همدیگر برابر باشد میانگین برابر معدل بزرگترین عدد و کوچکترین عدد خواهد بود.
میانگین اعداد طبقه بندی شده
• میانگین در اعداد طبقهبندی شده با فاصله یک از رابطه زیر بدست میآید :
• که در این رابطه x میانگین، مجموع حاصلضرب دادهها در فراوانی آنها بوده و N تعداد دادهها است.
• در اعداد طبقهبندی شده با فاصله بیشتر از یک میانگین از رابطه زیر بدست میآید؛
• که در این رابطه x میانگین، مجموع حاصلضرب نقطه میانی طبقهها در فراوانی آنها بوده و N تعداد دادهها است
اگر چند گروه جداگانه داشته باشیم که هر کدام دارای میانگین و تعداد مشخص باشند، میانگین کل آنها بصورت زیر محاسبه میشود؛
• در حالت خاصی که تعداد (N) گروهها یکسان باشد برای محاسبه میانگین کل آنها از رابطه زیر استفاده میشود؛
• که در این رابطه x میانگین کل و n تعداد گروهها میباشد.
۱۳۸۷ تیر ۹, یکشنبه
اشتراک در:
نظرات پیام (Atom)
هیچ نظری موجود نیست:
ارسال یک نظر