۱۳۸۷ تیر ۹, یکشنبه

آمار توصیفی واستنباطی

آمار توصیفی
هنگامی که توده‌ای از اطلاعات کمی ‌برای تحقیق گرد آوری می‌شود، ابتدا سازمان بندی و خلاصه کردن آنها به طریقی که به صورت معنی داری قابل درک و ارتباط باشند، ضروری است. روشهای آمار توصیفی (Descriptive Statistics) به همین منظور بکار برده می‌شوند. غالبا مفیدترین و در عین حال اولین قدم در سازمان داده‌ها مرتب کردن داده‌ها بر اساس یک ملاک منطقی است و سپس استخراج شاخص‌های مرکزی و پراکندگی و در صورت لزوم محاسبه همبستگی میان دو دسته اطلاعات و استفاده از تحلیل‌های پیشرفته تر نظیر رگراسیون (Regression) و پیش بینی (Prediction) می‌باشد .

در یک جمعبندی با استفاده مناسب از روشهای آمار توصیفی می‌توان دقیقا ویژگیهای یک دسته از اطلاعات را بیان کرد. آمار توصیفی همیشه برای تعیین و بیان ویژگیهای اطلاعات پژوهش‌ها بکار برده می‌شوند.
روشهای آمار توصیفی
تشکیل جدول توزیع فراوانی
توزیع فراوانی عبارت است از سازمان دادن داده‌ها یا مشاهدات به صورت طبقات همراه با فراوانی هر طبقه. برای تشکیل یک جدول توزیع فراوانی باید دامنه تغییرات ، تعداد طبقات و حجم طبقات توسط فرمولهای مربوطه محاسبه شده و سپس اقدام به نوشتن جدول توزیع در دو ستون X (ستون طبقات) و F (فراوانی طبقات) شود. پس از این مرحله در صورت تمایل یا لزوم پژوهشگر می‌تواند شاخص‌های دیگری نظیر فراوانی تراکمی‌ ، فراوانی تراکمی‌ درصدی را محاسبه نماید. تشکیل جدول توزیع فراوانی یک روش اقتصادی و در عین حال آسان برای نمایش انبوهی از داده‌های نامنظم است. اما در طبقه بندی کردن ، برخی از اطلاعات به علت خطای گروه بندی از دست می‌روند که در محاسبه شاخصهای آماری نیز منعکس می‌شود. ولی مقدار آن ناچیز بوده و اشکال عمده‌ای ایفا نمی‌کند.
ترسیم نمودار
یکی از نقاط ضعف نمایش داده‌ها به صورت جدول فراوانی عدم درک سریع اطلاعات جدول است. نمودارها ابزار مناسبی برای نمایش تصویری اطلاعات هستند. انواع مختلفی از نمودار وجود دارد که از جمله می‌توان به نمودار هیستوگرام ، نمودار ستونی ، نمودار چند ضلعی تراکمی ‌، نمودار دایره‌ای ، نمودار سریهای زمانی و …اشاره کرد.

محاسبه شاخصهای مرکزی
در محاسبات آماری لازم است که ویژگیها و موقعیت کلی داده‌ها تعیین شود. برای این منظور شاخصهای مرکزی محاسبه می‌شوند. شاخصهای مرکزی در سه نوع نما (Mode) ، میانه (Median) و میانگین (Mean) هستند که هر یک کاربرد خاص خود را دارا می‌باشند. در تحقیقاتی که مقیاس اندازه گیری داده‌ها حداقل فاصله‌ای است میانگین بهترین شاخص است. ولی در تحقیقاتی که مقیاس اندازه گیری داده‌ها رتبه‌ای یا اسمی‌ است، میانه یا نما مورد استفاده قرار می‌گیرند.
محاسبه شاخصهای پراکندگی
شاخصهای پراکندگی برخلاف شاخصهای مرکزی هستند. آنها میزان پراکندگی یا تغییراتی را که در بین داده‌های یک توزیع (نتایج تحقیق) وجود دارد، نشان می‌دهند. دامنه تغییرات ، انحراف چارکی (Quartile Deviation) ، واریانس (Variance) و انحراف استاندارد (Standard Deviation) شاخصهایی هستند که به همین منظور در تحقیقات مورد استفاده قرار می‌گیرند. پس از محاسبه شاخصهای مرکزی و پراکندگی می‌توان نمره‌های استاندارد را محاسبه و منحنی طبیعی (Z) را ترسیم کرد.
محاسبه همبستگی
تحقیقاتی وجود دارد که پژوهشگر می‌خواهد رابطه بین دو متغیر را تعیین کند و به همین منظور از روشهای همبستگی (Correlation) استفاده می‌کند. در محاسبه همبستگی ، نوع مقیاس اندازه گیری دخالت دارد و بطور کلی به دو دسته پارامتری و ناپارامتری تقسیم می‌شوند.
• محاسبه همبستگی برای تحقیقات پارامتری : چنانچه دو متغیر در مقیاسهای فاصله یا نسبی اندازه گیری شده باشند، می‌توان برای تعیین رابطه بین آنها از ضریب همبستگی گشتاوری پیرسون استفاده کرد. ولی اگر در تمام مفروضات ضریب همبستگی پیرسون صادق نباشد، نمی‌توان از آنها استفاده کرد و به جای آن می‌توان از روشهای دیگری مانند ضریب همبستگی دو رشته‌ای ( ) ، دورشته‌ای ( ) و یا ضریب تتراکوریک ( ) استفاده کرد.
• محاسبه همبستگی برای تحقیقات ناپارامتری : در تحقیقاتی که در سطح مقیاس‌های اسمی ‌و رتبه‌ای انجام می‌گیرد، باید از روش‌های دیگری برای محاسبه همبستگی بین دو متغیر استفاده کرد. برخی از این روشها عبارتند از : ضریب همبستگی فی (φ) ضریب کریمر (C) ، ضریب کپا (K) و ضریب لامبدا ، در تحقیقات اسمی ‌و ضریب همبستگی اسپرمن ( ) ، ضریب کندال و آماده گاما (G) برای تحقیقات ترتیبی


رگراسیون و پیش بینی
رگراسیون (Regression) روشی برای مطالعه سهم یک یا چند متغیر مستقل در پیش بینی متغیر وابسته است. از تحلیل رگراسیون هم در تحقیقات توصیفی (غیر آزمایشی) و هم در تحقیقات آزمایشی می‌توان استفاده کرد. با توجه به نوع تحقیق و متغیرهای آن روش متنوعی برای تحلیل رگراسیون وجود دارد که برخی از آنها عبارتند از : رگراسیون خطی (با سه راهبرد همزمان ، گام به گام ، سلسله مراتبی) ، رگراسیون انحنایی ، رگراسیون لوجیستیک و تحلیل کواریانس.
تحلیل داده‌های ماتریس کواریانس
از جمله تحلیل‌های همبستگی ، تحلیل ماتریس کواریانس یا ماتریس همبستگی است. دو نوع از معروفترین این تحلیل‌ها عبارتند از : مدل تحلیل عاملی برای پی بردن به متغیرهای زیر بنایی یک پدیده در دو دسته اکتشافی و تاییدی و مدل معادلات ساختاری برای بررسی روابط علی بین متغیرها.
آمار استنباطی
آمار استنباطی به شیوه‌هایی اطلاق می‌شود که از طریق آنها ویژگیهای گروههای بزرگ بر اساس اندازه گیری همان ویژگیها و گروههای کوچک استنباط می‌شود.
دیدکلی
• چه روش آموزشی برای گروه سنی از دانش آموزان مناسب است؟
• توزیع بهره هوشی در یک جامعه چگونه است؟
در پژوهش‌های روان شناسی و سایر علوم رفتاری کسب اطلاعات در باره گروههای کوچک غالبا هدف پژوهشگر نیست، بلکه او علاقمند است که از طریق یافته‌های این گروه کوچک ، اطلاعات لازم را در باره جامعه‌ای که این گروه کوچک را از آن انتخاب کرده است، کسب کند. به عبارت دیگر در این پژوهش‌ها هدف پژوهشگر تعمیم نتایج بدست آمده از یک گروه کوچک به یک جامعه بزرگتر می‌باشد. این تعمیم مستلزم آن است که پژوهشگر از روش‌های آماری پیشرفته تری تحت عنوان آمار استنباطی (Inferential Statistics) استفاده نماید.
روش آمار استنباطی
برآورد
روش‌های آمار استنباطی به منظور برآورد پارامترهای جامعه (میانگین جامعه) از طریق نمونه گیری علمی ‌از جامعه مورد نظر بکار می‌رود. برای مثال اگر از جامعه‌ای نمونه انتخاب ‌کنیم و میانگین این نمونه را به منظور برآورد میانگین جامعه محاسبه ‌کنیم، در واقع یک برآورد یا پیش بینی در باره میانگین جامعه از طریق نمونه انتخابی انجام داده‌ایم. آمار برآوردی دارای ارزش است که بدون سوگیری (Unbiased) ، با ثبات (Consistent) ، کارا (Efficient) و مکفی (Sufficent) باشد.

آزمون فرض
فرضیه آماری نقطه آغاز آزمون فرض است. فرضیه آماری یک بیان مقداری در باره پارامترهای جامعه است و اصولا بدون داشتن فرضیه آماری امکان انجام یک آزمون دشوار است. فرضیه آماری به دو دسته فرض صفر (H0) و فرض خلاف (HA) بیان می‌شود.
آزمون‌های آمار استنباطی
آزمون‌های آماری مورد استفاده جهت تجزیه و تحلیل اطلاعات بدست آمده از یک گروه کوچک (نمونه) و تعمیم آن به جامعه مورد نظر با توجه به مقیاس اندازه گیری متغیرها به دو گروه پارامتری و ناپارامتری تقسیم می‌شوند. آزمون‌های پارامتری به تجزیه و تحلیل اطلاعات در سطح مقیاس فاصله‌ای و نسبی می‌پردازند که حداقل شاخص آماری آنها میانگین (Mean) و واریانس (Variance) است. در حالیکه آزمون‌های نا پارامتری به تجزیه و تحلیل اطلاعات در سطح مقیاس اسمی ‌و رتبه‌ای می‌پردازند که شاخص آماری آنها میانه (Median) و نما (Mode) است.
آزمون‌های پارامتری آمار استنباطی
آزمون t
آزمون t ، توزیع یا در حقیقت خانواده‌ای از توزیعها است که با استفاده از آنها فرضیه‌هایی را در باره نمونه در شرایط جامعه ناشناخته است، آزمون می‌کنیم. اهمیت این آزمون (توزیع) در آن است که پژوهشگر را قادر می‌سازد با نمونه‌های کوچکتر (حداقل 2 نفر) اطلاعاتی در باره جامعه بدست آورد. آزمون t شامل خانواده‌ای از توزیعها است (برخلاف آزمون z) و اینگونه فرض می‌کند، که هر نمونه‌ای دارای توزیع مخصوص به خود است، که شکل این توزیع از طریق محاسبه درجات آزادی (Degrees of Freedom) مشخص می‌شود. به عبارت دیگر توزیع t تابع درجات آزادی است و هر چه درجات آزادی (d.F) افزایش پیدا کند به توزیع طبیعی نزدیکتر می‌شود. هرچه درجات آزادی کاهش یابد، پراکندگی بیشتر می‌شود. خود درجات آزادی نیز تابعی از اندازه نمونه انتخابی هستند. هر چه تعداد نمونه بیشتر باشد بهتر است. از آزمون t می‌توان برای تجزیه و تحلیل میانگین در پژوهش‌های تک متغیری یک گروهی و دو گروهی و چند متغیری دو گروهی استفاده کرد.
آزمون تحلیل واریانس
مواقعی که پژوهشگری بخواهد بیش از دو میانگین (بیش از دو نمونه) را مقایسه کند، باید از تحلیل واریانس استفاده کند. تحلیل واریانس یک روش فراگیرنده تر از آزمون t است و برخی پژوهشگران حتی وقتی مقایسه میانگین‌های دو نمونه مورد نظر است از این روش استفاه می‌کنند. طرح‌های متنوعی برای تحلیل واریانس وجود دارد و هر یک تحلیل آماری خاص خودش را طلب می‌کند. از جمله این طرح‌ها می‌توان به تحلیل یک عاملی واریانس (تحلیل یک طرفه) و تحلیل عاملی متقاطع واریانس ، تحلیل واریانس چند متغیری ، تحلیل کوواریانس یک متغیری و چند متغیری و …. اشاره کرد.
آزمون‌های ناپارامتری آمار استنباطی
در پژوهشهایی که در سطح مقیاسهای اسمی ‌و رتبه‌ای اجرا می‌شوند، باید از آزمون‌های ناپارامتریک برای تجزیه و تحلیل اطلاعات استفاده شود. آزمون‌های زیادی برای این امر وجود دارد که براساس نوع تحلیل (نیکویی برازش ، همسویی دو نمونه مستقل ، همسویی دو نمونه وابسته ، همسویی K نمونه مستقل و همسویی K نمونه وابسته) و مقیاس اندازه گیری می‌توان دست به انتخاب زد. از آزمون‌های مورد استفاده برای پژوهشها در سطح اسمی‌ می‌توان به آزمون X2 ، آزمون تغییر مک نمار ، آزمون دقیق فیشر و آزمون کاکرن اشاره کرد. از آزمونهای مورد استفاده برای پژوهشها در سطح رتبه‌ای می‌توان به دو آزمون کولموگروف - اسمیرونف ، آزمون تقارن توزیع ، آزمون علامت ، آزمون میانه ، آزمون uمان – ویتنی ، آزمون تحلیل واریانس دو عاملی فریدمن و … اشاره کرد.
آمار استنباطی:
در آمار مقدماتی خواندیم که آمار علم جمع آوری داده ها – توصیف داده ها (با استفاده از جدول فراوانی – نمودار و مشخص کننده های عددی) و نیز رابطه بین متغیی هایی که از جامعه آماری بدست آمده است . و استنباط از داده های نمونه برای بدست آوردن اطلات مربوط به جامعه آماری (برآورد- آزمون های آماری و پیش بینی ) می با شد پس بر این اساس می توان آمار را به دو دسته آمار توصیفی و آمار استنباطی تقسیم کرد.
در زمانی که تعداد جامعه آماری زیاد باشد و ما می توانیم بخاطر کمبود وقت و کمبود هزینه تمامی جامعه آماری را مطالعه کنیم از جامعه آماری خود نمونه گیری می کنیم و از اطلاعات مربوط به نمونه آماری خود اطلاعات جامعه آماری را استنباط و یا بر آورد می کنیم.


مثلا:
در زمانی که ما یک گونی برنج داریم می خواهیم بدانیم که آیا این برنج ها پخت خوبی دارند یا نه بهترین کار این است که نمونه ای را انتخاب کنیم و بپزیم و بعد نظر خود را با استفاده از اطلاعات نمونه آماری تعمیم دهیم.که می توان این مفهوم را از این ضربالمثال نیز استنباط
کرد : مشت نمونه خر بار است.
پس همانطور که می توان فهمید بهترین راه برای نمونه گیری این است که تمامی جامعه آماری شانس برای انتخاب شدن را داشته باشد که براساس نمونه گیری به دو طبقه نمونه گیری تصادفی ونمونه گیری غیر تصادفی تقسیم می شود.
منظور از نمونه گیری تصادفی این است که همه افراد شانس برابر برای انتخاب شدن را داشته باشند و منظور از غیر تصادفی آن است که محقق افراد در دسترس خود را به صورت غیر شانسی انتخاب می کند.
نمونه گیری تصادفی خود به سه دسته : ساده ، طبقه ای ، خوشه ای تقسیم می شود.
علت متفاوت بودن نمونه گیری تصادفی به پخش شدن متفاوت جامعه آماری برمی گردد.زمانی که جامعه آماری ما بصورت ساده مثلاً دانشجویان یک کلاس باشد برای نمونه گیری از روش نمونه گیری تصادفی ساده است که خود بر دو نوع است. استفاده از روش سیستمیاتیک و استفاده از جدول اعداد تصادفی
عددی را بدست می آوریم و بعد با استفاده از این عدد بصورت فاصله ای نمونه را انتخاب می کنیم مثلاً می خواهیم از بین 10 نفر 5 نفر را انتخاب نمائیم. که ابتدا بصورت زیر عددی را بدست می آوریم و دو به دو انتخاب می کنیم.
و در مواقعی که جامعه ما در طبقه هایی قرار گرفته است. ( مثلاً: دانشجویان در رشته های متفاوت و ورودی های متفاوت پخش شده اند.) از نمونه گیری طبقه ای استفاده می کنیم. و در مواقعی که جامعه آماری ما بصورت گسترده پخش شوند.( مثلاً: دانش آموزان یک استان)
ابتدا جامعه آماری را به دلایلی محدود می کنیم و با محدود کردن خود آنرا به جامعه طبقه ای تبدیل می کنیم ودر مرحله بعد با استفاده از نمونه گیری تصادفی از طبقه ها نمونه گیری می کنیم.
در آمار استنباطی چون زمانی که ما از اطلاعات نمونه آماری اطلاعات جامعه آماری را برآورد می کنیم این برآوردها صددرصد واقعی نخواهد بود و حتماً یک خطایی خواهیم داشت( خطای قابل قبول یک درصد و 5 درصد است) به خاطر این برای درک بهتر آمار استنباطی باید قبل از شروع به این مبحث اطلاعاتی راجع به احتمالات را یاد گرفت
تحلیل واریانس
برای تحلیل واریانس تصمیم ‌گیری درباره‌ی این امر را مورد توجه قرار می‌دهیم که آیا تفاوتهای مشاهده شده بین بیش از دو میانگین نمونه‌ای را می‌توان معلول تصادف دانست و یا اینکه بین میانگین‌های جامعه‌های مورد نمونه‌گیری تفاوتهای واقعی وجود دارند. مثلا ممکن است بخواهیم بر مبنای داده‌های نمونه‌ای تصمیم بگیریم که آیا واقعا تفاوتی بین میزان مؤثر ‌بودن سه روش تدوین یک زبان خارجی موجود است یا خیر. یا بخواهیم میزان متوسط محصول در هر جریب برای شش نوع مختلف گندم را مقایسه کنیم. چون اختلاف‌هایی که مشاهده می‌شوند می‌توانند همواره معلول عواملی بجز عوامل مشخصی باشند- مثلا اختلاف در وضع یادگیری دانش‌آموزانی که تحت آموزش سه روش مختلف هستند می‌تواند ناشی از اختلاف هوش آنها باشد- ما برخی سوالات مربوط به طرح آزمایش‌ها را نیز مورد بحث قرار می‌دهیم تا با درجه اطمینان معقولی ، نتایج معنی‌دار آماری را بتوان به علل مشخصی نسبت داد.
تعریف واریانس
از امید ریاضی می‌دانیم که گشتاور ام حول میانگین متغیرتصادفی ، که آن را با نشان می‌دهیم، مقدار امید است؛ بدین ترتیب را واریانس توزیع یا صرفا واریانس می‌نامند و آن را با ، یا

نشان می‌دهند. ، ریشه دوم مثبت واریانس را انحراف معیار می‌نامند. با توجه بشکل مشخص است که چگونه واریانس ، منعکس‌کننده پراکندگی توزیع متغیر تصادفی است. همان‌طور که دیده می‌شود، یک مقدار کوچک این نکته را القا می‌کند که بدست ‌آوردن مقداری نزدیک میانگین محتملتر است، و یک مقدار بزرگ ، این نکته را القا می‌کند که بدست‌آوردن مقداری که نزدیک میانگین نیست احتمال زیادی دارد. بطور کلی نتیجه‌ای که می‌توان گرفت این است که هر چه واریانس کم باشد پراکندگی اطراف میانگین کم است.
نکته
اضافه‌کردن مقداری ثابت به متغیر تصادفی که نتیجه آن انتقال تمام مقادیر به چپ یا به راست است، به هیچ وجه اثری بر پراکندگی توزیع آن ندارد. همین‌طور اگر متغیر تصادفی را در ثابتی ضرب کنیم. واریانس در مربع آن ثابت ضرب می‌شود که موجب تغییر متناظری در پراکندگی توزیع می‌شود. بطور کلی قضیه زیر را می‌آوریم:
قضیه
اگر واریانس برابر باشد، آنگاه .

تحلیل واریانس یک‌ طرفه
در حالت کلی در چنین مسائلی ، نمونه تصادفی مستقل به اندازه از جامعه داریم و مقدار ام با نشان داده می‌شود و فرض خواهیم کرد که متغیرهای تصادفی متناظر یعنی ها ، که همه مستقل‌اند دارای توزیع‌های نرمال با میانگین‌های مربوط ، و واریانس مشترک باشند. با بیان این فرض‌ها بگونه‌ای نسبتا متفاوت ، می‌توانیم بگوئیم که مدل مشاهدات با عبارت به ازای

داده می‌شود که در آن ها مقادیر متغیر تصادفی نرمال با میانگین‌های صفر و واریانس مشترک هستند. برای آنکه امکان تعمیم این مدل به انواع وضعیت‌های پیچیده‌تر موجود باشد معمولا آن را با می نویسند در اینجا به میانگین کل اطلاق می‌شود و ها که اثرهای تیماری ، نامیده می‌شوند، چنان‌اند که .

چون به ازای هر ، ها مقادیر نمونه‌ای تصادفی به اندازه از جامعه نرمالی با واریانس است، نتیجه می‌شود که به ازای هر i .

یک متغیر تصادفی خی‌دو با درجه آزادی است. به علاوه چون این متغیر تصادفی مستقل‌اند نتیجه می‌شود که یک متغیرتصادفی خی‌دو با درجه آزادی است. چون میانگین توزیع خی‌دو دو برابر درجه آزادی آن است، نتیجه می‌گیریم که عبارت بالا مقدار یک متغیر تصادفی با میانگین است. بنابراین سیگماهای فوق تقسیم بر را می‌توان بعنوان برآورد بکار برد. این کمیت را میانگین مربعات خطا نامیده و با MSE نشان می‌دهند.
تحلیل واریانس دو طرفه
اساسا دوره مختلف در تحلیل آزمایش‌های دو متغیره وجود دارد و راهها بستگی به این دارند که آیا متغیرها مستقل‌اند یا تأثیر متقابل دارند. برای آنکه منظور خود را از "تأثیر متقابل" روشن کنیم فرض می‌کنیم که یک سازنده لاستیک اتومبیل‌ آجهای مختلف را آزمایش می‌کند و به این نتیجه می‌رسد که یک نوع آنها مناسب جاده خاکی و نوع دیگر مناسب جاده آسفالته است. اگر چنین باشد، گوئیم که بین شرایط جاده و طرح آن آج تاثیر متقابل وجود دارد. در اینگونه مسائل برای بررسی اینکه آیا اختلاف بین میانگین‌ها برای مسیرهای مختلف معنی‌دار هستند یا نه با تحلیل واریانس دو طرفه سر و کار خواهیم داشت.
کاربردها
تحلیل واریانس‌ها در صنعت ، مهندسی کشاورزی ، اقتصاد - علوم انسانی و اجتماعی از اهمیت خاصی برخوردار است. برای مثال در مورد کشاورزی به ذکر یک مثال می‌پردازیم: فرض کنید می‌خواهیم 25 نوع گندم و در همان حال تاثیر 12 کود مختلف را با هم مقایسه کنیم. برای انجام آزمایشی که در آن هر یک از 25 نوع گندم در ارتباط با هر یک از 12 کود بکار می‌روند باید 300 قطعه زمین را بکاریم و می‌توان به آسانی تصور کرد که یافتن این همه قطعه زمین که برای آنها ترکیب خاک ، آبیاری ، شیب و ... ثابت یا قابل کنترل باشد تا چه اندازه مشکل است. در نتیجه به طرح‌هایی نیازمندیم که درباره پارامترهای مربوط به مدل آزمون کردن فرضهایی را بر مبنای آزمایشهایی که از نقطه نظر عملی قابل انجام‌اند، مقدور سازند.

میانگین گیری
شاید مهمترین نکته در مطالعه توزیع یک نمونه از اندازه‌ها ، تعیین یک مقدار مرکزی باشد، یعنی ، یک مقدار نماینده که اندازه‌ها در اطراف آن توزیع شده‌اند. هر معیار عددی را که معرف مرکز مجموعه داده‌ها باشد، معیار گرایش به مرکز می‌نامند. دو تا از متداولترین معیارهای گرایش به مرکز عبارتند از : میانگین و میانه.
تعریف میانگین
میانگین یا متوسط نمونه ای مرکب از n اندازه x1، x2 ، ... ، xn ، عبارت است از خارج قسمت مجموع این اندازه ها بر n، میانگین را با نشان می دهند که در عملیات، به صورت زیر نوشته می شود:
x´ = ∑ xi/n (به ازای i=0 تا n)

همان طوریکه از مفهوم "متوسط" بر می‌آید، میانگین ، مرکز مجموعه داده‌ها را نمایش می‌دهد. اگر نمودار نقطه‌ای مجموعه داده‌ها را این طور تجسم کنیم که روی میلاه افقی نازکی ، گویهای هم اندازه‌ای در محل داده‌ها قرار دارند، آنگاه ، میانگین نشان دهنده نقطه‌ای است که این میله در آن نقطه به حال تعادل در می‌آید.

تعریف میانه نمونه‌ای
میانه نمونه‌ای مرکب از n اندازه x1، x2 ، ... ، xn ، عبارت است از اندازه وسطی ، در صورتی که اندازه‌ها را به ترتیب از کوچکترین به بزرگترین مقدار مرتب کرده باشیم. اگر n فردی باشد، یک مقدار وسطی منحصر به فرد وجود دارد که میانه است. اگر n زوج باشد در مقدار وسطی وجود دارند که متوسط آنها به عنوان میانه تعریف می‌شود. اجمالا می‌توان گفت که ، میانه مقداری است که دسته داده‌ها را به دو نیمه مساوی تقسیم می‌کند. به عبارت دیگر ، 50% داده‌ها در زیر میانه و 50% در بالای میانه قرار می‌گیرند.
موارد استفاده از میانه و میانگین
وجود معدودی مشاهده خیلی برزرگ یا خیلی کوچک ، در میانه تاثیر ندارد، در حالی که وجود اینگونه مقادیر فرین در میانگین اثر قابل ملاحظه‌ای دارد. به نظر می‌رسد برای توزیعهایی که خیلی نامتقارن هستند، میانه معیار معقولتری از گرایش به مرکز است تا میانگین. به این دلیل در گزارشهای دولتی راجع به توزیع درآمد، به جای میانگین ، میانه درآمدها را ذکر می‌کنند. وقتی توزیع خیلی نامتقارن نیست، میانگین به میانه ترجیح داده می‌شود و خیلی بیشتر از میانه بکار می‌رود، زیرا در روشهای استنباطی ، میانگین از لحاظ نظری دارای امتیازاتی است که میانه فاقد آنهاست.
مفهوم چارک و صدک
اگر تعداد مشاهدات خیلی زیاد باشد (مثلا بیشتر از 25 یا 30) ، گاهی مفید است که مفهوم میانه را تعمیم دهیم و مجموعه داده‌های مرتب شده را به چهار قسمت تقسیم کنیم. درست همان طور که نقطه تقسیم داده‌ها به دو نیمه ، میانه خوانده شده نقاط تقسیم داده‌ها ، به چهار قسمت را چارک می‌نامند. بنابراین به جای این که بحث را محدود به تقسیم چهار قسمتی کنیم، داده‌ها را به قسمتهای زیادتری تقسیم ، و صدک را تعریف می‌کنیم.
صدک
صدک (100P) ام نمونه، مقداری است که وقتی داده ها از کوچکتذرین تا بزرگترین مقدار مرتب شدند، حداقل 100P% از مشاهدات منطبق بر این مقدار یا در سمت چپ (زیر) آن و حداقل 100P% از مشاهدات منطبق بر این مقدار یا در سمت راست (بالای) آن باشند.
چارکهای نمونه
• چارک (اول) کوچکتر صدک 25 ام = Q1
• چارک (دوم) میانه صدک 50 ام = Q2
• چارک (سوم) بالایی صدک 75 ام = Q3
فرمول میانگین


فرمول اول میانگین، دومی واریانس و سومی انحراف معیار n تا متغیر تصادفی است:




میانگین


• همانطور که می‌دانیم، میانگین چند عدد که معمولاً معدل نیز نامیده می‌شود برابر مجموع اعداد بخش بر تعداد آنها به عبارت دیگر، میانگین از رابطه زیر محاسبه می‌شود؛

• که در این رابطه x میانگین، مجموع داده‌ها و N تعداد داده‌ها است

خواص میانگین

• همیشه حاصلضرب میانگین داده‌ها در تعداد آنها، مساوی جمع کل داده‌ها می‌باشد.
• اگر عدد ثابتی را به تمام داده‌ها اضافه کنیم یا از آنها کم کنیم، به همان نسبت به میانگین اضافه و یا از آن کم می‌شود.

• اگر عدد ثابتی را در تمام داده‌ها ضرب کنیم یا تمام داده‌ها را بر آن تقسیم کنیم، میانگین نیز در آن عدد ثابت ضرب یا بر آن تقسیم می‌شود.
• مجموع اختلاف داده‌ها از میانگین همیشه برابر صفر است

• اگر فاصله یک سری اعداد از همدیگر برابر باشد میانگین برابر معدل بزرگترین عدد و کوچکترین عدد خواهد بود.

میانگین اعداد طبقه بندی شده

• میانگین در اعداد طبقه‌بندی شده با فاصله یک از رابطه زیر بدست می‌آید :

• که در این رابطه x میانگین، مجموع حاصلضرب داده‌ها در فراوانی آنها بوده و N تعداد داده‌ها است.


• در اعداد طبقه‌بندی شده با فاصله بیشتر از یک میانگین از رابطه زیر بدست می‌آید؛

• که در این رابطه x میانگین، مجموع حاصلضرب نقطه میانی طبقه‌ها در فراوانی آنها بوده و N تعداد داده‌ها است

اگر چند گروه جداگانه داشته باشیم که هر کدام دارای میانگین و تعداد مشخص باشند، میانگین کل آنها بصورت زیر محاسبه می‌شود؛











• در حالت خاصی که تعداد (N) گروهها یکسان باشد برای محاسبه میانگین کل آنها از رابطه زیر استفاده می‌شود؛

• که در این رابطه x میانگین کل و n تعداد گروهها می‌باشد.

هیچ نظری موجود نیست: