همبستگی منفی

ساخت وبلاگ

همانطور که مشاهده شد، دما با رطوبت همبستگی منفی و با سرعت باد همبستگی مثبت نشان می دهد. نتایج نیز از این مشاهدات پیروی می کنند. در نتیجه، خود دما می تواند این متغیرها را تا حدودی نشان دهد. بنابراین، متغیرهای آب و هوای روزانه که بیشترین و کمترین اختلاف دما را در یک روز منعکس می کنند، با تحلیل احساسات توییتر مطابق شکل 26 مطابقت دارند.

همانطور که در شکل 26 مشاهده می شود، متغیرهای توییتر و دما مستقل از یکدیگر نیستند. با این حال، ضریب همبستگی (0. 35) به اندازه همبستگی کلی معنادار نیست. اگرچه همبستگی کم است، اما رقم همبستگی همچنان نشان می دهد که افراد تمایل دارند توییت های مثبت و منفی بیشتری در زمان پایین بودن دما ارسال کنند و زمانی که دما بالا است یا تفاوت معنی دار است، تمایل دارند توییت های بیشتری ارسال کنند.

شکل 27 همبستگی را در مناطق خرید ساحلی و دارای تهویه مطبوع نشان می دهد. با کمال تعجب، تفاوت بین بالاترین و کمترین دما و درصد توییترهای منفی در مناطق ساحلی یک همبستگی منفی قوی نشان می دهد. یکی از دلایل این ممکن است این باشد که وقتی اختلاف زیاد می شود، مناطق ساحلی تمایل به الگوهای آب و هوایی غیرقابل پیش بینی دارند.

ادامه مطلب آدرس اینترنتی: https://www. sciencedirect. com/science/article/pii/B9780128053942000155

سی و یکمین سمپوزیوم اروپایی مهندسی فرآیند به کمک کامپیوتر

کریستین لانگنر،. سایمون هاروی، در مهندسی شیمی به کمک کامپیوتر، 2021

3. 1 مدل رگرسیون خطی

در رویکرد اول، همبستگی های مثبت و منفی با استفاده از مدل های تک معادله ای به دست آمده از رگرسیون خطی بیان شد. مدل های معادلات خطی در شکل 3 همراه با منطقه امکان پذیر مسئله نشان داده شده است. در مقایسه با حالت مستقل، شکلی که محدوده تغییرات (امکان پذیر و مورد انتظار) را توصیف می کند، دیگر یک ابرمستطیل نیست، بلکه یک خط است. مقادیر محاسبه شده FI 0. 385 (همبستگی مثبت) و 0. 71 (همبستگی منفی) است. هنگام استفاده از یک تابع خطی به عنوان تابع مدل، FI با کوچکترین تغییر ممکن برای θ تعیین می شود2که در آن تابع مدل fمتر2) با مرز منطقه امکان پذیر قطع می شود. نقاط مربوطه با یک ستاره در شکل 3 مشخص شده اند.

Figure 3

از شکل 3 می توان استنباط کرد که مدل های خطی استفاده شده قادر به گرفتن روند بین θ هستند.1و θ2ضمن غفلت از نقاط عملیاتی که از این روند منحرف می شوند. با این حال ، همانطور که در بخش 1 ذکر شد ، این نقاط عملیاتی می توانند برای عملکرد فرآیند واقعی حیاتی باشند. برای اینکه بتوانیم این نقاط عملیاتی را درج کنیم ، یک رویکرد دوم مورد بررسی قرار گرفت.

ادامه مطلب URL: https://www. sciencedirect. com/science/article/pii/b9780323885065501704

تجزیه و تحلیل داده ها و ارائه

بیل آلبرت ،. دونا تدسکو ، در فراتر از آزمایشگاه قابلیت استفاده ، 2010

6. 4. 1 همبستگی

همبستگی شامل نگاه کردن به چگونگی تغییر یک متغیر ، مانند موفقیت کار ، تمایل به تغییر در رابطه به متغیر دیگر ، مانند رتبه سهولت کار دارد. بیایید سه متغیر از مطالعه گالری Clip-Art عکس را در نظر بگیریم: موفقیت کار ، زمان کار و رتبه سهولت کار. همانطور که در جدول 6. 10 نشان داده شده است ، ما می خواهیم به آنها نگاه کنیم.

جدول 6. 10. نرخ موفقیت کار ، رتبه بندی سهولت کار و زمان کار ، بر اساس کار ، از مطالعه گالری عکس.

موفقیت کار رتبه سهولت کار زمان کار (ثانیه)
کار 1 81 ٪ 4.5 24
کار 2 88 ٪ 3.4 42
کار 3 84 ٪ 3.5 46
کار 4 88 ٪ 4.5 24
کار 5 86 ٪ 3.7 40
وظیفه 6 88 ٪ 4.2 29
کار 7 94 ٪ 4.5 23
کار 8 89 ٪ 4.5 23
کار 9 90 ٪ 4.6 21
کار 10 92 ٪ 4.4 24

A handy feature of Excel is the “Analysis ToolPak,” which can be added via the “Tools> Add-ins” menu if you don't see the “Tools>تجزیه و تحلیل داده ها "گزینه منو. یک عملکرد مفید که ارائه می دهد یک تابع همبستگی است. انتخاب داده های نشان داده شده در جدول 6. 10 و انتخاب عملکرد "همبستگی" از کادر گفتگوی تجزیه و تحلیل داده ها منجر به ماتریس همبستگی نشان داده شده در جدول 6. 11 می شود.

جدول 6. 11. ماتریس همبستگی برای داده های نشان داده شده در جدول 6. 10.

موفقیت کار رتبه سهولت کار زمان کار (ثانیه)
موفقیت کار 1. 00
رتبه سهولت کار 0. 36 1. 00
زمان کار (ثانیه) 43. 43 . 9. 99 1. 00

جدول 6. 11 مقادیر ضریب همبستگی ("R") بین جفت متغیرها را نشان می دهد. ضریب همبستگی می تواند ا ز-1. 0 (همبستگی منفی کامل) تا 0 (بدون همبستگی) تا 1/0 (همبستگی مثبت کامل) باشد. مقادیر مورب در جدول 6. 11 1. 0 است ، زیرا هر متغیر کاملاً با خودش ارتباط دارد. مقادیر دیگر موارد جالب است. موفقیت کار به ویژه با رتبه سهولت کار (0. 36) یا زمان کار (-0. 43) ارتباط خوبی ندارد. اما کار سهولت و زمان کار تقریباً کاملاً ارتباط دارد (-0. 99). شکل 6. 24 پراکندگی های مربوط به این همبستگی ها را نشان می دهد.

ما خط روند را به پراکندگی زمان کار در مقابل رتبه سهولت کار اضافه کرده ایم تا همبستگی منفی تقریباً کامل بین این متغیرها را منعکس کنیم: هرچه یک کار طولانی تر طول بکشد ، رتبه سهولت کار بدتر می شود. جای تعجب آور نیست ، زیرا این کارهای بسیار ساده بودند (میانگین زمان کار زیر 1 دقیقه) و مدت زمانی که یک کار انجام داد باید برای شرکت کنندگان کاملاً آشکار باشد. آنها باید از این امر به عنوان یک عامل اصلی در تصمیم گیری در مورد رتبه بندی کار خود استفاده کرده اند. نکته جالب تر این است که دو پراکندگی دیگر را مطالعه کنید. در مورد کار سهولت در مقابل دقت کار ، بیشتر وظایف در امتداد یک خط مورب از پایین سمت چپ تا بالا ، به استثنای یک کار "دورتر" در سمت چپ بالا ، که در بیشتر قسمت ها است ، خوشه می کند.، وظایف با رتبه بندی سهولت کار بالاتر نیز از دقت کار بالاتری برخوردار بودند ، اما برای کار 1 نیست. این کار سهولت کار بالایی داشت اما دقت کم داشت. به طور مشابه ، در مورد زمان کار در مقابل دقت کار ، بیشتر کارها در امتداد یک خط (یا شاید یک منحنی) از سمت چپ بالا به سمت راست پایین ، دوباره با یک استثنا: کار 1 ، که در پایین است-گوشه سمت چپ. کارهایی که به طور کلی دقیق تر بودند نیز سریعتر بودند ، اما کار 1 دقیق تر و سریعتر بود. چیزی در مورد کار 1 عجیب است.

می توانید با کلیک راست روی هر نقطه داده و انتخاب "افزودن روند" از منوی بازشو ، یک خط روند را به یک پراکندگی در اکسل اضافه کنید.

وظیفه 1 شامل یافتن عنوان نسخه کامل عکس پرنده ای است که در یک تصویر کوچک نشان داده شده است ، همانطور که در شکل 6. 25 نشان داده شده است. عنوان عکس هدف "Bluebird on Branch" بود.

گزینه های پاسخ ارائه شده به شرکت کنندگان به شرح زیر بود:

Bluebird در شاخه

هیچ یک از موارد فوق

در حالی که 81 ٪ از شرکت کنندگان پاسخ صحیح را انتخاب کردند ، "Bluebird on Branch" ، 17 ٪ "پرنده را روی شاخه" انتخاب کردند. بالاترین درصد بعدی برای گزینه پاسخ نادرست برای هر کار (شمارش "UPS") فقط 5 ٪ بود. چرا برخی از شرکت کنندگان به سرعت به نتیجه (نادرست) رسیدند که "پرنده روی شاخه" جواب درست است؟دو دلیل احتمالی وجود دارد:

آنها به سادگی حدس می زدند و در خواندن لیست گزینه های پاسخ ، "پرنده در شاخه" اولین کسی بود که به نظر می رسید درست است.

آنها عنوان عکس را از نزدیک نخواندند و "پرنده روی شاخه" را انتخاب نکردند زیرا تقریباً شبیه به آنچه دیدند به نظر می رسید.

در این حالت ، مطالعه همبستگی بین داده های حاصل از مطالعه ، یک کار مهم را نشان داد ، کار 1. بررسی بیشتر در مورد آن کار نشان داد که شاید یک نقص در طرح مطالعه باشد: گنجاندن پاسخ پریشان ، "پرنده در شاخه" ، که کدام یکبه سادگی شبیه به پاسخ صحیح بود (و اگر یک شرکت کننده مجبور شود به جای اینکه همزمان این دو را ببیند ، از وب سایت دور شود ، به ویژه اگر یک شرکت کننده مجبور شود از وب سایت به یک صفحه پاسخ برود). در حالی که می خواهید پاسخ های حواس پرتی شما قابل قبول به نظر برسد ، هدف شما این نیست که شرکت کنندگان را با آنها فریب دهید.

در مطالعات دیگر ، ما دیده ایم که این نوع کارهای "دورتر" برخی از مهمترین بینش های این مطالعه را نشان می دهد. به عنوان مثال ، در یک مطالعه ، ما پاسخ های حواس پرتی را به گونه ای انتخاب کرده بودیم که یک شرکت کننده که نتوانست یک قدم کلیدی را در دنباله ای از مراحل انجام دهد ، به آن پاسخ حواس پرتی می رسد (که کاملاً متفاوت از پاسخ صحیح بود). آنچه دیدیم ، مشابه نمونه ای که فقط آورده شده است ، دقت بسیار کمی برای آن کار همراه با زمان کار کوتاه تر و رتبه بندی سهولت کار بالاتر بود. در حقیقت ، بسیاری از شرکت کنندگان نتوانستند آن گام مهم را در بر بگیرند و به این ترتیب به پاسخ اشتباه برسند ، اما با خوشحالی از اشتباه خود آگاه نبودند. این نوع خطا اغلب بسیار موذیانه است زیرا کاربر ممکن است آن را تا دیرتر (اگر اصلاً) تشخیص ندهد ، شاید در صورت جدی تر بودن عواقب آن ، آن را تشخیص ندهد.

ادامه مطلب URL: https://www. scienceirect. com/science/article/pii/b9780123748928000065

تولید اعداد تصادفی

متغیرهای ضد تیتی

برای ارزیابی میزان خطای نمونه برداری ، قضیه محدودیت مرکزی (CLT) می تواند کمک کند. تحت شرایط خاص (معمولاً ملاقات) ، میانگین I. I. D. نمونه ها تقریباً به طور عادی توزیع می شوند ، x ¯ n (μ x ، σ x 2 / n) ، که در آن n اندازه نمونه و μ x و σ x 2 میانگین و واریانس متغیر تصادفی x است. دلیل این امر هنگام نگاه به تعاریف آشکار می شود:

var (x ¯) = var (∑ i = 1 n 1 n x i) = 1 n var (x i) + n (n - 1) n 2 cov (x i ، x j)

اگر همه نمونه های x من واریانس یکسانی داشته باشم و همه جفت ها (x i ، x j) همبستگی یکسان دارند. به عبارت دیگر ، میانگین نمونه دارای انحراف استاندارد σ x / n خواهد بود. بنابراین ، برای کاهش انحراف استاندارد میانگین نمونه به نصف هنگامی که نمونه ها با هم مرتبط نیستند ، فرد به چهار برابر نمونه های مستقل نیاز دارد. برای کاهش آن به یک مرتبه از بزرگی (یعنی توسط یک عامل 10) ، N باید با یک عامل 100 افزایش یابد.

اگر نمونه ها دارای کواریانس منفی باشند ، کاهش واریانس میانگین نمونه می تواند تسریع شود. شدیدترین مورد در اینجا یک همبستگی منفی کامل خواهد بود. کاهش واریانس با متغیرهای ضدیتیک دقیقاً چنین کاری را انجام می دهد: نمونه هایی را که کاملاً منفی هستند ، بکشید (یا بسازید). فرض کنید x i ∼ n (0 ، 1). سپس ، x j = - x من می توانم متغیر ضدیتتیک کامل باشند ، 10 و جفت (x i ، x j) دقیقاً میانگین مورد نظر توزیع اساسی را دارند: x ¯ = μ = 0. برای (0 ، 1) متغیرهای یکنواخت ، جفت (u i ، u j) ، جایی که u j = 1 - u 1 ، معادل خواهد بود. از این لباس های ضدیتیک می توان برای تولید نمونه برای توزیع های دیگر ، به عنوان مثال ، با استفاده از روش وارونگی استفاده کرد.

مشکل این رویکرد این است که فقط برای پارامترها و آمار خاص مناسب است: میانگین نمونه ممکن است خیلی سریع همگرا شود ، اما به عنوان مثال ، واریانس می تواند نادرست باشد. بنابراین ، متغیرهای ضدیته در مدلهایی که واریانس و یا لحظه های بالاتر حداقل به اندازه میانگین مهم هستند ، کمتر مفید هستند. فقط به قیمت گذاری یک گزینه خارج از پول فکر کنید: دریافت قیمت مورد انتظار صحیح زیرین برای مشتقات قیمت کافی نیست.

ادامه مطلب URL: https://www. sciencedirect. com/science/article/pii/b9780128150658000170

مقدمه ای برای همبستگی ، رگرسیون و ANOVA

همبستگی

همبستگی به این سؤال اساسی می پردازد که آیا دو متغیر مرتبط هستند یا مستقل هستند. همبستگی ها می توانند از 1 تا 1 تا 1 متغیر باشند ، جایی که −1 به معنای یک همبستگی منفی کامل است (همانطور که یک متغیر از دیگر پایین می رود) ، 0 به معنای عدم همبستگی (متغیرها مستقل و بدون الگوی رابطه هستند) و +1 به معنییک همبستگی مثبت (بدون خطا) بین دو متغیر (هر دو به طور همزمان بالا و پایین می روند)-شکل 10. 1.

این یک ابزار بسیار انعطاف پذیر است - از پرونده های جف سائورو

آیا می خواهید بدانید که مشتریان احتمالاً چه کاری انجام می دهند؟تو تنها نیستی. بیشتر سازمان ها دوست دارند اقدام یا نگرش بعدی مشتریان خود را پیش بینی کنند. متأسفانه ، یک توپ کریستالی تحلیلی وجود ندارد که تصویری واضح و دقیق از آینده ارائه دهد. در عوض ، ما برای پیش بینی آینده باید به واقعیت بسیار مبهم داده های گذشته اعتماد کنیم. و در حالی که گذشته هیچ تضمینی برای آینده نیست ، اغلب همه ما باید تصمیم بگیریم. به طور خاص ، ما به دنبال همبستگی بین انواع مختلف تجزیه و تحلیل مشتری برای کشف الگوهای هستیم. به عنوان مثال ، شما ممکن است سؤالات آشکار همبستگی مانند اینها را بپرسید: •

آیا زمان طولانی تر در وب سایت منجر به خرید بیشتر می شود؟

آیا مشتریان اگر زمان کمتری داشته باشند ، وظایف را آسان تر می کنند؟

برای مشتریانی که محصول A را خریداری می کنند ، چه محصولات دیگری را خریداری می کنند؟

آیا کوپن ها فروش همان فروشگاه را افزایش می دهند؟

آیا کاهش قیمت به معنای فروش بالاتر خواهد بود؟

آیا وفاداری مشتری با رشد شرکت آینده گره خورده است؟

اگر می خواهید بر اساس تجزیه و تحلیل مشتری پیش بینی کنید ، باید بدانید که چگونه روابط بین متغیرها را ارزیابی کنید - از جمله ارزیابی قدرت همبستگی ها. برای اطلاعات بیشتر در مورد همبستگی برای تجزیه و تحلیل مشتری ، به Sauro (2015) مراجعه کنید.

نحوه محاسبه همبستگی

برای محاسبه همبستگی ، شما باید دو متغیر داشته باشید ، که معمولاً از آن به عنوان x و y یاد می شود ، جایی که هر جفت x - y از همان منبع آمده است. در تحقیقات کاربر ، این منبع معمولاً (اما نه لزوما) یک شخص خواهد بود. فرمول همبستگی پیرسون:

r = s s x y (s s x x) (s s y y) s s x x = ∑ (x i - x ¯) 2 s s y y = ∑ (y i - y ¯) 2 s s x y = ∑ (x i - x ¯) (y i - y ¯)

بنابراین ، ضریب همبستگی نسبت مجموع محصولات متقاطع x و y (سیگنال) و ریشه مربع پس از چند برابر کردن مبالغ مربع آنها (نویز) است که در جدول 10. 1 نشان داده شده است. جفت داده های Umux-Lite و SUS در جدول بخشی از داده های اقتباس شده از یک بررسی نمونه بزرگتر است که برای بررسی رابطه این دو پرسشنامه که برای ارزیابی قابلیت استفاده درک شده طراحی شده اند ، انجام شده است (از لوئیس و همکاران ، 2013--برای جزئیات بیشتر در مورد پرسشنامه ها ، به توضیحات آنها در فصل 8 مراجعه کنید).

جدول 10. 1. نمونه محاسبات r

شرکت کننده Umux-lite (x) سوس (y) x i - x ¯ y i - y ¯ (x i - x ¯ 2) (y i - y ¯) 2 (x i - x ¯) (y i - y ¯
1 55. 4 72. 5 . 3 . 3 11. 8 5. 39 138. 90 27. 36
2 87. 9 82. 5 30. 2 21. 8 910. 75 474. 62 657. 46
3 66. 2 50. 0 8.5 10. 7 72. 45 114. 80 91. 20
4 82. 5 82. 5 24. 8 21. 8 613. 15 474. 62 539. 46
5 22. 9 10. 0 34. 8 - 50. 7 1212. 53 2571. 94 1765. 94
6 44. 6 65. 0 −13. 2 4.3 173. 05 18. 37 56. 38
7 44. 6 62. 5 −13. 2 1.8 173. 05 3. 19 23. 49
منظور داشتن 57. 7 60. 7
st dev 23. 0 25. 2 جمع 3160. 37 3796. 43 2764. 43
حرف 0. 80

برای این داده ها ، مقدار R 0. 80 است. در اکسل ، می توانید از عملکرد = Correl برای محاسبه همبستگی استفاده کنید ، بنابراین نیازی به تنظیم هر بار که می خواهید بدانید که چگونه دو متغیر با هم ارتباط دارند ، نیازی به تنظیم جدول مانند این نیست. با این حال ، بررسی یک جدول مانند این می تواند به شما در درک چگونگی عملکرد ضریب همبستگی کمک کند.

به عنوان مثال ، توجه داشته باشید که مخرج نسبت همیشه مثبت خواهد بود زیرا SSXXو SSشمامجموع مربع ها هستند (و مربع ها همیشه مثبت هستند). با این حال، بسته به اینکه آیا تمایلی برای انحراف x و y از میانگین آنها در جهت یکسان یا مخالف وجود دارد، صورت گر می تواند مثبت یا منفی باشد. اگر تمایل کلی برای انحراف x و y از میانگین آنها در جهت یکسان (همبستگی مثبت) یا مخالف (همبستگی منفی) وجود نداشته باشد، آنگاه تمایل به خنثی شدن و عدم وجود همبستگی دارند. همانطور که در شکل 10. 2 نشان داده شده است، مقادیر x و y در جدول 10. 1 تمایل زیادی به افزایش و کاهش با هم دارند.

همیشه غیرخطی بودن را بررسی کنید

بیشتر، اما نه همه، داده های جفت شده یک جزء خطی دارند

یک فرض اساسی همبستگی و رگرسیون این است که رابطه بین متغیرها خطی است (خط مستقیم). هنگام بررسی همبستگی یا تحلیل رگرسیون برای جستجوی یک رابطه خطی، همیشه ایده خوبی است که داده های خود را به صورت نمودار پراکنده ترسیم کنید. اگرچه چهار نمودار در شکل 10. 3 همگی غیرخطی هستند، می توان دو نمودار اول (a و b) را با خطوط مستقیم تقریب زد (اگرچه پیش بینی با استفاده از معادله غیرخطی مناسب یا تبدیل داده ها بهتر است - موضوعاتی که خارج از چارچوب هستند. محدوده این کتاب). دو مورد دوم (c و d)، با این حال، همبستگی خطی 0 دارند زیرا هیچ خطی در الگوهای آنها وجود ندارد. ترسیم نمودار داده ها قبل از شروع محاسبه همبستگی ها و رگرسیون های خطی می تواند مانع از این نتیجه گیری شود که هیچ رابطه ای در میان داده ها وجود ندارد - فقط این است که آنها به جای خطی، غیرخطی هستند.

اهمیت آماری r

همانطور که در سراسر این کتاب دیده ایم، هر زمان که نمونه ای از کاربران را انتخاب می کنیم، باید خطای نمونه گیری را در نظر بگیریم. مانند نرخ تکمیل و زمان کار، همبستگی های محاسبه شده از یک نمونه نوسان می کند و آنچه که ما فکر می کنیم رابطه محکم بین دو متغیر است ممکن است تغییر کند اگر از کاربران بیشتری نمونه برداری کنیم. برای اعلام یک همبستگی از نظر آماری معنی دار، می گوییم همبستگی با 0 متفاوت است (مشابه مقایسه تفاوت ها با 0 همانطور که در فصل های 4 و 5 4 5 انجام شد). جدول 10. 2 کوچکترین همبستگی هایی را که می توانید بر اساس حجم نمونه و سطوح معنی داری مختلف تشخیص دهید، به عنوان معنی دار آماری نشان می دهد. توجه داشته باشید که هنگام گزارش یک همبستگی، درجات آزادی آن اندازه نمونه منهای دو (n-2) است.

جدول 10. 2. برخی از ارزش های بحرانی |r |

df p & lt; 0. 10 p & lt; 0. 05 p & lt; 0. 02 p & lt; 0. 01
1 0. 988 0. 997 0. 9995 0. 9999
2 0. 900 0. 950 0. 980 0. 990
3 0. 805 0. 878 0. 934 0. 959
4 0. 729 0. 811 0. 882 0. 917
5 0. 669 0. 754 0. 833 0. 874
10 0. 497 0. 576 0. 658 0. 708
15 0. 412 0. 482 0. 558 0. 606
20 0. 360 0. 423 0. 492 0. 537
25 0. 323 0. 381 0. 445 0. 487
50 0. 231 0. 273 0. 322 0. 354
100 0. 164 0. 195 0. 230 0. 254

به عنوان مثال ، اگر همبستگی 0. 80 با اندازه نمونه 7 دارید ، نتیجه را به عنوان r (5) = 0. 80 ، p گزارش می دهید<0.05. For values not in the table, you can convert r to t , then use the Excel function =TDIST to get the significance level ( p ).

t = r 1 - r 2 n - 2

ادامه با مثال:

t = 0. 80 1 - 0. 80 2 7 - 2 = 2. 98 = tdist (2. 98،5،2) = 0. 031

یکی از مهمترین موارد از جدول این است که برای تشخیص روابط متوسط ، اما بالقوه مهم بین متغیرها ، به یک اندازه نمونه معقول و منطقی نیاز دارید. یعنی اگر امیدوار هستید با اطمینان با همبستگی R = 0. 3 یا کمتر تشخیص دهید ، باید با اندازه نمونه در حدود 50 برنامه ریزی کنید. اگر محدود به استفاده از فقط یک اندازه نمونه کوچک هستید (به عنوان مثال ، 10) می توانیدهنوز هم به دنبال همبستگی در داده های خود باشید ، شما فقط به یافتن انجمن های قوی تر محدود خواهید شد (بالاتر از R = 0. 575).

فواصل اطمینان برای r

در طول این کتاب ، ما بر اهمیت تست های مربوط به اهمیت با فواصل اطمینان تأکید کرده ایم. در اصل ، یک آزمون از اهمیت R به شما می گوید که آیا فاصله اطمینان (دامنه قابل قبول بودن) حاوی 0 است - به عبارت دیگر ، آیا 0 (بدون همبستگی) با توجه به داده ها یک مقدار قابل قبول برای R نیست. برای محاسبه فاصله اطمینان ، ابتدا باید R را به z تبدیل کنید. این امر ضروری است زیرا توزیع R از بین رفته است و این روش توزیع را عادی می کند.

z ′ = 0. 5 ln [(1 + r) / (1 - r)]

این مرکز فاصله اطمینان را تعیین می کند. حاشیه خطا (د):

D = Z (1 - α) N - 3

فاصله اطمینان در اطراف z ′ z ′ d است.

بعد از محاسبه نقاط پایانی فاصله ، باید آنها را به R تبدیل کنید.

r = exp (2 z ′) - 1 exp (2 z ′) + 1

با استفاده از این فرمول ها در مثال قبلی (و نشان دادن روش اکسل برای محاسبه آنها با استفاده از توابع LN و EXP - به فصل 3 مراجعه کنید) ، یک فاصله اطمینان 95 ٪ دریافت می کنید که از 0. 12 تا 0. 97 متغیر است:

z ′ = 0. 5 * ln ((1 + 0. 80) / (1 - 0. 80)) = 1. 0986 d = 1. 96 * (1 / sqrt (7 - 3)) = 0. 98 حد بالایی: 1. 0986 + 0. 98 = 2. 0786 مرز پایین: 1. 0986 - 0. 98 = 0. 1186 r under = ((EXP (2 * 2. 0786) - 1) / (EXP (2 * 2. 0786) + 1))) = 0. 97 r پایین = ((EXP (2 * 0. 1186) - 1) / (EXP (2 * 0. 1186) + 1))) = 0. 12

با توجه به چنین اندازه نمونه کوچک ، فاصله اطمینان 95 ٪ بسیار گسترده است (از 0. 12 تا 0. 97) ، اما اکنون می دانید که نه تنها با توجه به داده ها 0 غیرممکن است ، 0. 10 نیز غیرممکن است (اما 0. 15 قابل قبول است). توجه به این نکته حائز اهمیت است که فاصله اطمینان حاصل در مورد ارزش R متقارن نخواهد بود مگر اینکه همبستگی مشاهده شده برابر با 0 باشد.

نحوه همبستگی متوسط

استفاده دیگر برای تحول z.

علاوه بر استفاده از آن هنگام محاسبه فواصل اعتماد به نفس ، شما همچنین باید در هنگام میانگین همبستگی ها یا در مطالعات یا در طی چندین مطالعه ، از تحول z استفاده کنید. به عنوان مثال ، در سائورو و لوئیس (2009) ، ما در حال بررسی روشهای مختلف برای محاسبه همبستگی بین معیارهای قابلیت استفاده نمونه اولیه مانند زمان کار و خطاها بودیم. برای خلاصه کردن این نتایج ، ما نیاز به همبستگی متوسط داشتیم و برای انجام این کار به درستی ، ما مجبور شدیم (1) هر همبستگی را به z ′ ، (2) محاسبه متوسط z ′ و (3) تغییر متوسط z ′ z را تبدیل کنیم. به rمیانگین بدون تحول تمایل به دست کم گرفتن میانگین واقعی همبستگی ها دارد.

تفسیر بزرگی r

اگرچه تفسیر همبستگی ها می تواند به متن بستگی داشته باشد ، اما می تواند به راهنمایی در مورد چگونگی تفسیر بزرگی آنها کمک کند. مانند اعتماد به نفس آماری ، آنچه که یک رابطه "قوی" در نظر گرفته می شود بستگی به این دارد که چه خطایی را می توانید تحمل کنید و پیامدهای اشتباه بودن. کوهن (1988) همبستگی های علوم رفتاری را مورد بررسی قرار داد و دستورالعمل های تفسیری زیر را بر اساس چگونگی ظاهر شدن همبستگی ها در ادبیات بررسی شده توسط همسالان ارائه داد:

اگرچه همبستگی 0. 80 در مثال قبلی بسیار زیاد است ، اما فاصله اطمینان 95 ٪ نشان می دهد که دامنه قابل قبول می تواند از کوچک به تقریباً کامل (0. 12-0. 97) برود. اگر تمام آنچه باید بدانیم این است که آیا این همبستگی از نظر آماری قابل توجه است ، ما انجام شده است. اما اگر به یک تخمین دقیق تر از همبستگی نیاز داریم ، به وضوح به داده های بیشتری احتیاج داریم.

به خاطر داشته باشید که "کوچک" لزوماً به معنای "بی اهمیت" نیست. همبستگی های قابل توجه کوچک می تواند تأثیرات زیادی داشته باشد. به عنوان مثال ، در وب سایت های تجارت الکترونیکی که ماهانه میلیون ها بازدید کننده را دریافت می کنند ، توجه به همبستگی "کوچک" بین نگرش به یک طراحی جدید و تعداد فروش می تواند باعث افزایش فروش میلیون ها دلار شود. همیشه هنگام تفسیر قدرت یک همبستگی ، زمینه را در نظر بگیرید.

برآورد اندازه نمونه برای r

تعدادی از رویکردها برای برآورد اندازه نمونه برای ضریب همبستگی وجود دارد. Moinester و Gottfried (2014) اخیراً روشهای مبتنی بر پیش بینی عرض مورد نظر از فاصله اطمینان حاصل را مورد بررسی قرار داده اند. فرمولی که آنها توصیه کردند این است:

n = z 2 (1 - r 2) 2 d 2 + 1 + 6 r 2

برای استفاده از فرمول ، شما باید در مورد سطح اعتماد به نفس (برای اطمینان 95 ٪ z = 1. 96) ، اندازه تفاوت مهم (همچنین به عنوان حاشیه خطا ، D در معادله شناخته می شود) و مقدار مورد انتظار R تصمیم بگیریدبشراگر تصوری ندارید که چه مقدار R را انتظار دارید ، آن را روی 0 تنظیم کنید تا اندازه نمونه تخمین زده شده را به حداکثر برساند. همانطور که در فصل 6 توضیح داده شده است ("اصول اساسی تخمین اندازه نمونه خلاصه") ، اگر مطمئن نیستید که از چه ارزشی برای D استفاده کنید ، رویکرد "چه می شود"اندازه نمونه ای امکان پذیر است که نیازهای شما را برآورده می کند یا (2) تعیین می کند که نمی توان با منابع موجود به این سؤال رسیدگی کرد.

همانطور که ممکن است به یاد بیاورید ، در مثال از بخش قبلی n = 7 و فاصله اطمینان 95 ٪ در نتیجه بسیار گسترده بود ، از 0. 12 تا 0. 97. نگه داشتن سطح اعتماد به نفس در 95 ٪ ، با فرض اینکه همبستگی واقعی نزدیک به همبستگی مشاهده شده (80/0 = r) و تنظیم D تا 0. 20 ، اندازه نمونه تخمین زده شده است:

n = 1. 96 2 (1 - 0. 8 2) 2 0. 2 2 + 1 + 6 (0. 8) 2 = 17. 3 (دور 18)

محاسبه مجدد فاصله اطمینان در حالی که همه چیز را یکسان نگه می دارد اما تنظیم N به 18 منجر به فاصله اطمینان 95 ٪ از 0. 52 تا 0. 92 می شود. افزایش جزئی در اندازه نمونه تأثیر کمی در قسمت بالایی داشت ، اما یک اثر چشمگیر در محدوده پایین. با توجه به داده ها ، همبستگی 0. 90 هنوز قابل قبول است ، اما همبستگی 0. 50 دیگر قابل قبول نیست. عرض فاصله 0. 40 (0. 92 0. 52) برابر با دو برابر مقدار D مورد استفاده در فرمول اندازه نمونه است. مقدار مشاهده شده R در مرکز فاصله نیست. همانطور که قبلاً ذکر شد ، R فقط در زمانی که برابر با 0 باشد ، در مرکز فاصله قرار خواهد گرفت.

ادامه مطلب URL: https://www. scienceirect. com/science/article/pii/b9780128023082000102

طبقه بندی

Vijay Kotu ، Bala Deshpande ، در علوم داده (چاپ دوم) ، 2019

شباهت همبستگی

همبستگی بین دو نقطه داده x و y اندازه گیری رابطه خطی بین ویژگی های x و y است. همبستگی پیرسون از - 1 (همبستگی منفی کامل) تا 1 (همبستگی مثبت کامل) با مقدار صفر هیچ ارتباطی بین x و y می گیرد. از آنجا که همبستگی اندازه گیری رابطه خطی است ، مقدار صفر به معنای رابطه ای نیست. این بدان معنی است که هیچ رابطه خطی وجود ندارد ، اما ممکن است یک رابطه درجه دوم یا درجه بالاتر دیگر بین نقاط داده وجود داشته باشد. همچنین ، همبستگی بین یک نقطه داده و دیگری اکنون مورد بررسی قرار می گیرد. این کاملاً متفاوت از همبستگی بین متغیرها است. همبستگی پیرسون بین دو نقطه داده x و y توسط:

(4. 9) همبستگی (x ، y) = s x y s x × s y

جایی کهباسلهکواریانس x و y است که به این صورت محاسبه می شود:

s x y = 1 n - 1 ∑ i = 1 n (x i - x ¯) (y i - y ¯)

و sایکسو sحرفانحراف استاندارد x و y به ترتیب است. به عنوان مثال ، همبستگی پیرسون دو نقطه داده x (1،2،3،4،5) و Y (10،15،35،40،55) 0. 98 است.

ادامه مطلب URL: https://www. scienceirect. com/science/article/pii/b9780128147610000046

پیش بینی بازار سهام

2. 2 اما میانگین برگشت وجود دارد

بازده ممکن است برای دوره های کوتاه مانند روزها یا هفته ها با همبستگی مثبت باشد ، اما وقتی بازده در دوره های طولانی تر مانند سه یا چهار سال اندازه گیری می شود ، همبستگی منفی وجود دارد. دقیقاً همانطور که در کتاب مقدس هفت سال لاغر به دنبال هفت سال چربی بود ، بنابراین در بورس سهام بازده فوق العاده ای به احتمال زیاد با بازده های کمرنگ دنبال می شود. به عنوان مثال ، FAMA و فرانسوی (1988) نشان دادند كه بازده دوره طولانی مدت از نظر منفی با همبستگی منفی است. همبستگی سریال قابل توجه است و دلالت بر این دارد که 25-40 درصد از تغییرات در بازده دوره طولانی را می توان بر اساس بازده گذشته پیش بینی کرد. نتایج مشابهی توسط Poterba و Summers (1988) یافت شد ، که نتیجه می گیرند که میانگین برگشت قابل توجهی در بازده بازار سهام در افق های طولانی تر وجود دارد. برخی از مطالعات این پیش بینی را به تمایل قیمت بورس به "واکنش بیش از حد" نسبت داده اند. به عنوان مثال ، Debondt and Thaler (1985) استدلال می کنند که سرمایه گذاران در معرض امواج خوش بینی و بدبینی هستند که باعث می شود قیمت ها به طور منظم از ارزش های اساسی خود و ارزش های اساسی خود و منحرف شوند. بعداً برای نشان دادن الگوهای وارونگی. این یافته ها از تکنیک های سرمایه گذاری که بر روی یک استراتژی "متناقض" قرار دارند ، یعنی خرید سهام یا گروه های سهام ، که برای مدت طولانی از طرفداری خارج شده اند ، پشتیبانی می کنند و از سهام هایی که دارای عملکرد زیادی هستندUPS در طی چند سال گذشته.

در حالی که پشتیبانی قابل توجهی از این دیدگاه وجود دارد ، باید خاطرنشان کرد که چنین میانگین برگشت در بعضی از دهه ها نسبت به دوره های دیگر کاملاً ضعیف تر است. در واقع ، قوی ترین نتایج تجربی از دوره هایی از جمله رکود بزرگ ناشی می شود. علاوه بر این ، چنین معکوس های بازدهی برای کل بازار ممکن است کاملاً با عملکرد کارآمد بازار سازگار باشد و می تواند تا حدودی از نوسانات نرخ بهره حاصل شود. تمایل به افزایش نرخ بهره برای پایین آمدن سهام وجود دارد و با افزایش نرخ بهره برای بالا رفتن سهام. اگر در حقیقت ، نرخ بهره به مرور زمان در نوسان باشد ، فرد تمایل به بازگشت معکوس یا میانگین برگشت دارد ، و این کاملاً با عملکرد کارآمد بازارهایی که در آن بازده سهام باید بالا یا پایین برود ، سازگار است تا با اوراق قرضه رقابت کند.

علاوه بر این ، ممکن است سود از تمایل به سهام فردی برای نمایش الگوهای واژگونی بازده امکان پذیر نباشد. به عنوان مثال ، فلک و همکاران.(1997) در طی دوره ، استراتژی خرید سهام که به ویژه بازده ضعیفی در طی سه تا پنج سال گذشته داشت ، شبیه سازی کرد. آنها شواهد آماری بسیار محکمی در مورد وارونگی های برگشتی پیدا کردند ، اما این واقعاً برگشت به میانگین بود ، نه فرصتی برای بازده فوق العاده. آنها دریافتند که سهام با بازده بسیار کم طی سه تا پنج سال گذشته بازده بالاتری در دوره بعدی دارد. سهام با بازده بسیار زیاد طی سه تا پنج سال گذشته بازده کمتری در دوره بعدی داشت ، اما بازده در دوره بعدی برای هر دو گروه مشابه بود. در حالی که آنها شواهد محکمی از میانگین برگشت پیدا کردند ، آنها نمی توانند تأیید کنند که یک رویکرد متضاد بالاتر از بازده متوسط خواهد بود. یک الگوی آماری قوی از وارونگی بازگشت وجود داشت ، اما نه یکی از این امر دلالت بر ناکارآمدی در بازار داشت که سرمایه گذاران را قادر می سازد بازده اضافی را انجام دهند.

استراتژی برای تحلیل فاندمنتال...
ما را در سایت استراتژی برای تحلیل فاندمنتال دنبال می کنید

برچسب : نویسنده : سعید شیخ‌زاده بازدید : 27 تاريخ : چهارشنبه 15 شهريور 1402 ساعت: 12:11