Tuesday 30 January 2018

Multiple lags in stata forex


مرحبا بكم في معهد البحوث الرقمية والتعليم ساس أسئلة وأجوبة: كيف يمكنني إنشاء متغيرات تأخر والرصاص في البيانات الطولية عند النظر إلى البيانات عبر وحدات متسقة من الزمن (سنوات، أرباع، أشهر)، غالبا ما يكون هناك اهتمام في خلق متغيرات على أساس كيفية تقارن البيانات لفترة زمنية معينة بالفترات السابقة واللاحقة. إذا كان لديك بيانات طولية، كنت ترغب في النظر عبر وحدات من الوقت داخل موضوع واحد. عندما تكون البيانات الخاصة بك في شكل طويل (ملاحظة واحدة لكل نقطة زمنية لكل موضوع)، وهذا يمكن التعامل معها بسهولة في ستاتا مع خطوات إنشاء متغير القياسية بسبب الطريقة التي ستاتا عمليات مجموعات البيانات: فإنه يخزن مجموعة البيانات بأكملها ويمكن الرجوع بسهولة إلى أي نقطة في مجموعة البيانات عند توليد المتغيرات. ساس يعمل بشكل مختلف. وعادة ما تنشأ متغيرات ساس من خلال خطوة البيانات التي تتحرك ساس من خلال مجموعة البيانات، والملاحظة عن طريق الملاحظة، وتنفيذ الحسابات للمراقبة معينة والوصول إلى ملاحظة واحدة فقط في وقت واحد. هذا النظام من تخزين البيانات والوصول يجعل من الممكن ل ساس لتحليل مجموعات البيانات الكبيرة ولكن أيضا من الصعب جدا لخلق المتغيرات سلسلة زمنية في ساس باستخدام خطوة البيانات. ومع ذلك، يوفر بروك توسيع بديل سهل الاستخدام لخطوة البيانات. لنبدأ بمجموعة بيانات نموذجية تحتوي على موضوع واحد فقط. وتتضمن مجموعة البيانات أدناه معدلات البطالة في الولايات المتحدة في الفترة من أيلول / سبتمبر 2006 إلى آب / أغسطس 2008. وبالنسبة لكل شهر، نود أن نعرف الفرق بين معدله ومعدل الشهر السابق (r (i) - r (i-1))، (r (i1) - r (i))، وهذه الفروقان ((r (i1) - r (i)) - (r (i) - r (i-1) ) للقيام بذلك، سوف نستخدم بروك توسيع لإنشاء مجموعة بيانات جديدة بما في ذلك هذه المتغيرات. في خط بروك توسيع، ونحن سوف اسم مجموعة البيانات الجديدة ونيمبلاجلاد ونحن نشير إلى أننا لا ترغب في تحويل القيم (باستخدام سبلين، على سبيل المثال) ولكن ببساطة لانتزاع البيانات غير المحولة من السجل المحدد. ونشير إلى أن سلسلة زمنية لدينا يتم تعريفها من قبل التاريخ في خط الهوية وفي خطوط التحويل الثلاثة، ونحن إنشاء القيم الثلاثة نود أن يكون لكل نقطة زمنية في بياناتنا: معدل، المعدل السابق (ratelag1)، والمعدل التالي (ratelead1) في كل سطر، نقول ساس اسم المتغير في مجموعة البيانات الجديدة، ونوع التحول (تأخر الرصاص) و نو مبر من النقاط الزمنية للنظر إلى الوراء أو إلى الأمام للتحول (1 في هذا المثال). يمكننا أن نرى مجموعة البيانات الناتجة. واستنادا إلى مجموعة البيانات هذه، يمكننا الآن حساب متغيرات السلاسل الزمنية الثلاثة التي وصفناها سابقا بسهولة. ولكن ماذا لو كان لدينا بيانات لبلدان متعددة تحتوي مجموعة البيانات أدناه على بيانات البطالة من 2000-2005 لثلاثة بلدان. نود خلق متغيرات تأخر وقيادة داخل كل بلد. للقيام بذلك، يمكننا استخدام بروك توسيع مع بيان بعد فرز على البلد. مع بروك التوسع. يمكنك أيضا توليد متوسطات متحركة، وخطوط، وقيم محرف. لمزيد من التفاصيل، راجع صفحات توسيع بروك من ساس الوثائق على الانترنت. الجواب يعتمد على ما تريد القيام به. ويعد تقليل إيك أو بيك أحد معايير اختيار طول التأخر. لديك متغيرات متعددة تحاول أن تتناسب مع نماذج منفصلة لكل متغير أو انتعاش تلقائي متجه واحد في الحالة الأخيرة، يجب عليك استخدام الأمر ستاتاس فارسوك مع متغيرات متعددة واختيار الفارق الزمني بهذه الطريقة. على سبيل المثال، سوف حساب طول تأخر الأمثل (وفقا ل إيك، بيك، وما إلى ذلك) لتجاوز تلقائي متجه مع المتغيرات س. ذ. و z. لنفترض أن الجواب هو 3 تأخر وفقا بيك (الموصى بها ل فار). ثم يمكن أن يكون النموذج مناسبا باستخدام: إذا كنت بحاجة إلى تقييد بعض التأخر إلى صفر لمعاملات معينة، استخدم الأمر القيد. على سبيل المثال، تحتاج إلى التأخير الثالث على x في المعادلة ل y لتكون صفر (ربما هناك أسباب نظرية لهذا). سوف يعمل ما يلي: أجاب نوف 22 13 في 16: 30 مرحبا بكم في معهد للبحوث الرقمية والتعليم الانحدار مع ستاتا الفصل 1 - بسيطة ومتعددة الانحدار الفصل المخطط 1.0 مقدمة 1.1 تحليل الانحدار الأول 1.2 فحص البيانات 1.3 الانحدار الخطي البسيط 1.4 الانحدار المتعدد 1.5 المتغيرات التحويلية 1.6 الملخص 1.7 التقييم الذاتي 1.8 لمزيد من المعلومات يتكون هذا الكتاب من أربعة فصول تغطي مجموعة متنوعة من الموضوعات حول استخدام ستاتا للانحدار. يجب أن نؤكد على أن هذا الكتاب هو حول كواتاتا أناليسيسكوت وأنه يوضح كيف ستاتا يمكن استخدامها لتحليل الانحدار، بدلا من كتاب الذي يغطي الأساس الإحصائي للانحدار المتعدد. نحن نفترض أن لديك دورة واحدة على الأقل الإحصاءات التي تغطي تحليل الانحدار وأن لديك كتاب الانحدار التي يمكنك استخدامها كمرجع (انظر الانحدار مع صفحة ستاتا والكتاب الإحصاءات لدينا للحصول على صفحة القروض للكتب تحليل الانحدار الموصى بها). تم تصميم هذا الكتاب لتطبيق معرفتك الانحدار، والجمع بين ذلك مع تعليمات على ستاتا، لأداء وفهم وتفسير تحليلات الانحدار. سيغطي هذا الفصل الأول الموضوعات في الانحدار البسيط والمتعدد، فضلا عن المهام الداعمة التي تعد مهمة في التحضير لتحليل البيانات الخاصة بك، على سبيل المثال. والتحقق من البيانات، والحصول على دراية ملف البيانات الخاصة بك، وفحص توزيع المتغيرات الخاصة بك. سوف نقوم بتوضيح أساسيات الانحدار البسيط والمتعدد وإظهار أهمية فحص البيانات والتحقق منها والتحقق منها قبل قبول نتائج التحليل. بشكل عام، نأمل أن نبين أن نتائج تحليل الانحدار الخاص بك يمكن أن تكون مضللة دون مزيد من التحقق من البيانات الخاصة بك، والتي يمكن أن تكشف عن العلاقات التي يمكن أن يتجاهلها تحليل عارضة. في هذا الفصل، وفي الفصول اللاحقة، سوف نستخدم ملف البيانات الذي تم إنشاؤه من قبل عشوائيا أخذ العينات 400 المدارس الابتدائية من وزارة التعليم كاليفورنيا من أبي 2000 مجموعة البيانات. يحتوي ملف البيانات هذا على مقياس لأداء المدرسة الأكاديمي بالإضافة إلى سمات أخرى للمدارس الابتدائية، مثل حجم الصف، والالتحاق، والفقر، وما إلى ذلك. يمكنك الوصول إلى ملف البيانات هذا عبر الويب من داخل ستاتا باستخدام الأمر ستاتا ك ظاهر أدناه. ملاحظة: لا تكتب النقطة الرائدة في الأمر - النقطة هي اتفاقية تشير إلى أن البيان هو أمر ستاتا. بعد أن تقرأ الملف، ربما تريد تخزين نسخة منه على جهاز الكمبيوتر (لذلك لا تحتاج لقراءته عبر الويب في كل مرة). يتيح القول أنك تستخدم ويندوز وتريد تخزين الملف في مجلد يسمى ج: ريجستاتا (يمكنك اختيار اسم مختلف إذا أردت). أولا، يمكنك جعل هذا المجلد داخل ستاتا باستخدام الأمر مكدير. يمكننا بعد ذلك تغيير إلى هذا الدليل باستخدام الأمر سد. ثم إذا قمت بحفظ الملف سيتم حفظها في المجلد c: ريجستاتا. يتيح حفظ الملف كما إليمابي. الآن يتم حفظ ملف البيانات كما c: regstataelemapi. dta ويمكنك إنهاء ستاتا وملف البيانات لا يزال هناك. عندما كنت ترغب في استخدام الملف في المستقبل، يمكنك فقط استخدام الأمر سد لتغيير إلى c: ريجستاتا الدليل (أو ما كنت اسمه) ثم استخدام ملف إليمابي. 1.1 تحليل الانحدار الأول يتيح الغوص في وإجراء تحليل الانحدار باستخدام المتغيرات api00. acsk3. وجبات كاملة. ويقيس هذا األداء األكادميي للمدرسة) api00 (، ومتوسط ​​حجم الصفوف في رياض األطفال حتى الصف الثالث) ASsk3 (، ونسبة الطلبة الذين يتلقون وجبات مجانية) وجبات (- وهو مؤشر على الفقر، ونسبة املعلمني الذين لديهم أوراق اعتماد التدريس الكامل (الكامل). ونتوقع أن يرتبط األداء األكادميي األفضل مع انخفاض حجم الصف، وعدد أقل من الطالب الذين يتلقون وجبات مجانية، ونسبة أعلى من املعلمني الذين يحملون شهادات تفويض كاملة. أدناه، نعرض الأمر ستاتا لاختبار هذا النموذج الانحدار تليها الإخراج ستاتا. يتيح التركيز على المتنبئين الثلاثة، سواء كانت ذات دلالة إحصائية، وإذا كان الأمر كذلك، فإن اتجاه العلاقة. متوسط ​​حجم الفصول (أسك 3-b-2.68)، ليس ذو دلالة إحصائية عند مستوى 0.05 (p0.055)، ولكن فقط فقط. والمعامل سلبي مما يشير إلى أن حجم الصف الأكبر يرتبط بالأداء الأكاديمي المنخفض - وهو ما نتوقعه. بعد ذلك، يكون تأثير الوجبات (b-3.70، p.000) كبيرا ومعاملها سلبي يشير إلى أنه كلما زادت نسبة الطلاب الذين يتلقون وجبات مجانية، انخفض الأداء الأكاديمي. يرجى ملاحظة، أننا لا نقول أن وجبات مجانية تسبب انخفاض الأداء الأكاديمي. ويرتبط متغير الوجبات ارتباطا وثيقا بمستوى الدخل ويؤدي وظائفه كدليل للفقر. وبالتالي، فإن مستويات الفقر المرتفعة ترتبط بانخفاض الأداء الأكاديمي. هذه النتيجة أيضا منطقية. وأخيرا، يبدو أن النسبة المئوية للمعلمين الذين يحملون أوراق اعتماد كاملة (كاملة، b0.11، p.232) لا علاقة لها بالأداء الأكاديمي. ويبدو أن هذا يشير إلى أن نسبة المعلمين الذين يحملون أوراق اعتماد كاملة ليست عاملا مهما في التنبؤ بالأداء الأكاديمي - وكانت هذه النتيجة غير متوقعة إلى حد ما. يجب أن نتخذ هذه النتائج ونكتبها للنشر من هذه النتائج، نستنتج أن أحجام الطبقة الدنيا ترتبط بأداء أعلى، وأن عددا أقل من الطلاب الذين يتلقون وجبات مجانية يرتبط بأداء أعلى، وأن نسبة المعلمين الذين لديهم أوراق اعتماد كاملة كانت لا علاقة لها بالأداء الأكاديمي في المدارس. قبل أن نكتب هذا للنشر، ينبغي لنا أن نفعل عددا من الشيكات للتأكد من أننا يمكن أن تقف بحزم وراء هذه النتائج. نبدأ من خلال الحصول على أكثر دراية ملف البيانات، والقيام التحقق من البيانات الأولية، وتبحث عن أخطاء في البيانات. 1.2 فحص البيانات أولا، يتيح استخدام الأمر وصف لمعرفة المزيد حول ملف البيانات هذا. يمكننا التحقق من عدد الملاحظات لديه ونرى أسماء المتغيرات أنه يحتوي. للقيام بذلك، ونحن ببساطة اكتب ونحن لن تذهب إلى كل من تفاصيل هذا الناتج. لاحظ أن هناك 400 رصد و 21 متغيرات. لدينا متغيرات حول الأداء الأكاديمي في عامي 2000 و 1999 والتغير في الأداء، api00. api99 والنمو على التوالي. لدينا أيضا خصائص مختلفة من المدارس، على سبيل المثال. وحجم الصف، وتعليم أولياء الأمور، ونسبة المعلمين الذين لديهم أوراق اعتماد كاملة وحالات الطوارئ، وعدد الطلاب. لاحظ أنه عندما فعلنا تحليل الانحدار الأصلي قال أنه كان هناك 313 الملاحظات، ولكن الأمر وصف يشير إلى أن لدينا 400 الملاحظات في ملف البيانات. إذا كنت ترغب في معرفة المزيد عن ملف البيانات، هل يمكن أن قائمة كل أو بعض الملاحظات. على سبيل المثال، نورد أدناه الملاحظات الخمسة الأولى. هذا يأخذ الكثير من المساحة على الصفحة، ولكن لا يعطينا الكثير من المعلومات. يمكن أن تكون قائمة بياناتنا مفيدة جدا، ولكنها أكثر فائدة إذا كنت قائمة فقط المتغيرات كنت مهتما في. يتيح قائمة أول 10 ملاحظات للمتغيرات التي نظرنا في تحليلنا الانحدار الأول. ونحن نرى أنه من بين الملاحظات العشرة الأولى، لدينا أربعة قيم مفقودة للوجبات. ومن المرجح أن البيانات المفقودة للوجبات كان لها علاقة بحقيقة أن عدد الملاحظات في تحليلنا الانحداري الأول كان 313 وليس 400. وهناك أداة أخرى مفيدة لمعرفة المتغيرات الخاصة بك هي أمر الكودبوك. يتيح القيام بكودبوك للمتغيرات التي شملناها في تحليل الانحدار، وكذلك متغير يرند. لقد اختلطنا بعض التعليقات على هذا الناتج بين أقواس معقوفة وبخط عريض. كشف أمر الكودبوك عددا من الخصائص التي تستحق المزيد من الدراسة. يتيح استخدام الأمر تلخيص لمعرفة المزيد عن هذه المتغيرات. كما هو مبين أدناه، يكشف الأمر الموجز أيضا العدد الكبير من القيم المفقودة للوجبات (400 - 315 85) ونرى الحد الأدنى غير العادي ل acsk3 من -21. يتيح الحصول على ملخص أكثر تفصيلا ل acsk3. في ستاتا، الفاصلة بعد قائمة المتغيرات تشير إلى أن الخيارات تتبع، في هذه الحالة، الخيار هو التفاصيل. كما ترون أدناه، وخيار التفاصيل يمنحك النسب المئوية، وأكبر أربعة وأصغر القيم، ومقاييس الميل المركزي والتباين، الخ لاحظ أن تلخيص. وأوامر أخرى، يمكن اختصارها: كنا يمكن أن يكون قد كتبتها مجموع acsk3، د. يبدو كما لو أن بعض أحجام الفصول أصبحت سلبية نوعا ما، كما لو كانت علامة سلبية كتبت بشكل غير صحيح أمامها. يتيح القيام بجدولة من حجم الفصل لمعرفة ما إذا كان هذا يبدو معقولا. في الواقع، يبدو أن بعض أحجام الفصول الدراسية حصلت على بعض العلامات السلبية وضعت أمامهم. دعونا ننظر إلى المدرسة ورقم حي لهذه الملاحظات لمعرفة ما إذا كانوا يأتون من نفس المنطقة. في الواقع، يأتون جميعا من منطقة 140. دعونا ننظر في جميع الملاحظات لمنطقة 140. ويبدو أن جميع الملاحظات من المنطقة 140 لديها هذه المشكلة. عندما تجد مثل هذه المشكلة، تريد العودة إلى المصدر الأصلي للبيانات للتحقق من القيم. علينا أن نكشف أننا قمنا بتصنيع هذا الخطأ لأغراض التوضيح، وأن البيانات الفعلية لم يكن لديها مثل هذه المشكلة. دعونا نتظاهر أننا فحصنا مع حي 140 وكانت هناك مشكلة مع البيانات هناك، وضعت الواصلة عن طريق الخطأ أمام أحجام الفصول مما يجعلها سلبية. ونحن سوف تجعل مذكرة لإصلاح هذا يتيح مواصلة التحقق من البيانات لدينا. يتيح إلقاء نظرة على بعض الأساليب الرسومية لفحص البيانات. لكل متغير، فإنه من المفيد لفحصها باستخدام الرسم البياني، بوكسبلوت، و الجذعية ورقة ورقة. يمكن أن تعرض لك هذه الرسوم البيانية معلومات حول شكل المتغيرات بشكل أفضل من الإحصاءات الرقمية البسيطة. نحن نعرف بالفعل عن المشكلة مع acsk3. ولكن دعونا نرى كيف أن هذه الأساليب الرسومية قد كشفت عن مشكلة مع هذا المتغير. أولا، نعرض الرسم البياني ل acsk3. هذا يبين لنا الملاحظات حيث متوسط ​​حجم الصف سلبي. وبالمثل، فإن بكسلوت كان قد دعا هذه الملاحظات إلى اهتمامنا أيضا. يمكنك أن ترى في طريقة الملاحظات السلبية النائية في الجزء السفلي من بوكسبلوت. وأخيرا، كان من المؤكد أن مؤامرة الجذعية والأوراق قد ساعدت في تحديد هذه الملاحظات. هذه المؤامرة يظهر القيم الدقيقة للملاحظات، مشيرا إلى أن هناك ثلاثة -21s، اثنين -20s، واحد -19. نوصي بتخطيط كل هذه الرسوم البيانية للمتغيرات التي سيتم تحليلها. ونحن سوف حذف، نظرا لاعتبارات الفضاء، والتي تبين هذه الرسوم البيانية لجميع المتغيرات. ومع ذلك، في دراسة المتغيرات، ومؤامرة الجذعية والأوراق للكامل يبدو غير عادية إلى حد ما. حتى الآن، لم نر أي مشكلة مع هذا المتغير، ولكن ننظر إلى الجذعية ومؤامرة ورقة كاملة أدناه. فإنه يظهر 104 الملاحظات حيث النسبة المئوية مع الاعتماد الكامل هو أقل من واحد. هذا هو أكثر من 25 من المدارس، ويبدو غير عادي جدا. دعونا ننظر في توزيع التردد الكامل لمعرفة ما اذا كنا نستطيع فهم هذا أفضل. القيم تذهب من 0.42 إلى 1.0، ثم القفز إلى 37 وترتفع من هناك. يبدو كما لو أن بعض النسب يتم إدخالها في الواقع كنسب، على سبيل المثال. تم إدخال 0.42 بدلا من 42 أو 0.96 الذي كان يجب أن يكون 96. دعونا نرى أي منطقة (ق) هذه البيانات جاءت من. نلاحظ أن جميع الملاحظات ال 104 التي كانت كاملة أقل من أو تساوي واحدة جاءت من منطقة 401. دعونا نحصي عدد الملاحظات هناك في منطقة 401 باستخدام الأمر العد ونرى حي 401 لديه 104 الملاحظات. جميع الملاحظات من هذه المنطقة يبدو أن تسجل كنسب بدلا من النسب المئوية. مرة أخرى، دعونا نذكر أن هذه مشكلة التظاهر أننا إدراجها في البيانات لأغراض التوضيح. إذا كانت هذه مشكلة الحياة الحقيقية، ونحن سوف تحقق مع مصدر البيانات والتحقق من المشكلة. سنقدم ملاحظة لحل هذه المشكلة في البيانات أيضا. تقنية رسومية مفيدة أخرى لفحص البيانات الخاصة بك هو مصفوفة سكاتيربلوت. في حين أن هذا على الأرجح أكثر أهمية كأداة تشخيصية تبحث عن غير الخطية والقيم المتطرفة في البيانات الخاصة بك، ويمكن أيضا أن تكون أداة مفيدة لفحص البيانات، وربما الكشف عن المعلومات في التوزيعات المشتركة من المتغيرات الخاصة بك التي لن تكون واضحة من دراسة التوزيعات أحادية المتغير . دعونا ننظر إلى مصفوفة سكاتيربلوت للمتغيرات في نموذج الانحدار لدينا. وهذا يكشف عن المشاكل التي حددناها بالفعل، أي أحجام الفصول السلبية ونسبة الاعتماد الكاملة التي يتم إدخالها كنسب. لقد حددنا ثلاث مشاكل في بياناتنا. هناك العديد من القيم المفقودة للوجبات. كانت هناك سلبيات تم إدخالها بطريق الخطأ قبل بعض أحجام الفصول (acsk3) وكان أكثر من ربع القيم الكاملة كاملة نسب بدلا من النسب المئوية. وتسمى النسخة المصححة من البيانات elemapi2. يتيح استخدام ملف البيانات هذا وكرر تحليلنا ومعرفة ما إذا كانت النتائج هي نفس تحليلنا الأصلي. أولا، يتيح تكرار تحليل الانحدار الأصلي أدناه. الآن، يتيح استخدام ملف البيانات المصححة وكرر تحليل الانحدار. نلاحظ اختلافا كبيرا في النتائج في التحليل الأصلي (أعلاه)، كان acsk3 كبيرا تقريبا، ولكن في التحليل المصحح (أدناه) أظهرت النتائج أن هذا المتغير ليس كبيرا، وربما يرجع ذلك إلى الحالات التي أعطيت فيها حجم الفصل قيمة سالبة. وبالمثل، لم تكن النسبة المئوية للمعلمين ذوي المؤهلات الكاملة كبيرة في التحليل الأصلي، ولكنها مهمة في التحليل المصحح، ربما بسبب الحالات التي أعطيت فيها القيمة كنسبة مع أوراق اعتماد كاملة بدلا من النسبة المئوية. أيضا، لاحظ أن التحليل المصحح يستند إلى 398 ملاحظة بدلا من 313 ملاحظة، وذلك بسبب الحصول على البيانات الكاملة لمتغير الوجبات التي لديها الكثير من القيم المفقودة. من هذه النقطة إلى الأمام، وسوف نستخدم تصحيح، elemapi2. ملف البيانات. قد تحتاج إلى حفظ هذا على جهاز الكمبيوتر الخاص بك حتى تتمكن من استخدامها في التحليلات المستقبلية. حتى الآن قمنا بتغطية بعض المواضيع في التحقق من البيانات / التحقق، ولكننا لم نناقش حقا تحليل الانحدار نفسها. دعونا نتحدث الآن أكثر عن أداء تحليل الانحدار في ستاتا. 1.3 الانحدار الخطي البسيط يتيح البدء بعرض بعض الأمثلة على الانحدار الخطي البسيط باستخدام ستاتا. في هذا النوع من الانحدار، لدينا متغير واحد فقط. ويمكن أن يكون هذا المتغير مستمرا، بمعنى أنه قد يفترض جميع القيم ضمن نطاق، على سبيل المثال، العمر أو الارتفاع، أو قد يكون ثنائي التفرع، وهذا يعني أن المتغير قد يفترض واحد فقط من قيمتين، على سبيل المثال، 0 أو 1. و. سيتم تغطية استخدام المتغيرات الفئوية مع أكثر من مستويين في الفصل 3. هناك استجابة واحدة فقط أو متغير تابع، وهو مستمر. في ستاتا، يتم سرد المتغير التابع مباشرة بعد الأمر ريجريس متبوعا بمتغير واحد أو أكثر للمتغيرات. يتيح فحص العلاقة بين حجم المدرسة والأداء الأكاديمي لمعرفة ما إذا كان حجم المدرسة مرتبطا بالأداء الأكاديمي. على سبيل المثال، api00 هو المتغير التابع والتسجيل هو التنبؤ. يتيح مراجعة هذا الناتج قليلا أكثر بعناية. أولا، نرى أن الاختبار F ذو دلالة إحصائية، مما يعني أن النموذج ذو دلالة إحصائية. و R-تربيع 0،012 يعني أن ما يقرب من 10 من التباين من api00 يتم احتسابها من قبل النموذج، في هذه الحالة، التسجيل. اختبار t للالتحاق يساوي -6.70، وهو ذو دلالة إحصائية، وهذا يعني أن معامل الانحدار للتسجيل يختلف كثيرا عن الصفر. لاحظ أن (-6.70) 2 44.89، وهو نفس إحصاء F (مع بعض خطأ التقريب). معامل التسجيل هو -1998674، أو ما يقرب من -.2، وهذا يعني أن لوحدة واحدة زيادة في التسجيل. فإننا نتوقع انخفاض 2-وحدة في api00. وبعبارة أخرى، من المتوقع أن تحصل المدرسة التي تضم 1100 طالب على درجة من المنهاج التعليمي 20 وحدة أقل من المدرسة التي تضم 1000 طالب. الثابت هو 744.2514، وهذه هي القيمة المتوقعة عند التسجيل يساوي الصفر. في معظم الحالات، والثابتة ليست مثيرة جدا للاهتمام. لقد قمنا بإعداد مخرجات مشروحة مما يدل على الناتج من هذا الانحدار جنبا إلى جنب مع شرح كل من البنود في ذلك. بالإضافة إلى الحصول على جدول الانحدار، يمكن أن يكون من المفيد أن نرى سكاتيربلوت من المتغيرات المتوقعة والمتوقعة مع خط الانحدار تآمر. بعد تشغيل الانحدار، يمكنك إنشاء متغير يحتوي على القيم المتوقعة باستخدام الأمر التنبؤ. يمكنك الحصول على هذه القيم في أي وقت بعد تشغيل الأمر ريجريس، ولكن تذكر أنه بمجرد تشغيل الانحدار الجديد، سوف تستند القيم المتوقعة على الانحدار الأخير. لإنشاء القيم المتوقعة كنت اكتب فقط التنبؤ واسم متغير جديد ستاتا سوف تعطيك القيم المجهزة. في هذا المثال، سيكون اسم المتغير الجديد فف. لذلك سنقوم بكتابة إذا كنا نستخدم الأمر قائمة، ونحن نرى أن تم تركيب قيمة تم إنشاؤها لكل مراقبة. أدناه يمكننا أن تظهر سكاتيربلوت المتغير النتيجة، api00 والمتنبأ، والتسجيل. يمكننا الجمع بين مبعثر مع لفيت لإظهار سكاتيربلوت مع القيم المجهزة. كما ترون، بعض النقاط يبدو أن القيم المتطرفة. إذا كنت تستخدم الخيار ملابيل (سنوم) على الأمر مبعثر، يمكنك ان ترى رقم المدرسة لكل نقطة. هذا يسمح لنا أن نرى، على سبيل المثال، واحدة من القيم المتطرفة هي المدرسة 2910. كما رأينا في وقت سابق، يمكن استخدام الأمر التنبؤ لتوليد القيم المتوقعة (المجهزة) بعد تشغيل التراجع. يمكنك أيضا الحصول على بقايا باستخدام الأمر التنبؤ متبوعا باسم متغير، في هذه الحالة ه. مع الخيار المتبقي. يمكن اختصار هذا الأمر للتنبؤ ه، بقايا أو حتى التنبؤ ه، ص. ويبين الجدول أدناه بعض القيم الأخرى التي يمكن إنشاؤها مع خيار التنبؤ. 1.4 الانحدار المتعدد الآن، دعونا ننظر إلى مثال الانحدار المتعدد، الذي لدينا متغير واحد (تعتمد) متغير ومتعدد. قبل أن نبدأ بمثالنا التالي، نحن بحاجة إلى اتخاذ قرار بشأن المتغيرات التي أنشأناها، لأننا سنقوم بإنشاء متغيرات مماثلة مع الانحدار المتعدد، ونحن لا نريد الحصول على المتغيرات الخلط. على سبيل المثال، في الانحدار البسيط أنشأنا فف متغير لقيمنا المتوقعة (المجهزة) و e للبقايا. إذا أردنا إنشاء قيم متوقعة لمثالنا التالي، فيمكننا استدعاء القيمة المتوقعة شيئا آخر، على سبيل المثال. ففمر. ولكن هذا قد يبدأ في الخلط. يمكننا إسقاط المتغيرات التي أنشأناها، باستخدام قطرة فف ه. بدلا من ذلك، يتيح مسح البيانات في الذاكرة واستخدام ملف البيانات elemapi2 مرة أخرى. عندما نبدأ أمثلة جديدة في الفصول المستقبلية، ونحن سوف مسح ملف البيانات الموجودة واستخدام الملف مرة أخرى لبدء جديدة. لهذا المثال الانحدار المتعدد، سنقوم بتراجع المتغير التابع، api00. على جميع متغيرات التنبؤ في مجموعة البيانات. دعونا فحص الناتج من هذا التحليل الانحدار. كما هو الحال مع الانحدار البسيط، ونحن نتطلع إلى قيمة p من اختبار F لمعرفة ما إذا كان النموذج العام هو كبير. مع قيمة p من صفر إلى أربع منازل عشرية، يكون النموذج ذو دلالة إحصائية. و R-سكارد هو 0.8446، وهذا يعني أن ما يقرب من 84 من التباين من أبي يتم احتسابها من قبل المتغيرات في النموذج. في هذه الحالة، يشير مربع R المعدل إلى أن حوالي 84 من تباين api00 يتم حسابها من قبل النموذج، حتى بعد الأخذ بعين الاعتبار عدد متغيرات التنبؤ في النموذج. تشير معاملات كل من المتغيرات إلى مقدار التغيير الذي يمكن توقعه في api00 نظرا إلى تغير وحدة واحدة في قيمة هذا المتغير، نظرا إلى أن جميع المتغيرات الأخرى في النموذج ثابتة. على سبيل المثال، النظر في المتغير إل. ونحن نتوقع انخفاضا قدره 0.86 في النتيجة api00 لكل زيادة وحدة واحدة في إل. بافتراض أن جميع المتغيرات األخرى في النموذج ثابتة. تفسير الكثير من الناتج من الانحدار المتعدد هو نفسه كما كان ل الانحدار البسيط. لقد أعدنا مخرجا مشروح يوضح بشكل أكثر دقة مخرجات تحليل الانحدار المتعدد. قد تتساءل ما يعني تغيير 0.86 في إيل يعني حقا، وكيف يمكن مقارنة قوة هذا المعامل إلى معامل لمتغير آخر، ويقول وجبات الطعام. لمعالجة هذه المشكلة، يمكننا إضافة خيار إلى الأمر ريجريس يسمى بيتا. والتي سوف تعطينا معاملات الانحدار موحدة. يتم استخدام معاملات بيتا من قبل بعض الباحثين لمقارنة القوة النسبية للمتنبئات المختلفة داخل النموذج. ولأن معاملات بيتا تقاس جميعها بالانحرافات المعيارية، فبدلا من وحدات المتغيرات، يمكن مقارنتها ببعضها البعض. بمعنى آخر، معاملات بيتا هي المعاملات التي يمكنك الحصول عليها إذا كانت النتائج والمتغيرات المتنبئة كلها تحولت عشرات القياسية، وتسمى أيضا عشرات z، قبل تشغيل الانحدار. لأن المعاملات في العمود بيتا كلها في نفس وحدات موحدة يمكنك مقارنة هذه المعاملات لتقييم القوة النسبية لكل من التنبؤات. في هذا المثال، وجبات الطعام لديها أكبر معامل بيتا، -0.66 (في القيمة المطلقة)، و acsk3 لديه أصغر بيتا، 0.013. وبالتالي، فإن زيادة واحدة الانحراف المعياري في وجبات الطعام يؤدي إلى انخفاض 0.66 الانحراف المعياري في أبي المتوقع. مع بقاء المتغيرات الأخرى ثابتة. و، واحد زيادة الانحراف المعياري في acsk3. في المقابل، يؤدي إلى زيادة 0.013 الانحراف المعياري في api00 المتوقعة مع المتغيرات الأخرى في نموذج ثابت. في تفسير هذا الناتج، تذكر أن الفرق بين الأرقام المدرجة في كويف. العمود والعمود بيتا في وحدات القياس. على سبيل المثال، لوصف معامل الخام ل إل كنت أقول أن انخفاض وحدة واحدة كوتا في إل سوف تسفر عن زيادة .86 وحدة في api00 المتوقع. quot ومع ذلك، بالنسبة لمعيار موحد (بيتا) كنت أقول، كوتا معيار واحد انخفاض الانحراف في إل سيؤدي إلى زيادة .15 الانحراف المعياري في api00 توقع. quot الأمر ليستكوف يعطي مخرجات أكثر اتساعا فيما يتعلق بالمعاملات القياسية. أنها ليست جزءا من ستاتا، ولكن يمكنك تحميله عبر الإنترنت مثل هذا. ثم اتبع التعليمات (انظر أيضا كيف يمكنني استخدام الأمر فينديت للبحث عن البرامج والحصول على مساعدة إضافية لمزيد من المعلومات حول استخدام فينديت). الآن بعد أن قمنا بتحميل ليستكويف. يمكننا تشغيله مثل هذا. دعونا نقارن الناتج تراجع مع الإخراج ليستكوف. ستلاحظ أن القيم المدرجة في كويف. t، و قيم بت في نفس المخرجات. القيم المدرجة في العمود بيتا من الناتج تراجع هي نفس القيم في العمود بستادكسي من ليستكويف. ويعطي العمود بسدكس تغير الوحدة في Y متوقعا مع تغير واحد في الانحراف المعياري في X. ويعطي العمود بستدي التغير في الانحراف المعياري في Y المتوقع بتغير وحدة واحدة في X. ويعطي عمود سدوفكس هذا الانحراف المعياري لكل متغير تنبؤي في الموديل. على سبيل المثال، ال بسدكس ل إيل هو -21.3، وهذا يعني أن زيادة واحدة الانحراف المعياري في إيل سوف يؤدي إلى المتوقع 21.3 وحدة انخفاض في أبي 00. قيمة بستدي ل إيل -0.0060 تعني أنه لوحدة واحدة، واحد في المئة، وزيادة في متعلمي اللغة الإنجليزية، ونحن نتوقع انخفاضا 0.006 الانحراف المعياري في أبي 00. لأن قيم بستدكس هي في وحدات قياسية للمتغيرات التنبؤ، يمكنك استخدام هذه المعاملات لمقارنة القوة النسبية للتنبؤات مثل كنت مقارنة معاملات بيتا. الفرق هو معاملات بستكس يتم تفسيرها على أنها تغييرات في وحدات متغير النتيجة بدلا من وحدات موحدة للمتغير النتيجة. على سبيل المثال، فإن بستكس للوجبات مقابل إل هو -94 مقابل -21، أو حوالي 4 أضعاف كبيرة، ونفس النسبة كنسبة من معامل بيتا. لقد أنشأنا المخرجات المشروح الذي يشرح بشكل أكثر دقة الناتج من ليستكوف. حتى الآن، ونحن قلقون أنفسنا مع اختبار متغير واحد في وقت واحد، على سبيل المثال النظر في معامل ل، وتحديد إذا كان ذلك كبيرا. يمكننا أيضا اختبار مجموعات من المتغيرات، وذلك باستخدام أمر الاختبار، لمعرفة ما إذا كانت مجموعة المتغيرات كبيرة. أولا، يتيح البدء عن طريق اختبار متغير واحد، إل. باستخدام أمر الاختبار. إذا قارنت هذا الإخراج مع الإخراج من الانحدار الأخير يمكنك أن ترى أن نتيجة اختبار F، 16.67، هو نفس مربع نتيجة الاختبار تي في الانحدار (-4.0832 16.67). لاحظ أنك يمكن أن تحصل على نفس النتائج إذا قمت بكتابة ما يلي منذ ستاتا افتراضيا لمقارنة المصطلحات (s) المدرجة إلى 0. ربما يكون اختبار أكثر إثارة للاهتمام لمعرفة ما إذا كان مساهمة حجم الفصل كبيرة. وبما أن المعلومات المتعلقة بحجم الصف موجودة في متغيرين، acsk3 و acs46. ونحن تشمل كل من هذه مع أمر الاختبار. ويعني اختبار F الهام، 3.95، أن المساهمة الجماعية لهذين المتغيرين كبيرة. طريقة واحدة للتفكير في هذا، هو أن هناك فرقا كبيرا بين نموذج مع acsk3 و acs46 بالمقارنة مع نموذج بدونها، أي أن هناك فرقا كبيرا بين نموذج كوتيفولكوت ونماذج كريدوسدكوت. وأخيرا، كجزء من القيام بتحليل الانحدار المتعدد قد تكون مهتمة في رؤية الارتباطات بين المتغيرات في نموذج الانحدار. يمكنك القيام بذلك باستخدام الأمر كوريلات كما هو موضح أدناه. إذا نظرنا إلى الارتباطات مع api00. ونحن نرى وجبات الطعام ولها اثنين من أقوى العلاقات مع api00. وهذه الارتباطات سلبية، بمعنى أنه كلما انخفضت قيمة متغير واحد، فإن قيمة المتغير الآخر تميل إلى الارتفاع. مع العلم أن هذه المتغيرات ترتبط بقوة مع api00. قد نتوقع أنها ستكون متغيرات مؤثرة إحصائيا ذات دلالة إحصائية في نموذج الانحدار. يمكننا أيضا استخدام الأمر بوكور للقيام الارتباطات الزوجية. أهم الفرق بين الارتباط و بوكور هو الطريقة التي يتم بها معالجة البيانات المفقودة. مع ارتباط. يتم إسقاط ملاحظة أو حالة إذا كان أي متغير له قيمة مفقودة، وبعبارة أخرى، ربط الاستخدامات ليستويز. وتسمى أيضا كاسويس، الحذف. يستخدم بوكور حذف الزوجين، وهذا يعني أن الملاحظة تسقط فقط إذا كان هناك قيمة مفقودة لزوج من المتغيرات يجري الارتباط. اثنين من الخيارات التي يمكنك استخدامها مع بوكور. ولكن ليس مع ارتباط. هي الخيار سيغ، الذي سيعطي مستويات دلالة للارتباطات والخيار أوبس، الذي سيعطي عدد الملاحظات المستخدمة في الارتباط. مثل هذا الخيار ليس ضروريا مع كور كما ستاتا يسرد عدد من الملاحظات في الجزء العلوي من الإخراج. 1.5 المتغيرات التحويلية ركزنا في وقت سابق على فحص البيانات الخاصة بك عن الأخطاء المحتملة. في الفصل التالي، سنركز على تشخيص الانحدار للتحقق مما إذا كانت بياناتك تلبي افتراضات الانحدار الخطي. وهنا سنركز على مسألة الحياة الطبيعية. ويعتقد بعض الباحثين أن الانحدار الخطي يتطلب توزيع النتائج (التابعة) والمتغيرات التنبؤية بشكل طبيعي. ونحن بحاجة إلى توضيح هذه المسألة. في الواقع، هو بقايا التي تحتاج إلى أن توزع عادة. في الواقع، يجب أن تكون البقايا طبيعية فقط للاختبارات التائية لتكون صالحة. ولا يتطلب تقدير معاملات الانحدار بقايا موزعة بشكل طبيعي. وبما أننا مهتمون بإجراء اختبارات t صحيحة، فإننا سنحقق في القضايا المتعلقة بالحياة الطبيعية. والسبب الشائع للمخلفات غير الموزعة بشكل طبيعي هو نتيجة غير موزعة بشكل طبيعي و / أو متغيرات تنبؤية. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment