הניתוח הוא סטטיסטי רב משתנים. ניתוח סטטיסטי רב-משתני (RUR 128.00) אינו חל על שיטות סטטיסטיות רב-משתניות

אובייקטים חברתיים וכלכליים, ככלל, מאופיינים במספר רב למדי של פרמטרים היוצרים וקטורים רב-ממדיים, ולבעיות לימוד היחסים בין מרכיבי הווקטורים הללו יש חשיבות מיוחדת במחקרים כלכליים וחברתיים, ויחסים אלו חייבים להיות מזוהה על בסיס מספר מוגבל של תצפיות רב-ממדיות.

ניתוח סטטיסטי רב-משתני הוא קטע של סטטיסטיקה מתמטית החוקר את שיטות האיסוף והעיבוד של נתונים סטטיסטיים רב-משתנים, שיטתיותם ועיבודם על מנת לזהות את אופי ומבנה הקשרים בין מרכיבי התכונה הרב-משתנית הנלמדת, ולהסיק מסקנות מעשיות.

שים לב ששיטות איסוף הנתונים עשויות להשתנות. לכן, אם הכלכלה העולמית נחקרת, אז זה טבעי לקחת מדינות כאובייקטים שעליהם נצפים ערכי הווקטור X, אבל אם המערכת הכלכלית הלאומית נחקרת, אז זה טבעי להתבונן בערכים של הווקטור X באותה מדינה (המעניינת את החוקר) בנקודות זמן שונות.

שיטות סטטיסטיות כגון קורלציה מרובה וניתוח רגרסיה נלמדות באופן מסורתי בקורסים של תורת ההסתברות וסטטיסטיקה מתמטית, הדיסציפלינה "אקונומטריה" מוקדש לשיקול של היבטים יישומיים של ניתוח רגרסיה.

מדריך זה מוקדש לשיטות אחרות לחקר אוכלוסיות כלליות רב-משתניות המבוססות על נתונים סטטיסטיים.

שיטות להקטנת המימד של מרחב רב-ממדי מאפשרות, ללא אובדן משמעותי של מידע, לעבור מהמערכת המקורית של מספר רב של גורמים הקשורים זה בזה למערכת של מספר קטן משמעותית של גורמים נסתרים (בלתי ניתנים לצפייה) הקובעים את השונות של התכונות הראשוניות. הפרק הראשון מתאר את השיטות של ניתוח רכיבים וגורמים, שניתן להשתמש בהן כדי לזהות דפוסים קיימים באופן אובייקטיבי, אך לא ניתנים לצפייה ישירה, תוך שימוש במרכיבים או גורמים עיקריים.

שיטות סיווג רב ממדי נועדו לחלק אוספים של אובייקטים (המאופיינים במספר רב של תכונות) למחלקות, שכל אחת מהן צריכה לכלול אובייקטים הומוגניים או דומים במובן מסוים. סיווג כזה המבוסס על נתונים סטטיסטיים על ערכי תכונות על אובייקטים יכול להתבצע באמצעות שיטות של ניתוח אשכולות ומבחין, הנדונות בפרק השני (ניתוח סטטיסטי רב משתני באמצעות "STATISTICA").

הפיתוח של טכנולוגיית מחשבים ותוכנות תורם להחדרה נרחבת של שיטות ניתוח סטטיסטי רב משתנים הלכה למעשה. חבילות יישומים בעלות ממשק משתמש נוח, כגון SPSS, Statistica, SAS וכו' מסירות את הקשיים ביישום שיטות אלו, שהם מורכבות המנגנון המתמטי המבוסס על אלגברה לינארית, תורת הסתברות וסטטיסטיקה מתמטית, והסרבול של חישובים.

עם זאת, השימוש בתוכנות ללא הבנת המהות המתמטית של האלגוריתמים בהם נעשה שימוש תורם לפיתוח האשליה של החוקר בדבר פשטות השימוש בשיטות סטטיסטיות רב-משתניות, מה שעלול להוביל לתוצאות שגויות או בלתי סבירות. ניתן להשיג תוצאות מעשיות משמעותיות רק על בסיס ידע מקצועי בתחום הנתמך בידע של שיטות מתמטיות וחבילות יישומים בהן מיושמות שיטות אלו.

לכן, עבור כל אחת מהשיטות הנחשבות בספר זה ניתן מידע תיאורטי בסיסי, לרבות אלגוריתמים; היישום של שיטות ואלגוריתמים אלה בחבילות יישומים נדון. השיטות הנחשבות מומחשות עם דוגמאות ליישום המעשי שלהן בכלכלה באמצעות חבילת SPSS.

המדריך נכתב על בסיס התנסות בקריאת הקורס "שיטות סטטיסטיות רב משתנות" לסטודנטים של האוניברסיטה הממלכתית לניהול. למחקר מפורט יותר של שיטות ניתוח סטטיסטי רב-משתני יישומי, מומלץ ספרים.

ההנחה היא שהקורא מכיר היטב את קורסי האלגברה הלינארית (למשל בכרך ספר הלימוד ובנספח לספר הלימוד), תורת ההסתברות וסטטיסטיקה מתמטית (למשל בכרך ספר הלימוד).

אקונומטריה

ניתוח סטטיסטי רב משתני

בניתוח סטטיסטי רב-משתני, מדגם מורכב מאלמנטים של מרחב רב-משתני. מכאן שמו של סעיף זה של שיטות אקונומטריות. מבין הבעיות הרבות של ניתוח סטטיסטי רב-משתני, הבה נבחן שתיים - התאוששות וסיווג תלות.

הערכת פונקציה חזויה ליניארית

נתחיל בבעיה של הערכת נקודה וביטחון של פונקציית ניבוי לינארית של משתנה אחד.

הנתונים הראשוניים הם קבוצה של n זוגות של מספרים (t k , x k), k = 1,2,...,n, כאשר t k הוא משתנה בלתי תלוי (לדוגמה, זמן), ו-x k הוא משתנה תלוי (לדוגמה, מדד האינפלציה, שער הדולר, הייצור החודשי או גודל הפדיון היומי של האאוטלט). ההנחה היא שמשתנים קשורים

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

כאשר a ו-b הם פרמטרים שאינם ידועים לסטטיסטיקה ונתונים לאומדן, ו-e k הם שגיאות המעוותות את התלות. ממוצע אריתמטי של נקודות זמן

t cf \u003d (t 1 + t 2 + ... + t n) / n

הוכנס למודל כדי להקל על חישובים נוספים.

בדרך כלל, הפרמטרים a ו-b של התלות הליניארית נאמדים בשיטת הריבועים הקטנים ביותר. הקשר המשוחזר משמש לאחר מכן לחיזוי נקודות ומרווחים.

כידוע, שיטת הריבועים הקטנים פותחה על ידי המתמטיקאי הגרמני הגדול K. Gauss בשנת 1794. לפי שיטה זו, כדי לחשב את הפונקציה הטובה ביותר שמתקרבת באופן ליניארי לתלות של x ב-t, יש לשקול פונקציה של שני משתנים

אומדני הריבועים הקטנים הם אותם ערכים של a* ו-b* שעבורם הפונקציה f(a,b) מגיעה למינימום על כל ערכי הארגומנטים.

כדי למצוא אומדנים אלה, יש צורך לחשב את הנגזרות החלקיות של הפונקציה f(a,b) ביחס לארגומנטים a ו-b, להשוות אותם ל-0, ואז למצוא את האומדנים מהמשוואות המתקבלות: יש לנו:

הבה נהפוך את החלקים הנכונים של היחסים שהושגו. הבה ניקח את הגורמים המשותפים 2 ו-(-1) מתוך סימן הסכום. אז בואו נסתכל על התנאים. נפתח את הסוגריים בביטוי הראשון, נקבל שכל איבר מחולק לשלושה. בביטוי השני, כל איבר הוא גם סכום של שלושה. אז כל אחד מהסכומים מתחלק לשלושה סכומים. יש לנו:

נשווה את הנגזרות החלקיות ל-0. אז ניתן להפחית את הגורם (-2) במשוואות המתקבלות. בגלל ה

(1)

המשוואות לובשות את הצורה

לכן, לאומדנים של שיטת הריבועים הקטנים יש את הצורה

(2)

בשל יחס (1), ניתן לכתוב את האומדן a* בצורה יותר סימטרית:

לא קשה להפוך את האומדן הזה לצורה

לכן, לפונקציה המשוחזרת, שניתן להשתמש בה כדי לחזות ולבצע אינטרפולציה, יש את הצורה

x*(t) = a*(t - t cf) + b*.

הבה נשים לב לעובדה שהשימוש ב-t cf בנוסחה האחרונה אינה מגבילה בשום אופן את כלליותה. השווה עם מודל תצוגה

x k = c t k + d + e k , k = 1,2,...,n.

זה ברור

הערכות הפרמטרים קשורות באופן דומה:

אין צורך להתייחס למודל הסתברותי כלשהו כדי לקבל הערכות פרמטרים ונוסחה חזויה. עם זאת, על מנת ללמוד את השגיאות באומדני פרמטרים ואת הפונקציה המשוחזרת, כלומר. לבנות רווחי סמך עבור a*, b* ו-x*(t), יש צורך במודל כזה.

מודל הסתברותי לא פרמטרי. תנו לערכים של המשתנה הבלתי תלוי t להיקבע, והשגיאות e k , k = 1,2,...,n, יהיו משתנים אקראיים מפוזרים זהים עם אפס תוחלת ושונות מתמטית

סטטיסטיקה לא ידועה.

בעתיד, נשתמש שוב ושוב במשפט הגבול המרכזי (CLT) של תורת ההסתברות עבור הכמויות e k , k = 1,2,...,n (עם משקלים), לכן, כדי למלא את תנאיו, יש צורך להניח, למשל, שהשגיאות e k , k = 1,2 ,...,n, הן סופיות או בעלות מומנט מוחלט שלישי סופי. עם זאת, אין צורך להתמקד ב"מצבי סדירות" תוך מתמטיים אלו.

התפלגויות אסימפטוטיות של הערכות פרמטרים. מנוסחה (2) עולה כי

(5)

לפי ה-CLT, לאומדן b* יש התפלגות נורמלית אסימפטוטית עם תוחלת b ושונות

אשר מוערך להלן.

מהנוסחאות (2) ו- (5) נובע מכך

האיבר האחרון ביחס השני נעלם כשמסכמים אותו מעל i, ולכן נובע מהנוסחאות (2-4)

(6)

נוסחה (6) מראה כי ההערכה

הוא נורמלי מבחינה אסימפטוטית עם ממוצע ושונות

שימו לב שנורמליות רב מימדית קיימת כאשר כל איבר בנוסחה (6) קטן בהשוואה לסכום כולו, כלומר.

מהנוסחאות (5) ו-(6) ומההנחות הראשוניות לגבי השגיאות, עולה גם חוסר ההטיה של אומדני הפרמטרים.

חוסר ההטיה והנורמליות האסימפטוטית של הערכות הריבועים הקטנים מקלות לציין עבורן גבולות ביטחון אסימפטוטיים (בדומה לגבולות בפרק הקודם) ולבחון השערות סטטיסטיות, למשל, לגבי שוויון לערכים מסוימים, בעיקר 0. נעזוב את הקורא ההזדמנות לכתוב נוסחאות לחישוב גבולות ביטחון ולגבש כללים לבדיקת ההשערות שהוזכרו.

התפלגות אסימפטוטית של התפקוד הפרוגנוסטי. מהנוסחאות (5) ו-(6) נובע מכך

הָהֵן. ההערכה של הפונקציה הפרוגנוסטית הנבדקת אינה מוטה. בגלל זה

יחד עם זאת, מאחר והשגיאות אינן תלויות במצטבר ו

, זה

לכן,

מבוא

פרק 1 ניתוח רגרסיה מרובה

פרק 2. ניתוח אשכולות

פרק 3. ניתוח גורמים

פרק 4. ניתוח מפלים

בִּיבּלִיוֹגְרָפִיָה

מבוא

מידע ראשוני במחקרים סוציו-אקונומיים מוצג לרוב כמערכת של אובייקטים, שכל אחד מהם מאופיין במספר תכונות (אינדיקטורים). מכיוון שמספרם של אובייקטים ומאפיינים כאלה יכול להגיע לעשרות ומאות, והניתוח החזותי של נתונים אלה אינו יעיל, הבעיות של צמצום, ריכוז הנתונים הראשוניים, חשיפת המבנה והקשר ביניהם בהתבסס על בניית מאפיינים כלליים של מתעוררות קבוצה של תכונות וקבוצה של אובייקטים. ניתן לפתור בעיות כאלה על ידי שיטות של ניתוח סטטיסטי רב משתנים.

ניתוח סטטיסטי רב-משתני הוא חלק מהסטטיסטיקה המוקדש לשיטות מתמטיות שמטרתן לזהות את אופי ומבנה היחסים בין מרכיבי המחקר ונועדה להשיג מסקנות מדעיות ומעשיות.

עיקר תשומת הלב בניתוח סטטיסטי רב-משתני מוקדשת לשיטות מתמטיות לבניית תכניות אופטימליות לאיסוף, שיטתיות ועיבוד נתונים, שמטרתן לזהות את אופי ומבנה הקשרים בין מרכיבי התכונה הרב-משתנית הנלמדת ונועדו להשיג מסקנות מדעיות ומעשיות.

המערך הראשוני של נתונים רב-ממדיים לביצוע ניתוח רב-משתני הוא בדרך כלל תוצאות מדידת המרכיבים של תכונה רב-ממדית עבור כל אחד מהאובייקטים של האוכלוסייה הנחקרת, כלומר. רצף של תצפיות רב משתנות. תכונה רב-משתנית מתפרשת לרוב כ, ורצף של תצפיות כמדגם מהאוכלוסייה הכללית. במקרה זה, הבחירה בשיטת עיבוד הנתונים הסטטיסטיים הראשוניים נעשית על בסיס הנחות מסוימות לגבי אופי חוק ההפצה של התכונה הרב-ממדית הנלמדת.

1. ניתוח סטטיסטי רב-משתני של התפלגויות רב-משתניות והמאפיינים העיקריים שלהן מכסה מצבים שבהם התצפיות המעובדות הן בעלות אופי הסתברותי, כלומר. מתפרשים כמדגם מהאוכלוסייה הכללית המקבילה. המשימות העיקריות של תת-סעיף זה כוללות: אומדן סטטיסטי של ההתפלגויות הרב-משתניות שנחקרו והפרמטרים העיקריים שלהן; חקר המאפיינים של האומדנים הסטטיסטיים בהם נעשה שימוש; מחקר של התפלגויות הסתברות עבור מספר סטטיסטיקות, המשמשות לבניית קריטריונים סטטיסטיים לבדיקת השערות שונות לגבי האופי ההסתברותי של הנתונים הרב-משתנים המנותחים.

2. ניתוח סטטיסטי רב-משתני של האופי והמבנה של יחסי הגומלין של מרכיבי התכונה הרב-משתנית הנלמדת משלב את המושגים והתוצאות הטבועות בשיטות ובמודלים כגון ניתוח, ניתוח שונות, ניתוח שיתופיות, ניתוח גורמים וכו'. שיטות המשתייכות לקבוצה זו כוללות הן אלגוריתמים המבוססים על הנחת האופי ההסתברותי של הנתונים, והן שיטות שאינן משתלבות במסגרת של מודל הסתברותי כלשהו (אלה האחרונות מכונות לעתים קרובות שיטות).

3. ניתוח סטטיסטי רב-ממדי של המבנה הגיאומטרי של מערך התצפיות הרב-משתני הנלמד משלב את המושגים והתוצאות הטבועים במודלים ובשיטות כגון ניתוח מבחין, ניתוח אשכולות, קנה מידה רב-ממדי. Nodal עבור מודלים אלה הוא הרעיון של מרחק, או מדד של קרבה בין האלמנטים המנותחים כנקודות של מרחב כלשהו. במקרה זה, ניתן לנתח גם אובייקטים (כנקודות שצוינו במרחב התכונות) וגם תכונות (כנקודות שצוינו במרחב האובייקטים).

הערך היישומי של ניתוח סטטיסטי רב-משתני מורכב בעיקר בפתרון שלוש הבעיות הבאות:

משימת המחקר הסטטיסטי של התלות בין המדדים הנבחנים;

המשימה של סיווג אלמנטים (אובייקטים או תכונות);

· המשימה של צמצום המימד של מרחב התכונה הנדון ובחירת המאפיינים האינפורמטיביים ביותר.

ניתוח רגרסיה מרובה נועד לבנות מודל המאפשר לערכי משתנים בלתי תלויים לקבל הערכות של ערכי המשתנה התלוי.

רגרסיה לוגיסטית לפתרון בעיית הסיווג. זהו סוג של רגרסיה מרובה, שמטרתה לנתח את הקשר בין מספר משתנים בלתי תלויים למשתנה תלוי.

ניתוח גורמים עוסק בקביעת מספר קטן יחסית של גורמים נסתרים (סמויים), שהשונות בהם מסבירה את השונות של כל האינדיקטורים הנצפים. ניתוח גורמים נועד לצמצם את מימד הבעיה הנבדקת.

ניתוח אשכולות ומבחין נועדו לחלק אוספים של אובייקטים למחלקות, שכל אחת מהן צריכה לכלול אובייקטים הומוגניים או קרובים במובן מסוים. בניתוח אשכולות, לא ידוע מראש כמה קבוצות של עצמים ייצאו ומה גודלן. ניתוח מפלה מחלק אובייקטים למחלקות קיימות מראש.

פרק 1 ניתוח רגרסיה מרובה

משימה: חקר שוק הדיור באוראל (אזורי ברית המועצות והצפון).

הטבלה מציגה נתונים על מחיר הדירות באוראל ועל גורמים שונים הקובעים אותו:

· איזור כולל;

שטח המטבח

· מרחב מחייה;

סוג של בית

מספר החדרים. (איור 1)

אורז. 1 נתונים ראשוניים

בעמודה "אזור" נעשה שימוש בכינויים:

3 - סובייטית (אליטה, שייכת לאזורים המרכזיים);

4 - צפון.

בעמודה "סוג בית":

1 - לבנים;

0 - פאנל.

נדרש:

1. נתחו את הקשר של כל הגורמים עם מחוון "מחיר" ובינם לבין עצמם. בחר את הגורמים המתאימים ביותר לבניית מודל רגרסיה;

2. בניית משתנה דמה המשקף את השתייכות הדירה לאזורים המרכזיים והפריפריאליים של העיר;

3. בנו מודל רגרסיה ליניארי לכל הגורמים, כולל משתנה דמה בו. הסבר את המשמעות הכלכלית של הפרמטרים של המשוואה. להעריך את איכות המודל, את המובהקות הסטטיסטית של המשוואה והפרמטרים שלה;

4. חלקו את הגורמים (למעט משתנה הדמה) לפי מידת ההשפעה על מחוון "מחיר";

5. בנה מודל רגרסיה ליניארי עבור הגורמים המשפיעים ביותר, תוך השארת משתנה דמה במשוואה. להעריך את האיכות והמובהקות הסטטיסטית של המשוואה והפרמטרים שלה;

6. להצדיק את כדאיות או חוסר כדאיות של הכללת משתנה דמה במשוואת סעיפים 3 ו-5;

7. אומדני מרווחים של פרמטרי המשוואה בהסתברות של 95%;

8. קבע כמה תעלה דירה בשטח כולל של 74.5 מ"ר באזור עילית (פריפריאלי).

ביצועים:

1. לאחר ניתוח הקשר של כל הגורמים עם מחוון "מחיר" ובינם לבין עצמם, נבחרו הגורמים המתאימים ביותר לבניית מודל רגרסיה בשיטת ההכללה "קדימה":

א) השטח הכולל;

ג) מספר החדרים.

משתנים כלולים/לא נכללים(א)

משתנה תלוי: מחיר

2. משתנה X4 "אזור" הוא משתנה דמה, שכן יש לו 2 ערכים: 3-שייך לאזור המרכז "סובייטי", 4- לאזור הפריפריאלי "סברני".

3. בואו נבנה מודל רגרסיה לינארית לכל הגורמים (כולל משתנה הדמה X4).

דגם שהתקבל:

הערכת איכות המודל.

שגיאה רגילה = 126.477

יחס דורבין-ווטסון = 2.136

בדיקת המשמעות של משוואת הרגרסיה

ערך מבחן F-Fisher = 41.687

4. בואו נבנה מודל רגרסיה לינארית עם כל הגורמים (חוץ מהמשתנה הדמה X4)

לפי מידת ההשפעה על מחוון "מחיר", הם חולקו:

הגורם המשמעותי ביותר הוא השטח הכולל (F=40.806)

הגורם השני בחשיבותו הוא מספר החדרים (F=29.313)

5. משתנים כלולים/לא נכללים

משתנה תלוי: מחיר

6. בואו נבנה מודל רגרסיה לינארית לגורמים המשפיעים ביותר עם משתנה דמה, במקרה שלנו הוא אחד הגורמים המשפיעים.

דגם שהתקבל:

Y \u003d 348.349 + 35.788 X1 -217.075 X4 +305.687 X7

הערכת איכות המודל.

מקדם קביעה R2 = 0.807

מראה את שיעור השונות של התכונה המתקבלת בהשפעת הגורמים הנחקרים. כתוצאה מכך נלקחת בחשבון כ-89% מהשונות של המשתנה התלוי ובשל השפעת הגורמים הכלולים במודל.

מקדם מתאם מרובה R = 0.898

מראה את סמיכות הקשר בין המשתנה התלוי Y עם כל גורמי ההסבר הכלולים במודל.

שגיאה רגילה = 126.477

יחס דורבין-ווטסון = 2.136

בדיקת המשמעות של משוואת הרגרסיה

ערך מבחן F-Fisher = 41.687

יש לזהות את משוואת הרגרסיה כמתאימה, המודל נחשב משמעותי.

הגורם המשמעותי ביותר הוא מספר החדרים (F=41,687)

הגורם השני בחשיבותו הוא השטח הכולל (F=40.806)

הגורם השלישי בחשיבותו הוא האזור (F=32.288)

7. משתנה הדמה X4 הוא גורם משמעותי ולכן רצוי לכלול אותו במשוואה.

אומדני המרווחים של פרמטרי המשוואה מציגים את תוצאות החיזוי על ידי מודל הרגרסיה.

עם הסתברות של 95%, נפח המכירות בחודש התחזית יהיה מ-540.765 ל-1080.147 מיליון רובל.

8. קביעת עלות דירה באזור עילית

עבור חדר אחד U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

עבור 2 חדרים U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

עבור 3 חדרים U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

בפריפריה

עבור חדר אחד U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 1

עבור 2 חדרים U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

עבור 3 חדרים U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

פרק 2. ניתוח אשכולות

מטלה: לימוד מבנה ההוצאות הכספיות והחיסכון של האוכלוסייה.

הטבלה מציגה את מבנה ההוצאות והמזומנים של האוכלוסייה לפי אזורים של המחוז הפדרלי המרכזי של הפדרציה הרוסית בשנת 2003. עבור האינדיקטורים הבאים:

PTIOU - רכישת סחורה ותשלום עבור שירותים;

· OPiV - תשלומים ותרומות חובה;

PN - רכישת מקרקעין;

· PFA – גידול בנכסים פיננסיים;

· DR - גידול (ירידה) של כסף בידי האוכלוסייה.

אורז. 8 נתונים ראשוניים

נדרש:

1) לקבוע את המספר האופטימלי של אשכולות לחלוקת אזורים לקבוצות הומוגניות לפי כל מאפייני הקיבוץ בו-זמנית;

2) לבצע את סיווג האזורים בשיטה היררכית עם אלגוריתם של יחסים בין קבוצות ולהציג את התוצאות בצורה של דנדרוגרמה;

3) לנתח את סדרי העדיפויות העיקריים של הוצאות מזומנים וחיסכון באשכולות שנוצרו;

ביצועים:

1) קבע את המספר האופטימלי של אשכולות לחלוקת אזורים לקבוצות הומוגניות לפי כל מאפייני הקיבוץ בו-זמנית;

כדי לקבוע את המספר האופטימלי של אשכולות, עליך להשתמש בניתוח אשכולות היררכי ולהתייחס לטבלה "שלבי צבירה" לעמודה "מקדמים".

מקדמים אלה מרמזים על המרחק בין שני אשכולות, שנקבע על בסיס מידת המרחק שנבחרה (מרחק אוקלידי). בשלב שבו מידת המרחק בין שני אשכולות גדלה בפתאומיות, יש לעצור את תהליך ההתמזגות לאשכולות חדשים.

כתוצאה מכך, המספר האופטימלי של אשכולות נחשב כשווה להפרש בין מספר התצפיות (17) למספר הצעד (14), ולאחר מכן המקדם גדל בפתאומיות. לפיכך, המספר האופטימלי של אשכולות הוא 3. (איור 9)

אשכול ניתוח מתמטי סטטיסטי

אורז. 9 טבלה "שלבי סינון"

2) לבצע סיווג אזורים בשיטה היררכית עם אלגוריתם של יחסים בין קבוצות ולהציג את התוצאות בצורה של דנדרוגרמה;

כעת, באמצעות המספר האופטימלי של אשכולות, אנו מסווגים אזורים בשיטה היררכית. ובפלט נפנה לטבלה "שייכות לאשכולות". (איור 10)

אורז. 10 טבלה "שייכות לאשכולות"

על איור. 10 מראה בבירור כי אשכול 3 כולל 2 אזורים (קלוגה, מוסקבה) ומוסקבה, אשכול 2 כולל שני אזורים (בריאנסק, וורונז', איבנובו, ליפטסק, אוריול, ריאזאן, סמולנסק, טמבוב, טבר), אשכול 1 - בלגורוד, ולדימיר, קוסטרומה , קורסק, טולה, ירוסלב.

אורז. 11 דנדרוגרמה

3) לנתח את סדרי העדיפויות העיקריים של הוצאות מזומנים וחיסכון באשכולות שנוצרו;

כדי לנתח את האשכולות המתקבלים, עלינו לערוך "השוואת ממוצעים". חלון הפלט מציג את הטבלה הבאה (איור 12)

אורז. 12 ערכי ממוצע של משתנים

בטבלה "ערכים ממוצעים" נוכל להתחקות אחר אילו מבנים זוכים לעדיפות הגבוהה ביותר בחלוקת הוצאות המזומן והחיסכון של האוכלוסייה.

ראשית, יש לציין כי העדיפות הגבוהה ביותר בכל התחומים ניתנת לרכישת סחורה ותשלום עבור שירותים. הפרמטר מקבל ערך גדול יותר באשכול השלישי.

את המקום השני תופס הצמיחה של נכסים פיננסיים. הערך הגבוה ביותר באשכול 1.

המקדם הקטן ביותר באשכול 1 ו-2 מיועד ל"רכישת מקרקעין", ובאשכול 3 נחשפה ירידה ניכרת בכסף בידי האוכלוסייה.

ככלל, רכישת סחורות ושירותים ורכישה חסרת משמעות של מקרקעין הם בעלי חשיבות מיוחדת עבור האוכלוסייה.

4) השווה את הסיווג המתקבל עם התוצאות של יישום אלגוריתם הקשר תוך-קבוצתי.

בניתוח היחסים הבין-קבוצתיים, המצב כמעט לא השתנה, למעט אזור טמבוב, שנפל ל-1 מתוך 2 אשכולות (איור 13).

אורז. 13 ניתוח יחסים תוך קבוצתיים

לא חלו שינויים בטבלה "ממוצעים".

פרק 3. ניתוח גורמים

משימה: ניתוח הפעילות של מפעלי תעשייה קלה.

נתוני סקר זמינים עבור 20 מפעלי תעשייה קלה (איור 14) לפי המאפיינים הבאים:

X1 - רמת פריון ההון;

X2 - עוצמת העבודה של יחידת ייצור;

X3 - חלקם של חומרי הרכש בסך העלויות;

X4 - מקדם העברת ציוד;

X5 - בונוסים ותגמול לעובד;

X6 - שיעור ההפסדים מנישואין;

X7 - עלות שנתית ממוצעת של נכסי ייצור קבועים;

X8 - קרן השכר השנתית הממוצעת;

X9 - רמת הסחירות של מוצרים;

· X10 – מדד נכסים קבוע (יחס רכוש קבוע ונכסים לא שוטפים אחרים לכספים);

X11 - מחזור הון חוזר;

X12 - עלויות אי ייצור.

איור 14 נתונים ראשוניים

נדרש:

1. לבצע ניתוח גורמים של המשתנים הבאים: 1,3,5-7, 9, 11,12, לזהות ולפרש מאפיינים של גורמים;

2. לציין את המפעלים המשגשגים והמבטיחים ביותר.

ביצועים:

1. ערכו ניתוח גורמים של המשתנים הבאים: 1,3,5-7, 9, 11,12, זיהוי ופרש מאפיינים של גורמים.

ניתוח גורמים הוא אוסף של שיטות המאפשרות, על בסיס יחסים אמיתיים של אובייקטים (תכונות), לזהות מאפיינים הכללים סמויים (מרומזים) של המבנה הארגוני.

בתיבת הדו-שיח של ניתוח גורמים, בחר את המשתנים שלנו, ציין את הפרמטרים הדרושים.

אורז. 15 סה"כ שונות מוסברת

לפי טבלת "שונות מוסברת כוללת" ניתן לראות כי זוהו 3 גורמים המסבירים 74.8% מהווריאציות של המשתנים - המודל הבנוי די טוב.

כעת אנו מפרשים את סימני הגורמים לפי "מטריקס של רכיבים מסתובבים": (איור 16).

אורז. 16 מטריצה של רכיבים מסובבים

פקטור 1 קשור באופן הדוק ביותר לרמת מכירות המוצר ויש לו קשר הפוך עם עלויות שאינן ייצור.

פקטור 2 קשור באופן הדוק ביותר לחלקם של חומרי הרכש בסך העלויות ולחלק ההפסדים מנישואין ויש לו קשר הפוך עם בונוסים ותגמול לעובד.

פקטור 3 קשור באופן הדוק ביותר לרמת פריון ההון ומחזור ההון החוזר ויש לו קשר הפוך עם העלות השנתית הממוצעת של רכוש קבוע.

2. ציין את המפעלים המשגשגים והמבטיחים ביותר.

על מנת לזהות את המפעלים המשגשגים ביותר, נמיין את הנתונים לפי קריטריונים של 3 גורמים בסדר יורד. (איור 17)

יש לקחת בחשבון את המפעלים המשגשגים ביותר: 13,4,5, מכיוון שבאופן כללי, על פי 3 גורמים, האינדיקטורים שלהם תופסים את העמדות הגבוהות והיציבות ביותר.

פרק 4. ניתוח מפלים

הערכת כושר האשראי של ישויות משפטיות בבנק מסחרי

הבנק בחר בשישה אינדיקטורים כאינדיקטורים משמעותיים המאפיינים את מצבם הפיננסי של ארגונים לווים (לוח 4.1.1):

QR (X1) - יחס נזילות מהיר;

CR (X2) - יחס נזילות נוכחי;

EQ/TA (X3) - יחס עצמאות פיננסית;

TD/EQ (X4) - סך ההתחייבויות להון העצמי;

ROS (X5) - רווחיות מכירות;

FAT (X6) - מחזור רכוש קבוע.

טבלה 4.1.1. נתונים ראשוניים

נדרש:

בהתבסס על ניתוח מפלה באמצעות חבילת SPSS, קבע לאיזה מארבע הקטגוריות שייכים שלושה לווים (ישויות משפטיות) המעוניינים לקבל הלוואה מבנק מסחרי:

§ קבוצה 1 - עם ביצועים פיננסיים מצוינים;

§ קבוצה 2 - עם ביצועים פיננסיים טובים;

§ קבוצה 3 - עם ביצועים פיננסיים גרועים;

§ קבוצה 4 - עם ביצועים פיננסיים גרועים מאוד.

בהתבסס על תוצאות החישוב, בנה פונקציות מבדילות; להעריך את המשמעות שלהם על ידי מקדם Wilks (λ). בנו מפת תפיסה ודיאגרמות של המיקומים היחסיים של תצפיות במרחב של שלוש פונקציות. בצע פרשנות של תוצאות הניתוח.

התקדמות:

על מנת לקבוע לאיזו מארבע הקטגוריות שייכים שלושה לווים שרוצים לקבל הלוואה מבנק מסחרי, אנו בונים ניתוח מפלה המאפשר לנו לקבוע לאיזו מהאוכלוסיות שזוהו בעבר (דגימות הכשרה) יש לשייך לקוחות חדשים. .

כמשתנה תלוי, נבחר קבוצה שאליה עשוי הלווה להשתייך, בהתאם לביצועיה הפיננסיים. מנתוני המשימה, לכל קבוצה נקבע ציון תואם של 1, 2, 3 ו-4.

מקדמים קנוניים לא מנורמלים של פונקציות הבחנה המוצגות באיורים. 4.1.1 משמשים לבניית המשוואה של הפונקציות המבדילות D1(X), D2(X) ו-D3(X):

3.) D3(X) =


	1






(קָבוּעַ)

אורז. 4.1.1. מקדמים של פונקציית ההבחנה הקנונית

אורז. 4.1.2. למדה ווילקס

עם זאת, מכיוון שהמשמעות על ידי מקדם ווילקס (איור 4.1.2) של הפונקציות השנייה והשלישית היא יותר מ-0.001, לא כדאי להשתמש בהן לצורך אפליה.

מנתוני הטבלה "תוצאות סיווג" (איור 4.1.3) עולה כי עבור 100% מהתצפיות הסיווג בוצע בצורה נכונה, הושג דיוק גבוה בכל ארבע הקבוצות (100%).

אורז. 4.1.3. תוצאות סיווג

מידע על הקבוצות בפועל והחזוי עבור כל לווה ניתן בטבלה "סטטיסטיקות נקודות" (איור 4.1.4).

כתוצאה מהניתוח המפלה, נקבע בסבירות גבוהה שהלווים החדשים של הבנק משתייכים לתת-קבוצת ההכשרה M1 - הלווים הראשון, השני והשלישי (מספרים סידוריים 41, 42, 43) משויכים לקבוצת המשנה M1 עם ההסתברויות המקבילות של 100%.

מספר תצפית	קבוצה בפועל	קבוצה סביר ביותר
		קבוצה חזויה
		קבוצה חזויה


	לא מקובצים
	לא מקובצים
	לא מקובצים

אורז. 4.1.4. סטטיסטיקת נקודות

הקואורדינטות של צנטרואידים לפי קבוצות ניתנות בטבלה "פונקציות בצנטרואידים קבוצתיים" (איור 4.1.5). הם משמשים כדי לשרטט centroids על מפה תפיסתית (איור 4.1.6).


	1

אורז. 4.1.5. פונקציות בצנטרואידים קבוצתיים

אורז. 4.1.6. מפת תפיסה עבור שתי פונקציות מבדילות D1(X) ו-D2(X) (* - מרכז קבוצתי)

התחום של "מפה טריטוריאלית" מחולק על ידי פונקציות מבדילות לארבעה תחומים: בצד שמאל יש בעיקר תצפיות על הקבוצה הרביעית של הלווים עם ביצועים פיננסיים גרועים מאוד, בצד ימין - הקבוצה הראשונה עם ביצועים פיננסיים מצוינים, בחלק האמצעי והתחתון - הקבוצה השלישית והשנייה של לווים עם ביצועים פיננסיים גרועים וטובים, בהתאמה.

אורז. 4.1.7. תרשים פיזור לכל הקבוצות

על איור. 4.1.7 מציג את לוח הזמנים המשולב להתפלגות של כל קבוצות הלווים יחד עם המוקדים שלהם; זה יכול לשמש כדי לבצע ניתוח חזותי השוואתי של אופי המיקום היחסי של קבוצות של לווים בנקים במונחים של אינדיקטורים פיננסיים. בצד ימין של הגרף נמצאים לווים עם ביצועים גבוהים, משמאל - עם נמוכים, ובאמצע - עם ביצועים פיננסיים ממוצעים. מאחר שלפי תוצאות החישוב, הפונקציה המבחנה השנייה D2(X) התבררה כלא מובהקת, ההבדלים בקואורדינטות המרכז לאורך ציר זה אינם משמעותיים.

הערכת כושר האשראי של יחידים בבנק מסחרי

מחלקת האשראי של בנק מסחרי ערכה סקר מדגמי של 30 מלקוחותיה (פרטיים). בהתבסס על ניתוח ראשוני של הנתונים, הלווים הוערכו לפי שישה אינדיקטורים (לוח 4.2.1):

X1 - הלווה לקח הלוואה מבנקים מסחריים קודם לכן;

X2 היא ההכנסה החודשית הממוצעת של משפחת הלווה, אלף רובל;

X3 - תקופת (תקופת) החזר ההלוואה, שנים;

X4 - סכום ההלוואה שהונפקה, אלף רובל;

X5 - הרכב משפחת הלווה, אנשים;

X6 - גיל הלווה, שנים.

במקביל, זוהו שלוש קבוצות של לווים לפי ההסתברות להחזר ההלוואה:

§ קבוצה 1 - עם סבירות נמוכה להחזר ההלוואה;

§ קבוצה 2 - עם הסתברות ממוצעת להחזר ההלוואה;

§ קבוצה 3 - עם סבירות גבוהה להחזר ההלוואה.

נדרש:

בהתבסס על ניתוח מפלה באמצעות חבילת SPSS, יש צורך לסווג שלושה לקוחות בנקים (לפי הסתברות להחזר ההלוואה), כלומר. להעריך אם כל אחד מהם שייך לאחת משלוש הקבוצות. בהתבסס על תוצאות החישוב, בנו פונקציות מבדילות משמעותיות, העריכו את המשמעות שלהן על ידי מקדם Wilks (λ). במרחב של שתי פונקציות מבדילות לכל קבוצה, בנה דיאגרמות של סידור התצפיות ההדדי ותרשים משולב. העריכו את מיקומו של כל לווה בתרשימים אלה. בצע פרשנות של תוצאות הניתוח.

טבלה 4.2.1. נתונים ראשוניים

התקדמות:

כדי לבנות ניתוח מבחין, אנו בוחרים את ההסתברות לפירעון בזמן של הלוואה על ידי לקוח כמשתנה תלוי. בהתחשב בכך שהיא יכולה להיות נמוכה, בינונית וגבוהה, לכל קטגוריה יוקצה ציון מקביל של 1,2 ו-3.

מקדמים קנוניים לא מנורמלים של פונקציות הבחנה המוצגות באיורים. 4.2.1 משמשים לבניית המשוואה של הפונקציות המבדילות D1(X), D2(X):

2.) D2(X) =

אורז. 4.2.1. מקדמים של פונקציית ההבחנה הקנונית

אורז. 4.2.2. למדה ווילקס

לפי מקדם Wilks (איור 4.2.2) עבור הפונקציה השנייה, המובהקות היא יותר מ-0.001, לכן, לא כדאי להשתמש בו לצורך אפליה.

מנתוני הטבלה "תוצאות סיווג" (איור 4.2.3) עולה כי עבור 93.3% מהתצפיות הסיווג בוצע בצורה נכונה, הושג דיוק גבוה בקבוצה הראשונה והשנייה (100% ו-91.7%), פחות מדויק. התוצאות התקבלו בקבוצה השלישית (88.9%).

אורז. 4.2.3. תוצאות סיווג

מידע על הקבוצות בפועל והחזוי עבור כל לקוח ניתן בטבלה "סטטיסטיקות נקודות" (איור 4.2.4).

כתוצאה מהניתוח המפלה, נקבע בסבירות גבוהה שהלקוחות החדשים של הבנק משתייכים לתת-קבוצת ההדרכה M3 - הלקוחות הראשון, השני והשלישי (מספרים סידוריים 31, 32, 33) משויכים לתת-קבוצת M3 עם ההסתברויות המקבילות של 99%, 99% ו-100%.

מספר תצפית	קבוצה בפועל	קבוצה סביר ביותר
		קבוצה חזויה
		קבוצה חזויה


	לא מקובצים
	לא מקובצים
	לא מקובצים

אורז. 4.2.4. סטטיסטיקת נקודות

הסתברות להחזר ההלוואה
הסתברות להחזר ההלוואה

אורז. 4.2.5. פונקציות בצנטרואידים קבוצתיים

הקואורדינטות של סנטרואידים לפי קבוצות ניתנות בטבלה "פונקציות בצנטרואידים קבוצתיים" (איור 4.2.5). הם משמשים כדי לשרטט centroids על מפה תפיסתית (איור 4.2.6).

שדה "מפה טריטוריאלית" מחולק על ידי פונקציות מבדילות לשלושה אזורים: בצד שמאל יש בעיקר תצפיות על קבוצת הלקוחות הראשונה עם סבירות נמוכה מאוד להחזר ההלוואה, בצד ימין - הקבוצה השלישית עם סבירות גבוהה , באמצע - קבוצת הלקוחות השנייה עם הסתברות ממוצעת להחזר ההלוואה, בהתאמה.

על איור. 4.2.7 (א - ג) משקף את מיקומם של הלקוחות של כל אחת משלוש הקבוצות במישור של שתי פונקציות הבחנה D1(X) ו-D2(X). על סמך גרפים אלו, ניתן לבצע ניתוח מפורט של ההסתברות להחזר הלוואה בתוך כל קבוצה, לשפוט את אופי התפלגות הלקוחות ולהעריך את מידת הריחוק שלהם מהמרכז המקביל.

אורז. 4.2.6. מפת תפיסה עבור שלוש פונקציות מבדילות D1(X) ו-D2(X) (* - מרכז קבוצתי)

גם באיור. 4.2.7 (ד) באותה מערכת קואורדינטות מוצג הגרף המשולב של התפלגות כל קבוצות הלקוחות יחד עם המוקדים שלהם; ניתן להשתמש בו כדי לבצע ניתוח חזותי השוואתי של אופי המיקום היחסי של קבוצות של לקוחות בנקים עם הסתברויות שונות להחזר הלוואות. בצד שמאל של הגרף נמצאים לווים עם סבירות גבוהה להחזיר את ההלוואה, בצד ימין - בסבירות נמוכה, ובחלק האמצעי - עם הסתברות ממוצעת. מאחר שלפי תוצאות החישוב, הפונקציה המבחנה השנייה D2(X) התבררה כלא מובהקת, ההבדלים בקואורדינטות המרכז לאורך ציר זה אינם משמעותיים.

אורז. 4.2.7. מיקום התצפיות במישור של שתי פונקציות מבדילות עבור קבוצות עם סבירות נמוכה (א), בינונית (ב), גבוהה (ג) להחזר ההלוואה ולכל הקבוצות (ד)

בִּיבּלִיוֹגְרָפִיָה

1. "ניתוח סטטיסטי רב משתני בבעיות כלכליות. מודלים ממוחשבים ב-SPSS", 2009

2. אורלוב א.י. "סטטיסטיקה יישומית" מ.: הוצאת "בחינה", 2004

3. פישר ר.א. "שיטות סטטיסטיות לחוקרים", 1954

4. Kalinina V.N., Soloviev V.I. "מבוא לניתוח סטטיסטי רב משתני" ספר לימוד SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: The Art of Information Process, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki

דוגמא

ישנם נתונים על תפוקת המוצרים על ידי קבוצת ארגונים לפי חודשים (מיליון רובל):

כדי לזהות את המגמה הכללית בגידול התפוקה, נגדיל את המרווחים. לצורך כך, אנו משלבים את הנתונים הראשוניים (החודשיים) על תפוקת הייצור לנתונים רבעוניים ומקבלים מדדי תפוקה עבור קבוצת מפעלים לפי רבעונים:

כתוצאה מהגדלת המרווחים, מגמת הגידול הכללית בתפוקה של קבוצת מפעלים זו היא ברורה:

64,5 < 76,9 < 78,8 < 85,9.

זיהוי המגמה הכללית של סדרות הזמן יכול להיעשות גם על ידי החלקת סדרת הזמן באמצעות שיטת ממוצע נע. המהות של טכניקה זו היא שהרמות המחושבות (התיאורטיות) נקבעות מהרמות הראשוניות של הסדרה (נתונים אמפיריים). במקרה זה, על ידי מיצוע של נתונים אמפיריים, תנודות בודדות נכבות, והמגמה הכללית בהתפתחות התופעה מתבטאת בצורת קו חלק מסוים (רמות תיאורטיות).

התנאי העיקרי ליישום שיטה זו הוא חישוב הקישורים הממוצעים הנעים (הנעים) ממספר כזה של רמות של הסדרה התואם את משך הדינמיקה של המחזוריות הנצפית בסדרה.

החיסרון של שיטת החלקת סדרת הדינמיקה הוא שהממוצעים המתקבלים אינם נותנים חוקיות (מודלים) תיאורטיים של הסדרה, אשר יתבססו על חוקיות המתבטאת מתמטית וזה יאפשר לא רק לבצע ניתוח, אלא גם לחזות את הדינמיקה של הסדרה לעתיד.

טכניקה הרבה יותר מתקדמת ללימוד המגמה הכללית בסדרות זמן היא יישור אנליטי. כאשר לומדים את המגמה הכללית בשיטת היישור האנליטי, ההנחה היא שניתן לממוצע שינויים ברמות של סדרה של דינמיקה בעזרת פונקציות מתמטיות מסוימות בדרגות שונות של דיוק קירוב. באמצעות ניתוח תיאורטי מתגלה אופי התפתחות התופעה, ועל בסיס זה נבחר ביטוי מתמטי כזה או אחר כמו השינוי בתופעה: לאורך קו ישר, לאורך פרבולה מסדר שני, אקספוננציאלי (לוגריתמי) עקומה וכו'.

ברור שרמות סדרות הזמן נוצרות בהשפעה משולבת של גורמים רבים לטווח ארוך וקצר טווח, כולל. תאונות מסוגים שונים. שינוי בתנאים להתפתחות תופעה מביא לשינוי אינטנסיבי פחות או יותר בגורמים עצמם, לשינוי בחוזק וביעילות השפעתם, ובסופו של דבר, לשונות ברמת התופעה. ללמוד לאורך זמן.

ניתוח סטטיסטי רב משתני- חלק של סטטיסטיקה מתמטית, המוקדש לשיטות מתמטיות שמטרתן לזהות את אופי ומבנה היחסים בין מרכיבי התכונה הרב-ממדית הנלמדת ונועד להשיג מסקנות מדעיות ומעשיות. המערך הראשוני של נתונים רב-ממדיים לניתוח כזה הוא בדרך כלל תוצאות מדידת המרכיבים של תכונה רב-ממדית עבור כל אחד מהאובייקטים של האוכלוסייה הנחקרת, כלומר. רצף של תצפיות רב משתנות. תכונה רב מימדית מתפרש לרוב כמשתנה אקראי רב-משתני, ורצף של תצפיות רב-משתניות כמדגם מהאוכלוסייה הכללית. במקרה זה, הבחירה בשיטת עיבוד הנתונים הסטטיסטיים הראשוניים נעשית על בסיס הנחות מסוימות בנוגע לאופי חוק ההפצהלמד תכונה רב מימדית.

1. ניתוח התפלגויות רב-משתניות והמאפיינים העיקריים שלהן מכסה מצבים שבהם התצפיות המעובדות הן בעלות אופי הסתברותי, כלומר. מתפרשים כמדגם מהאוכלוסייה הכללית המקבילה. המשימות העיקריות של תת-סעיף זה כוללות: אומדן סטטיסטי של ההתפלגויות הרב-משתניות שנחקרו והפרמטרים העיקריים שלהן; חקר המאפיינים של האומדנים הסטטיסטיים בהם נעשה שימוש; מחקר של התפלגויות הסתברות עבור מספר סטטיסטיקות, המשמשות לבניית קריטריונים סטטיסטיים לבדיקת השערות שונות לגבי האופי ההסתברותי של הנתונים הרב-משתנים המנותחים.
2. ניתוח אופי ומבנה הקשרים בין מרכיבי התכונה הרב-ממדית הנלמדתמשלב את המושגים והתוצאות הטבועות בשיטות ובמודלים כמו ניתוח רגרסיה, ניתוח פיזור, ניתוח שיתופיות, ניתוח פקטוריאלי, ניתוח מבני סמוי, ניתוח לוג-ליניארי, חיפוש אחר אינטראקציות . שיטות המשתייכות לקבוצה זו כוללות הן אלגוריתמים המבוססים על הנחת האופי ההסתברותי של הנתונים, והן שיטות שאינן משתלבות במסגרת של מודל הסתברותי כלשהו (אלה האחרונות מכונות לרוב כשיטות ניתוח נתונים).

3. ניתוח המבנה הגיאומטרי של מערך התצפיות הרב-ממדיות הנלמד משלב את המושגים והתוצאות הגלומים במודלים ובשיטות כגון ניתוח אבחנה, ניתוח אשכולות, קנה מידה רב מימדי. Nodal עבור מודלים אלה הוא הרעיון של מרחק, או מדד של קרבה בין האלמנטים המנותחים כנקודות של מרחב כלשהו. במקרה זה, ניתן לנתח גם אובייקטים (כנקודות שצוינו במרחב התכונות) וגם תכונות (כנקודות שצוינו במרחב האובייקטים).

הערך היישומי של ניתוח סטטיסטי רב-משתני מורכב בעיקר משרת את שלוש הבעיות הבאות:

בעיות של מחקר סטטיסטי של תלות בין האינדיקטורים הנחשבים;

בעיות של סיווג אלמנטים (אובייקטים או תכונות);

בעיות של צמצום המימד של מרחב התכונה הנדון ובחירת התכונות האינפורמטיביות ביותר.

המושגים והשיטות הבסיסיות של ניתוח סטטיסטי מתוארים. רַב מֵמָדִים תוצאות טֶכנִי ניסויים. <...>מידע תיאורטי על נכסים רַב מֵמָדִיםגאוס הפצות. <...>תוצאת הניסוי הנחשב במדריך היא אַקרַאִי וֶקטוֹרמופץ לפי החוק הרגיל.<...>רַב מֵמָדִים נוֹרמָלִיצפיפות לעתים קרובות התוצאה של ניסוי היא מִכלוֹלמספרים המאפיינים אובייקט כלשהו הנבדק.<...>4 f x  כתוב כ- ξ  ~ ( ND,)μ  יש p-ממדנוֹרמָלִי הפצה. אומר ש וֶקטוֹרξ , ξ) מקבל ערכים שונים, כך שאנו יכולים לדבר בצדק אַקרַאִי וֶקטוֹר 12 רְכִיב וֶקטוֹר,ξ  רכיב,ξ  כלומר EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp כאשר E הוא סימן הציפייה.<...>תן η להיות p pp   לפי פתרונות μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) מַטרִיצָה D מ-(1.2) הוא סימטרי, חיובי-מוגדר; לכן, הייצוג שלו הוא D CC′=Λ כאשר C הוא מְאוּנָך מַטרִיצָה, מורכב מ שֶׁלוֹוקטורים מטריצות;D Λ – אלכסון מַטרִיצָהעם שֶׁלוֹ מספריםλ>י 0 מטריצות D לאורך האלכסון הראשי.<...> משותף צְפִיפוּתהרכיב שלו,1,η=i ip, נקבע מהכלל כללים(ראה נספח) שווה ל-5 (1.4); ליניארי טרנספורמציה,η  כאשר B הוא מטריצה מרובעת של ממדים  הוא וקטור אקראי, של וריאציות,.<...>הערכת הפרמטרים של ההתפלגות הנורמלית ND . <...>המשימה העיקרית של המטריצה העיקרית μ=i n  שיתופיות . <...>A ln ∂ = (1.5) כללים בידולפונקציות ביחס לארגומנטים וקטוריים או מטריצות (ראה<...>אז σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk כאן kiξ הוא ה-i-ה רְכִיב וֶקטוֹרממוצע iμ i-th רכיבים וֶקטוֹר . <...> דירוגיםמַקסִימוּם אֲמִינוּתלמקדמים j / ρ=σ σ σ יש את הצורה ij ,. ij ii jj ri j σ σσ  ≠ ii jj הוכחה.<...>הערכת תלות בין רכיבים נוֹרמָלִי וֶקטוֹרניתוח קישורים מפורט<...>

MU_to_performing_course_work_"ניתוח_סטטיסטי_רב-משתני".pdf

UDC 519.2 LBC 22.172 K27 מבקר V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 ניתוח סטטיסטי רב משתני: קווים מנחים ליישום עבודת הקורס. - M .: הוצאה לאור של MSTU im. נ.ע. באומן, 2007. - 48 עמ': חולה. המושגים והשיטות הבסיסיות של ניתוח סטטיסטי של תוצאות רב-ממדיות של ניסויים טכניים מתוארים. ניתן מידע תיאורטי על המאפיינים של התפלגויות גאוסיות רב-ממדיות. לסטודנטים בכירים בפקולטה למדעי היסוד. Il. 2. ביבליוגרפיה. 5 שמות UDC 519.2 LBC 22.172 © MSTU im. נ.ע. באומן, 2007

עמוד 2

תוכן עניינים מבוא ................................................ ................................................................... ................... ..... 3 1. התפלגות נורמלית רב משתנית ................... ........................... 4 2. מסקנות סטטיסטיות לגבי וקטור האמצעים .............. ...................... 17 3. ניתוח מפלה .. ..................... ............................................................ 23 4. שיטת הרכיב העיקרי .. ............................................................ ............ 27 5. מתאמים קנוניים ................................ ............... ................................ 30 6. ניתוח רגרסיה רב משתנים .......... ................................... .. 35 7. ניתוח גורמים ....... ........................................................................ ...................... 40 נספח ................................ ............................................................ ..................................... 44 הפניות ....... ........................................................................ ................................ ................................ 46 47