Analizė yra daugiamatė statistinė. Daugiamatė statistinė analizė (RUR 128,00) Netaikoma daugiamačiams statistiniams metodams

Socialiniams ir ekonominiams objektams, kaip taisyklė, būdingas gana didelis parametrų, sudarančių daugiamačius vektorius, skaičiumi, o šių vektorių komponentų santykių tyrimo problemos yra ypač svarbios ekonominiuose ir socialiniuose tyrimuose, todėl šie ryšiai turi būti nustatyti remiantis ribotu daugiamačių stebėjimų skaičiumi.

Daugiamatė statistinė analizė – tai matematinės statistikos skyrius, tiriantis daugiamačių statistinių duomenų rinkimo ir apdorojimo būdus, jų sisteminimą ir apdorojimą, siekiant nustatyti tiriamo daugiamačio požymio komponentų santykių pobūdį ir struktūrą bei padaryti praktines išvadas.

Atminkite, kad duomenų rinkimo metodai gali skirtis. Taigi, jei tiriama pasaulio ekonomika, natūralu, kad objektai yra objektai, kuriuose stebimos vektoriaus X reikšmės, o jei tiriama nacionalinė ekonominė sistema, tada natūralu stebėti vertybes. vektoriaus X toje pačioje (tyrėją dominančioje) šalyje skirtingais laiko momentais.

Tikimybių teorijos ir matematinės statistikos kursuose tradiciškai tiriami tokie statistiniai metodai, kaip daugkartinė koreliacinė ir regresinė analizė, disciplina „Ekonometrija“ skirta taikomiesiems regresinės analizės aspektams nagrinėti.

Šis vadovas skirtas kitiems daugiamačių bendrųjų populiacijų tyrimo metodams, pagrįstiems statistiniais duomenimis.

Daugiamatės erdvės dimensijos mažinimo metodai leidžia be reikšmingo informacijos praradimo pereiti nuo pradinės daugybės stebimų tarpusavyje susijusių veiksnių sistemos prie žymiai mažesnio skaičiaus paslėptų (nepastebimų) veiksnių, lemiančių erdvės kitimą. pradines savybes. Pirmame skyriuje aprašomi komponentų ir faktorių analizės metodai, kuriuos naudojant galima nustatyti objektyviai egzistuojančius, bet ne tiesiogiai stebimus modelius, naudojant pagrindinius komponentus ar veiksnius.

Daugiamačiai klasifikavimo metodai skirti suskirstyti objektų kolekcijas (pasižyminčias daugybe požymių) į klases, kurių kiekviena turėtų apimti objektus, kurie yra vienarūšiai arba tam tikra prasme panašūs. Toks klasifikavimas, pagrįstas statistiniais objektų požymių reikšmių duomenimis, gali būti atliktas naudojant klasterinės ir diskriminacinės analizės metodus, aptartus antrajame skyriuje (Daugiamatė statistinė analizė naudojant „STATISTICA“).

Kompiuterinių technologijų ir programinės įrangos plėtra prisideda prie plataus daugiamatės statistinės analizės metodų diegimo praktikoje. Programų paketai su patogia vartotojo sąsaja, pvz., SPSS, Statistica, SAS ir kt., pašalina šių metodų taikymo sunkumus, kurie yra tiesine algebra, tikimybių teorija ir matematine statistika pagrįsto matematinio aparato sudėtingumas ir sudėtingumas. skaičiavimai.

Tačiau programų naudojimas nesuvokiant naudojamų algoritmų matematinės esmės prisideda prie tyrėjo iliuzijos apie daugiamačių statistinių metodų naudojimo paprastumą susiformavimo, o tai gali lemti neteisingus ar nepagrįstus rezultatus. Reikšmingų praktinių rezultatų galima gauti tik remiantis profesinėmis dalyko srities žiniomis, paremtomis žiniomis apie matematinius metodus ir taikomųjų programų paketus, kuriuose šie metodai yra įgyvendinami.

Todėl kiekvienam iš šioje knygoje nagrinėjamų metodų pateikiama pagrindinė teorinė informacija, įskaitant algoritmus; aptariamas šių metodų ir algoritmų diegimas programų paketuose. Nagrinėjami metodai iliustruojami jų praktinio pritaikymo ekonomikoje, naudojant SPSS paketą, pavyzdžiais.

Vadovas parašytas remiantis Valstybinio vadybos universiteto studentams kurso „Daugiamatis statistikos metodai“ skaitymo patirtimi. Išsamesniam taikomosios daugiamatės statistinės analizės metodų tyrimui rekomenduojamos knygos.

Daroma prielaida, kad skaitytojas yra gerai susipažinęs su tiesinės algebros (pavyzdžiui, vadovėlio tome ir vadovėlio priede), tikimybių teorijos ir matematinės statistikos kursais (pavyzdžiui, vadovėlio tome).

Ekonometrija

Daugiamatė statistinė analizė


Atliekant daugiamatę statistinę analizę, imtį sudaro daugiamatės erdvės elementai. Iš čia ir kilo šios ekonometrinių metodų dalies pavadinimas. Iš daugelio daugiamatės statistinės analizės problemų panagrinėkime dvi – priklausomybės atkūrimą ir klasifikavimą.

Tiesinis nuspėjamasis funkcijos įvertinimas

Pradėkime nuo vieno kintamojo tiesinės nuspėjamosios funkcijos taško ir patikimumo įvertinimo problemos.

Pradiniai duomenys yra n skaičių porų rinkinys (t k , x k), k = 1,2,…,n, kur t k yra nepriklausomas kintamasis (pavyzdžiui, laikas), o x k yra priklausomas kintamasis (pvz., infliacijos indeksą, JAV dolerio kursą, mėnesio produkciją arba prekybos vietos dienos pajamų dydį). Laikoma, kad kintamieji yra susiję

x k = a (t k - t cf)+ b + e k , k = 1,2,…,n,

kur a ir b yra statistikai nežinomi ir vertinami parametrai, o e k yra priklausomybę iškreipiančios paklaidos. Laiko taškų aritmetinis vidurkis

t cf \u003d (t 1 + t 2 + ... + t n) / n

įtraukti į modelį, kad būtų lengviau atlikti tolesnius skaičiavimus.

Paprastai tiesinės priklausomybės parametrai a ir b įvertinami mažiausių kvadratų metodu. Tada atkurtas ryšys naudojamas taško ir intervalo prognozavimui.

Kaip žinote, mažiausių kvadratų metodą 1794 m. sukūrė didysis vokiečių matematikas K. Gaussas. Pagal šį metodą, norint apskaičiuoti geriausią funkciją, kuri tiesiškai aproksimuoja x priklausomybę nuo t, reikėtų atsižvelgti į dviejų kintamųjų funkciją.


Mažiausių kvadratų įverčiai yra tos a* ir b* reikšmės, kurioms funkcija f(a,b) pasiekia minimumą per visas argumentų reikšmes.

Norint rasti šiuos įverčius, reikia apskaičiuoti funkcijos f(a,b) dalines išvestines argumentų a ir b atžvilgiu, prilyginti jas 0, tada iš gautų lygčių rasti įverčius: Turime:

Transformuokime teisingas gautų santykių dalis. Iš sumos ženklo išimkime bendruosius veiksnius 2 ir (-1). Tada pažiūrėkime į sąlygas. Atidarykime pirmosios išraiškos skliaustus, gausime, kad kiekvienas terminas yra padalintas į tris. Antroje išraiškoje kiekvienas terminas taip pat yra trijų suma. Taigi kiekviena suma yra padalinta į tris sumas. Mes turime:


Dalines išvestines prilyginame 0. Tada gautose lygtyse koeficientas (-2) gali būti sumažintas. Nes

(1)

lygtys įgauna formą

Todėl mažiausių kvadratų metodo įverčiai turi formą

(2)

Dėl ryšio (1) įvertį a* galima parašyti simetriškesne forma:

Šią sąmatą nesunku paversti forma

Todėl atkurta funkcija, kurią galima naudoti nuspėti ir interpoliuoti, turi formą

x*(t) = a*(t - t cf) + b*.

Atkreipkime dėmesį į tai, kad t cf vartojimas paskutinėje formulėje jokiu būdu neriboja jos bendrumo. Palyginkite su vaizdo modeliu

x k = c t k + d + e k , k = 1,2,…,n.

Tai aišku

Parametrų įvertinimai yra panašiai susiję:

Norint gauti parametrų įvertinimus ir nuspėjamąją formulę, nereikia remtis jokiu tikimybiniu modeliu. Tačiau norint ištirti parametrų įverčių ir atkurtos funkcijos paklaidas, t.y. sukurti pasikliautinuosius intervalus a*, b* ir x*(t), toks modelis reikalingas.

Neparametrinis tikimybinis modelis. Tegul nustatomos nepriklausomo kintamojo t reikšmės, o paklaidos e k , k = 1,2,…,n yra nepriklausomi identiškai pasiskirstę atsitiktiniai dydžiai, kurių matematiniai lūkesčiai ir dispersija nulinė

nežinoma statistika.

Ateityje dydžiams e k , k = 1,2,…,n (su svoriais) pakartotinai naudosime tikimybių teorijos Centrinės ribos teoremą (CLT), todėl norint įvykdyti jos sąlygas, reikia daryti prielaidą, kad pavyzdžiui, kad paklaidos e k , k = 1,2 ,…,n, yra baigtinės arba turi baigtinį trečiąjį absoliutųjį momentą. Tačiau nereikia sutelkti dėmesio į šias intramatematines „reguliarumo sąlygas“.

Asimptotiniai parametrų įverčių skirstiniai. Iš (2) formulės išplaukia, kad

(5)

Pagal CLT įvertis b* turi asimptotiškai normalų pasiskirstymą su lūkesčiu b ir dispersija

kuris vertinamas toliau.

Iš (2) ir (5) formulių išplaukia, kad

Paskutinis antrojo santykio narys išnyksta, kai susumuojamas per i, todėl iš (2-4) formulių išplaukia, kad

(6)

(6) formulė rodo, kad sąmata

yra asimptotiškai normalus su vidurkiu ir dispersija

Atkreipkite dėmesį, kad daugiamatis normalumas egzistuoja, kai kiekvienas (6) formulės narys yra mažas, palyginti su visa suma, t.y.


Iš (5) ir (6) formulių ir pradinių klaidų prielaidų taip pat išplaukia parametrų įverčių nešališkumas.

Mažiausių kvadratų įverčių nešališkumas ir asimptotinis normalumas leidžia lengvai nurodyti jiems asimptotinės pasikliovimo ribas (panašiai kaip ir ankstesniame skyriuje) bei patikrinti statistines hipotezes, pavyzdžiui, apie lygybę tam tikroms reikšmėms, pirmiausia 0. Paliekame skaitytojui galimybė išrašyti pasikliovimo ribų skaičiavimo formules ir suformuluoti minėtų hipotezių tikrinimo taisykles.

Asimptotinis prognostinės funkcijos pasiskirstymas. Iš (5) ir (6) formulių išplaukia, kad

tie. nagrinėjamos prognostinės funkcijos įvertinimas yra nešališkas. Štai kodėl

Tuo pačiu metu, kadangi klaidos yra nepriklausomos visumoje ir

, Tai

Taigi,

Įvadas

1 skyrius Daugialypės regresijos analizė

2 skyrius. Klasterinė analizė

3 skyrius. Faktorių analizė

4 skyrius. Diskriminacinė analizė

Bibliografija

Įvadas

Pradinė informacija socialiniuose ir ekonominiuose tyrimuose dažniausiai pateikiama kaip objektų visuma, kurių kiekvienas pasižymi daugybe požymių (rodiklių). Kadangi tokių objektų ir ypatybių skaičius gali siekti dešimtis ir šimtus, o vizualinė šių duomenų analizė yra neefektyvi, kyla problemų dėl pradinių duomenų mažinimo, koncentravimo, struktūros ir jų tarpusavio ryšio atskleidimo, remiantis apibendrintų charakteristikų konstravimu. atsiranda požymių rinkinys ir objektų rinkinys. Tokias problemas galima išspręsti daugiamatės statistinės analizės metodais.

Daugiamatė statistinė analizė – statistikos skyrius, skirtas matematiniams metodams, kurių tikslas – nustatyti tyrimų komponentų tarpusavio ryšių pobūdį ir struktūrą bei gauti mokslines ir praktines išvadas.

Daugiamatėje statistinėje analizėje didžiausias dėmesys skiriamas matematiniams metodams, leidžiantiems sudaryti optimalius duomenų rinkimo, sisteminimo ir apdorojimo planus, skirtus identifikuoti tiriamo daugiamačio požymio komponentų santykių pobūdį ir struktūrą bei skirti mokslinėms ir praktinėms išvadoms gauti.

Pradinis daugiamačių duomenų masyvas, skirtas atlikti daugiamatę analizę, dažniausiai yra daugiamačio atributo komponentų matavimo rezultatai kiekvienam iš tiriamos populiacijos objektų, t.y. daugiamačių stebėjimų seka. Daugiamatis atributas dažniausiai interpretuojamas kaip , o stebėjimų seka – kaip bendros visumos pavyzdys. Šiuo atveju pradinių statistinių duomenų apdorojimo būdas pasirenkamas remiantis tam tikromis prielaidomis dėl tiriamo daugiamačio požymio pasiskirstymo dėsnio pobūdžio.

1. Daugiamatė statistinė daugiamačių skirstinių ir jų pagrindinių charakteristikų analizė apima situacijas, kai apdoroti stebėjimai yra tikimybinio pobūdžio, t.y. interpretuojama kaip imtis iš atitinkamos bendrosios visumos. Pagrindiniai šio poskyrio uždaviniai: statistinis tiriamų daugiamačių skirstinių ir jų pagrindinių parametrų įvertinimas; naudojamų statistinių įverčių savybių tyrimas; daugelio statistinių duomenų tikimybių skirstinių tyrimas, kuris naudojamas statant statistinius kriterijus, skirtus įvairioms hipotezėms apie analizuojamų daugiamačių duomenų tikimybę tikrinti.

2. Daugiamatė statistinė tiriamo daugiamačio požymio komponentų tarpusavio ryšių pobūdžio ir struktūros analizė sujungia sąvokas ir rezultatus, būdingus tokiems metodams ir modeliams kaip analizė, dispersinė analizė, kovariacijos analizė, faktorinė analizė ir kt. Šiai grupei priskiriami metodai apima ir algoritmus, pagrįstus duomenų tikimybinio pobūdžio prielaida, ir metodus, kurie netelpa į jokio tikimybinio modelio rėmus (pastarieji dažnai vadinami metodais).

3. Daugiamatė statistinė tiriamo daugiamačių stebėjimų rinkinio geometrinės struktūros analizė sujungia sąvokas ir rezultatus, būdingus tokiems modeliams ir metodams kaip diskriminacinė analizė, klasterinė analizė, daugiamatis mastelio keitimas. Šių modelių mazgas yra atstumo samprata arba artumo tarp analizuojamų elementų, kaip tam tikros erdvės taškų, matas. Tokiu atveju gali būti analizuojami ir objektai (kaip taškai nurodyti ypatybių erdvėje), ir požymiai (kaip taškai, nurodyti objektų erdvėje).

Taikomoji daugiamatės statistinės analizės vertė daugiausia susideda iš šių trijų problemų sprendimo:

nagrinėjamų rodiklių priklausomybių statistinio tyrimo užduotis;

elementų (objektų ar savybių) klasifikavimo užduotis;

· uždavinys sumažinti nagrinėjamos požymio erdvės matmenis ir parinkti informatyviausius požymius.

Daugialypė regresinė analizė skirta sukurti modelį, leidžiantį nepriklausomų kintamųjų reikšmėms gauti priklausomo kintamojo verčių įverčius.

Logistinė regresija klasifikavimo uždaviniui spręsti. Tai daugkartinės regresijos rūšis, kurios tikslas – analizuoti ryšį tarp kelių nepriklausomų kintamųjų ir priklausomo kintamojo.

Faktorinė analizė susijusi su santykinai nedidelio paslėptų (latentinių) faktorių skaičiaus nustatymu, kurių kintamumas paaiškina visų stebimų rodiklių kintamumą. Faktorinė analizė skirta sumažinti nagrinėjamos problemos dimensiją.

Klasterinė ir diskriminacinė analizė skirta suskirstyti objektų kolekcijas į klases, kurių kiekviena turėtų apimti objektus, kurie yra vienarūšiai arba artimi tam tikra prasme. Klasterinėje analizėje iš anksto nežinoma, kiek objektų grupių pasirodys ir kokio dydžio jos bus. Diskriminacinė analizė padalija objektus į jau egzistuojančias klases.

1 skyrius Daugialypės regresijos analizė

Užduotis: Būsto rinkos tyrimas Orelyje (sovietų ir šiaurės regionai).

Lentelėje pateikiami duomenys apie butų Orelyje kainas ir įvairius ją lemiančius veiksnius:

· bendras plotas;

Virtuvės plotas

· gyvenamasis plotas;

namo tipas

kambarių skaičius. (1 pav.)

Ryžiai. 1 Pradiniai duomenys

Stulpelyje „Regionas“ vartojami pavadinimai:

3 - sovietinis (elitas, priklauso centriniams regionams);

4 - Šiaurė.

Stulpelyje „Namo tipas“:

1 - plyta;

0 - skydelis.

Reikalinga:

1. Išanalizuoti visų veiksnių ryšį su rodikliu „Kaina“ ir tarpusavyje. Pasirinkite veiksnius, tinkamiausius regresijos modeliui sudaryti;

2. Sukonstruoti fiktyvų kintamąjį, atspindintį buto priklausymą miesto centrinei ir periferinei zonai;

3. Sukurkite tiesinės regresijos modelį visiems veiksniams, įskaitant netikrą kintamąjį. Paaiškinkite lygties parametrų ekonominę reikšmę. Įvertinti modelio kokybę, lygties ir jos parametrų statistinį reikšmingumą;

4. Paskirstykite veiksnius (išskyrus fiktyvų kintamąjį) pagal įtakos rodikliui „Kaina“ laipsnį;

5. Sukurkite tiesinės regresijos modelį didžiausią įtaką turintiems veiksniams, palikdami fiktyvų kintamąjį lygtyje. Įvertinti lygties ir jos parametrų kokybę ir statistinį reikšmingumą;

6. Pagrįsti fiktyvaus kintamojo įtraukimo į 3 ir 5 dalių lygtį tikslingumą arba netikslingumą;

7. Įvertinkite lygties parametrų intervalų įverčius 95% tikimybe;

8. Nustatykite, kiek kainuos 74,5 m² bendro ploto butas elitiniame (periferiniame) rajone.

Spektaklis:

1. Išanalizavus visų veiksnių ryšį su rodikliu „Kaina“ ir tarpusavyje, „Forward“ įtraukimo metodu buvo parinkti tinkamiausi regresijos modeliui sudaryti veiksniai:

A) bendras plotas;

C) kambarių skaičius.

Įtraukti / neįtraukti kintamieji (a)

Priklausomas kintamasis: kaina

2. Kintamasis X4 "Regionas" yra netikras kintamasis, nes jis turi 2 reikšmes: 3 - priklauso centriniam regionui "Soviet", 4 - periferiniam regionui "Severny".

3. Sukurkime tiesinės regresijos modelį visiems veiksniams (įskaitant netikrą kintamąjį X4).

Gautas modelis:

Modelio kokybės įvertinimas.

Standartinė klaida = 126,477

Durbino ir Vatsono santykis = 2,136

Regresijos lygties reikšmingumo tikrinimas

F-Fisher testo vertė = 41,687

4. Sukurkime tiesinės regresijos modelį su visais veiksniais (išskyrus netikrą kintamąjį X4)

Pagal įtakos rodikliui „Kaina“ jie buvo paskirstyti:

Svarbiausias veiksnys yra bendras plotas (F= 40,806)

Antras pagal svarbą veiksnys yra kambarių skaičius (F= 29.313)

5. Įtraukti / neįtraukti kintamieji

Priklausomas kintamasis: kaina

6. Sukurkime tiesinės regresijos modelį didžiausią įtaką turintiems veiksniams su netikru kintamuoju, mūsų atveju tai yra vienas iš įtakojančių veiksnių.

Gautas modelis:

Y = 348,349 + 35,788 X1 -217,075 X4 +305,687 X7

Modelio kokybės įvertinimas.

Determinacijos koeficientas R2 = 0,807

Rodo gauto požymio kitimo proporciją veikiant tiriamiems veiksniams. Vadinasi, apie 89% priklausomo kintamojo kitimo atsižvelgiama ir dėl įtrauktų į modelį veiksnių įtakos.

Daugialypės koreliacijos koeficientas R = 0,898

Rodo priklausomo kintamojo Y ryšį su visais į modelį įtrauktais aiškinamaisiais veiksniais.

Standartinė klaida = 126,477

Durbino ir Vatsono santykis = 2,136

Regresijos lygties reikšmingumo tikrinimas

F-Fisher testo vertė = 41,687

Regresijos lygtis turi būti pripažinta adekvačia, modelis laikomas reikšmingu.

Svarbiausias veiksnys yra kambarių skaičius (F=41 687)

Antras pagal svarbą veiksnys yra bendras plotas (F= 40,806)

Trečias pagal svarbą veiksnys yra regionas (F= 32,288)

7. Dummy kintamasis X4 yra reikšmingas veiksnys, todėl patartina jį įtraukti į lygtį.

Lygties parametrų intervaliniai įverčiai parodo prognozavimo pagal regresijos modelį rezultatus.

Su 95% tikimybe, pardavimų apimtis prognozuojamą mėnesį bus nuo 540,765 iki 1080,147 milijono rublių.

8. Buto elitiniame rajone savikainos nustatymas

1 kambariui U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 1

2 kambariams U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 2

3 kambariams U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 3 + 305.687 * 3

periferijoje

1 kambariui U \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 1

2 kambariams U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 2

3 kambariams U \u003d 348.349 + 35.788 * 74, 5 - 217.075 * 4 + 305.687 * 3

2 skyrius. Klasterinė analizė

Užduotis: Gyventojų piniginių išlaidų ir santaupų struktūros tyrimas.

Lentelėje parodyta gyventojų grynųjų pinigų išlaidų ir santaupų struktūra pagal Rusijos Federacijos centrinės federalinės apygardos regionus 2003 m. Pagal šiuos rodiklius:

PTIOU - prekių pirkimas ir apmokėjimas už paslaugas;

· OPiV – privalomi mokėjimai ir įmokos;

PN - nekilnojamojo turto pirkimas;

· PFA – finansinio turto padidėjimas;

· DR – pinigų padidėjimas (sumažėjimas) gyventojų rankose.

Ryžiai. 8 Pradiniai duomenys

Reikalinga:

1) nustatyti optimalų klasterių skaičių regionams suskirstyti į vienarūšes grupes pagal visas grupavimo charakteristikas vienu metu;

2) atlieka vietovių klasifikavimą hierarchiniu metodu su tarpgrupinių santykių algoritmu ir atvaizduoja rezultatus dendrogramos pavidalu;

3) išanalizuoti pagrindinius grynųjų pinigų išlaidų ir taupymo prioritetus susidarančiose klasteriuose;

Spektaklis:

1) Nustatyti optimalų klasterių skaičių regionams suskirstyti į vienarūšes grupes pagal visas grupavimo charakteristikas vienu metu;

Norėdami nustatyti optimalų klasterių skaičių, turite naudoti hierarchinę klasterių analizę ir peržiūrėti lentelę „Aglomeracijos žingsniai“ į stulpelį „Koeficientai“.

Šie koeficientai reiškia atstumą tarp dviejų grupių, nustatytų pagal pasirinktą atstumo matą (Euklido atstumas). Etape, kai atstumo tarp dviejų klasterių matas staigiai didėja, jungimosi į naujas klasterius procesas turi būti sustabdytas.

Dėl to optimalus klasterių skaičius laikomas lygiu skirtumui tarp stebėjimų skaičiaus (17) ir žingsnio skaičiaus (14), po kurio koeficientas staigiai didėja. Taigi optimalus klasterių skaičius yra 3. (9 pav.)

statistinės matematinės analizės klasteris

Ryžiai. 9 lentelė „Sukepinimo žingsniai“

2) Atlikti vietovių klasifikavimą hierarchiniu metodu su tarpgrupinių santykių algoritmu ir rezultatus atvaizduoti dendrogramos pavidalu;

Dabar, naudodamiesi optimaliu klasterių skaičiumi, sritis klasifikuojame hierarchiniu metodu. O išvestyje kreipiamės į lentelę „Priklausymas klasteriams“. (10 pav.)

Ryžiai. 10 lentelė „Priklausymas klasteriams“

Ant Fig. 10 aiškiai rodo, kad 3 klasterį sudaro 2 regionai (Kaluga, Maskva) ir Maskva, 2 klasteris apima du regionus (Brianskas, Voronežas, Ivanovas, Lipeckas, Oriolas, Riazanė, Smolenskas, Tambovas, Tverė), 1 klasteris - Belgorodas, Vladimiras, Kostroma. , Kurskas, Tula, Jaroslavlis.

Ryžiai. 11 Dendrograma

3) išanalizuoti pagrindinius grynųjų pinigų išlaidų ir taupymo prioritetus susidarančiose klasteriuose;

Norėdami išanalizuoti gautas grupes, turime atlikti „vidurkių palyginimą“. Išvesties lange rodoma tokia lentelė (12 pav.)

Ryžiai. 12 Vidutinės kintamųjų reikšmės

Lentelėje „Vidutinės reikšmės“ galime atsekti, kurioms struktūroms skiriamas didžiausias prioritetas skirstant gyventojų pinigines išlaidas ir santaupas.

Visų pirma, reikia pastebėti, kad didžiausias prioritetas visose srityse teikiamas prekių pirkimui ir apmokėjimui už paslaugas. Parametras įgauna didesnę reikšmę 3 klasteryje.

2 vietą užima finansinio turto augimas. Didžiausia vertė 1 klasteryje.

Mažiausias koeficientas 1 ir 2 klasteriuose yra „nekilnojamojo turto įsigijimui“, o 3 klasteryje atsiskleidė pastebimas pinigų sumažėjimas gyventojų rankose.

Apskritai gyventojams ypač svarbus prekių ir paslaugų pirkimas bei nežymus nekilnojamojo turto pirkimas.

4) palyginkite gautą klasifikaciją su grupės vidaus santykių algoritmo taikymo rezultatais.

Analizuojant tarpgrupinius santykius situacija praktiškai nepasikeitė, išskyrus Tambovo sritį, kuri pateko į 1 iš 2 klasterių (13 pav.)

Ryžiai. 13 Grupės vidaus santykių analizė

Lentelėje „Vidurkiai“ pokyčių nebuvo.

3 skyrius. Faktorių analizė

Užduotis: Lengvosios pramonės įmonių veiklos analizė.

Turimi 20 lengvosios pramonės įmonių apklausos duomenys (14 pav.) pagal šias charakteristikas:

X1 - kapitalo produktyvumo lygis;

X2 – gamybos vieneto darbo intensyvumas;

X3 - pirkimo medžiagų dalis bendrose sąnaudose;

X4 – įrangos poslinkio koeficientas;

X5 - priedai ir atlygis vienam darbuotojui;

X6 - nuostolių iš santuokos dalis;

X7 – ilgalaikio gamybos turto vidutinė metinė savikaina;

X8 - vidutinio metinio darbo užmokesčio fondas;

X9 - produktų tinkamumo parduoti lygis;

· X10 – ilgalaikio turto indeksas (ilgalaikio ir kito ilgalaikio turto santykis su nuosavomis lėšomis);

X11 - apyvartinių lėšų apyvarta;

X12 – ne gamybos išlaidos.

14 pav. Pradiniai duomenys

Reikalinga:

1. Atlikti šių kintamųjų faktorių analizę: 1,3,5-7, 9, 11,12, nustatyti ir interpretuoti faktorių charakteristikas;

2. nurodyti labiausiai klestinčias ir perspektyviausias įmones.

Spektaklis:

1. Atlikite šių kintamųjų faktorių analizę: 1,3,5-7, 9, 11,12, nustatykite ir interpretuokite faktorių charakteristikas.

Faktorinė analizė – tai metodų rinkinys, kuris, remiantis realiais objektų (požymių) ryšiais, leidžia nustatyti latentines (netiesiogines) apibendrinančias organizacijos struktūros charakteristikas.

Veiksnių analizės dialogo lange pasirinkite mūsų kintamuosius, nurodykite reikiamus parametrus.

Ryžiai. 15 Bendra paaiškinta dispersija

Pagal „Bendrosios paaiškinamos dispersijos“ lentelę matyti, kad nustatyti 3 veiksniai, paaiškinantys 74,8% kintamųjų variacijų – sukonstruotas modelis yra gana geras.

Dabar faktorių ženklus interpretuojame pagal „Pasuktų komponentų matricą“: (16 pav.).

Ryžiai. 16 Pasuktų komponentų matrica

1 veiksnys yra labiausiai susijęs su produktų pardavimo lygiu ir turi atvirkštinį ryšį su ne gamybos išlaidomis.

2 veiksnys yra glaudžiausiai susijęs su pirkimo medžiagų dalimi visose sąnaudose ir nuostolių iš santuokos dalimi ir turi atvirkštinį ryšį su premijomis ir atlyginimu vienam darbuotojui.

3 veiksnys yra labiausiai susijęs su kapitalo produktyvumo lygiu ir apyvartinių lėšų apyvarta ir turi atvirkštinį ryšį su vidutine metine ilgalaikio turto savikaina.

2. Nurodykite labiausiai klestinčias ir perspektyviausias įmones.

Norėdami nustatyti labiausiai klestinčias įmones, duomenis rūšiuosime pagal 3 faktorių kriterijus mažėjimo tvarka. (17 pav.)

Labiausiai klestinčios įmonės turėtų būti laikomos: 13,4,5, nes apskritai pagal 3 veiksnius jų rodikliai užima aukščiausias ir stabiliausias pozicijas.

4 skyrius. Diskriminacinė analizė

Juridinių asmenų kreditingumo vertinimas komerciniame banke

Bankas kaip reikšmingus rodiklius, apibūdinančius besiskolinančių organizacijų finansinę būklę, pasirinko šešis rodiklius (4.1.1 lentelė):

QR (X1) - greito likvidumo koeficientas;

CR (X2) - esamo likvidumo koeficientas;

EQ/TA (X3) - finansinio nepriklausomumo koeficientas;

TD/EQ (X4) – visi įsipareigojimai nuosavam kapitalui;

ROS (X5) - pardavimų pelningumas;

FAT (X6) - ilgalaikio turto apyvarta.

4.1.1 lentelė. Pradiniai duomenys


Reikalinga:

Remdamiesi diskriminacine analize, naudojant SPSS paketą, nustatykite, kuriai iš keturių kategorijų priklauso trys skolininkai (juridiniai asmenys), norintys gauti paskolą iš komercinio banko:

§ 1 grupė – su puikiais finansiniais rezultatais;

§ 2 grupė – su gerais finansiniais rezultatais;

§ 3 grupė – su prastais finansiniais rezultatais;

§ 4 grupė – su labai prastais finansiniais rezultatais.

Remdamiesi skaičiavimo rezultatais, sukonstruoti diskriminacines funkcijas; įvertinti jų reikšmingumą pagal Vilkso koeficientą (λ). Sukurkite suvokimo žemėlapį ir santykinių stebėjimų padėties trijų funkcijų erdvėje diagramas. Atlikti analizės rezultatų interpretaciją.

Progresas:

Siekdami nustatyti, kuriai iš keturių kategorijų priklauso trys skolininkai, norintys gauti paskolą iš komercinio banko, sudarome diskriminacinę analizę, kuri leidžia nustatyti, kuriai iš anksčiau nustatytų populiacijų (mokymo pavyzdžių) reikėtų priskirti naujus klientus. .

Kaip priklausomą kintamąjį pasirinksime grupę, kuriai gali priklausyti skolininkas, atsižvelgdamas į jo finansinius rezultatus. Iš užduoties duomenų kiekvienai grupei priskiriamas atitinkamas 1, 2, 3 ir 4 balas.

Nenormalizuoti kanoniniai diskriminacinių funkcijų koeficientai, parodyti Fig. 4.1.1 naudojami diskriminantinių funkcijų D1(X), D2(X) ir D3(X) lygčiai sudaryti:

3.) D3(X) =


1

(Pastovus)

Ryžiai. 4.1.1. Kanoninės diskriminacinės funkcijos koeficientai

Ryžiai. 4.1.2. Lambda Wilks

Tačiau kadangi antrosios ir trečiosios funkcijų reikšmė pagal Vilkso koeficientą (4.1.2 pav.) yra didesnė nei 0,001, nepatartina jų naudoti diskriminacijai.

Lentelės „Klasifikavimo rezultatai“ (4.1.3 pav.) duomenys rodo, kad 100% stebėjimų klasifikacija atlikta teisingai, visose keturiose grupėse pasiektas didelis tikslumas (100%).

Ryžiai. 4.1.3. Klasifikavimo rezultatai

Informacija apie faktines ir numatomas grupes kiekvienam skolininkui pateikta lentelėje „Taškų statistika“ (4.1.4 pav.).

Diskriminacinės analizės rezultatu su didele tikimybe nustatyta, kad banko nauji skolininkai priklauso mokymo pogrupiui M1 - pirmas, antrasis ir trečiasis skolininkai (eilės numeriai 41, 42, 43) priskiriami M1 pogrupiui su M1. atitinkamos 100 % tikimybės.

Stebėjimo numeris

Tikra grupė

Labiausiai tikėtina grupė

Numatyta grupė

nesugrupuotas

nesugrupuotas

nesugrupuotas

Ryžiai. 4.1.4. Taškų statistika

Centroidų koordinatės pagal grupes pateiktos lentelėje „Funkcijos grupiniuose centroiduose“ (4.1.5 pav.). Jie naudojami centroidams vaizduoti suvokimo žemėlapyje (4.1.6 pav.).

1

Ryžiai. 4.1.5. Funkcijos grupiniuose centroiduose

Ryžiai. 4.1.6. Dviejų diskriminacinių funkcijų D1(X) ir D2(X) suvokimo žemėlapis (* – grupės centroidas)

„Teritorinio žemėlapio“ laukas pagal diskriminacines funkcijas suskirstytas į keturias sritis: kairėje pusėje daugiausiai ketvirtos grupės skolininkų, kurių finansiniai rezultatai labai prasti, stebėjimai, dešinėje – pirmosios grupės, pasižyminčios puikiais finansiniais rodikliais, stebėjimai. vidurinėje ir apatinėje dalyse – atitinkamai trečioji ir antroji skolininkų grupės, kurių finansiniai rodikliai yra blogi ir geri.

Ryžiai. 4.1.7. Visų grupių sklaida

Ant pav. 4.1.7 rodomas bendras visų skolininkų grupių paskirstymo grafikas su jų centroidais; pagal jį galima atlikti lyginamąją vaizdinę bankų skolininkų grupių santykinės padėties finansinių rodiklių požiūriu analizę. Dešinėje grafiko pusėje yra skolininkai, kurių našumas yra aukštas, kairėje - su žemais, o viduryje - su vidutiniais finansiniais rodikliais. Kadangi pagal skaičiavimo rezultatus antroji diskriminacinė funkcija D2(X) pasirodė nereikšminga, tai centroidų koordinačių skirtumai išilgai šios ašies yra nereikšmingi.

Asmenų kreditingumo vertinimas komerciniame banke

Komercinio banko kreditų skyrius atliko atrankinę 30 savo klientų (fizinių asmenų) apklausą. Remiantis išankstine duomenų analize, skolininkai buvo įvertinti pagal šešis rodiklius (4.2.1 lentelė):

X1 - paskolos gavėjas anksčiau paėmė paskolą iš komercinių bankų;

X2 yra vidutinės paskolos gavėjo šeimos mėnesinės pajamos, tūkstančiai rublių;

X3 - paskolos grąžinimo terminas (laikotarpis), metai;

X4 - išduotos paskolos suma, tūkstančiai rublių;

X5 - paskolos gavėjo šeimos sudėtis, asmenys;

X6 – paskolos gavėjo amžius, metai.

Tuo pačiu metu pagal paskolos grąžinimo tikimybę buvo išskirtos trys skolininkų grupės:

§ 1 grupė – su maža paskolos grąžinimo tikimybe;

§ 2 grupė – su vidutine paskolos grąžinimo tikimybe;

§ 3 grupė – su didele paskolos grąžinimo tikimybe.

Reikalinga:

Remiantis diskriminancine analize naudojant SPSS paketą, būtina suskirstyti tris banko klientus (pagal paskolos grąžinimo tikimybę), t.y. įvertinti, ar kiekvienas iš jų priklauso vienai iš trijų grupių. Remdamiesi skaičiavimo rezultatais, sukurkite reikšmingas diskriminacines funkcijas, įvertinkite jų reikšmingumą Vilkso koeficientu (λ). Kiekvienos grupės dviejų diskriminacinių funkcijų erdvėje sukonstruokite stebėjimų tarpusavio išdėstymo diagramas ir kombinuotą diagramą. Įvertinkite kiekvieno skolininko vietą šiose diagramose. Atlikti analizės rezultatų interpretaciją.

4.2.1 lentelė. Pradiniai duomenys

Progresas:

Diskriminacinės analizės sudarymui kaip priklausomą kintamąjį pasirenkame tikimybę, kad klientas laiku grąžins paskolą. Atsižvelgiant į tai, kad jis gali būti žemas, vidutinis ir aukštas, kiekvienai kategorijai bus priskirtas atitinkamas 1, 2 ir 3 balas.

Nenormalizuoti kanoniniai diskriminacinių funkcijų koeficientai, parodyti Fig. 4.2.1 naudojami diskriminantinių funkcijų D1(X), D2(X) lygčiai sudaryti:

2.) D2(X) =

Ryžiai. 4.2.1. Kanoninės diskriminacinės funkcijos koeficientai

Ryžiai. 4.2.2. Lambda Wilks

Pagal Vilkso koeficientą (4.2.2 pav.) antrajai funkcijai reikšmingumas yra didesnis nei 0,001, todėl jo naudoti diskriminacijai nepatartina.

Lentelės „Klasifikavimo rezultatai“ (4.2.3 pav.) duomenys rodo, kad 93,3% stebėjimų klasifikacija buvo atlikta teisingai, pasiektas aukštas tikslumas pirmoje ir antroje grupėse (100% ir 91,7%), mažiau tikslus. rezultatai gauti trečioje grupėje (88,9 proc.).

Ryžiai. 4.2.3. Klasifikavimo rezultatai

Informacija apie faktines ir numatomas grupes kiekvienam klientui pateikta lentelėje „Taškų statistika“ (4.2.4 pav.).

Diskriminacinės analizės rezultatu su didele tikimybe nustatyta, kad nauji banko klientai priklauso mokymo pogrupiui M3 - pirmas, antras ir trečias klientai (eilės numeriai 31, 32, 33) priskiriami M3 poaibiui su M3. atitinkamos 99%, 99% ir 100% tikimybės.

Stebėjimo numeris

Tikra grupė

Labiausiai tikėtina grupė

Numatyta grupė

nesugrupuotas

nesugrupuotas

nesugrupuotas

Ryžiai. 4.2.4. Taškų statistika

Paskolos grąžinimo tikimybė

Ryžiai. 4.2.5. Funkcijos grupiniuose centroiduose

Centroidų koordinatės pagal grupes pateiktos lentelėje „Funkcijos grupės centroiduose“ (4.2.5 pav.). Jie naudojami centroidams vaizduoti suvokimo žemėlapyje (4.2.6 pav.).

Laukas „Teritorinis žemėlapis“ pagal diskriminacines funkcijas suskirstytas į tris sritis: kairėje pusėje daugiausiai yra pirmos grupės klientų su labai maža tikimybe grąžinti paskolą stebėjimai, dešinėje – trečios grupės su didele tikimybe. , viduryje - atitinkamai antra klientų grupė, turinti vidutinę tikimybę grąžinti paskolą.

Ant pav. 4.2.7 (a - c) atspindi kiekvienos iš trijų grupių klientų vietą dviejų diskriminacinių funkcijų D1(X) ir D2(X) plokštumoje. Remiantis šiais grafikais, galima atlikti išsamią paskolos grąžinimo tikimybės analizę kiekvienoje grupėje, spręsti apie klientų pasiskirstymo pobūdį ir įvertinti jų nutolimo nuo atitinkamo centro laipsnį.

Ryžiai. 4.2.6. Trijų diskriminacinių funkcijų D1(X) ir D2(X) suvokimo žemėlapis (* – grupės centroidas)

Taip pat pav. 4.2.7 (d) toje pačioje koordinačių sistemoje pateikiamas visų klientų grupių pasiskirstymo kombinuotas grafikas kartu su jų centroidais; juo galima atlikti lyginamąją vizualinę bankų klientų grupių, turinčių skirtingą paskolos grąžinimo tikimybę, santykinės padėties pobūdžio analizę. Kairėje grafiko pusėje yra skolininkai su didele tikimybe grąžinti paskolą, dešinėje - su maža tikimybe, o vidurinėje dalyje - su vidutine tikimybe. Kadangi pagal skaičiavimo rezultatus antroji diskriminacinė funkcija D2(X) pasirodė nereikšminga, tai centroidų koordinačių skirtumai išilgai šios ašies yra nereikšmingi.

Ryžiai. 4.2.7. Stebėjimų vieta dviejų diskriminacinių funkcijų plokštumoje grupėms su maža (a), vidutine (b), didele (c) paskolos grąžinimo tikimybe ir visoms grupėms (d)

Bibliografija

1. „Daugiamatė statistinė analizė ekonomikos problemose. Kompiuterinis modeliavimas SPSS“, 2009 m

2. Orlovas A.I. „Taikomoji statistika“ M .: Leidykla „Egzaminas“, 2004 m

3. Fisher R.A. „Statistikos metodai tyrėjams“, 1954 m

4. Kalinina V.N., Solovjovas V.I. "Įvadas į daugiamatę statistinę analizę" Vadovėlis SUM, 2003;

5. Achim Buyul, Peter Zöfel, SPSS: Informacijos apdorojimo menas, DiaSoft Publishing, 2005;

6. http://ru.wikipedia.org/wiki

Pavyzdys

Yra duomenų apie įmonių grupės produktų gamybą mėnesiais (milijonais rublių):

Norėdami nustatyti bendrą produkcijos augimo tendenciją, padidinsime intervalus. Tuo tikslu pradinius (mėnesinius) gamybos produkcijos duomenis sujungiame į ketvirčio duomenis ir gauname įmonių grupės produkcijos rodiklius pagal ketvirčius:

Dėl intervalų padidėjimo šios įmonių grupės bendra gamybos augimo tendencija yra ryški:

64,5 < 76,9 < 78,8 < 85,9.

Bendrąją laiko eilučių tendenciją taip pat galima nustatyti išlyginant laiko eilutes naudojant slankiojo vidurkio metodas. Šios technikos esmė ta, kad skaičiuojami (teoriniai) lygiai nustatomi iš pradinių eilučių lygių (empirinių duomenų). Šiuo atveju, suvidurkinus empirinius duomenis, atskiri svyravimai gesinami, o bendra reiškinio raidos tendencija išreiškiama tam tikros lygiosios linijos (teorinių lygių) forma.

Pagrindinė šio metodo taikymo sąlyga – slankiųjų (slenkančių) vidutinių grandžių apskaičiavimas iš tokio skaičiaus eilučių lygių, kurie atitinka serijoje stebimos ciklo dinamikos trukmę.

Dinamikos eilučių išlyginimo metodo trūkumas yra tas, kad gauti vidurkiai neduoda teorinių eilučių dėsningumų (modelių), kurie būtų pagrįsti matematiškai išreikštu dėsningumu ir tai leistų ne tik atlikti analizę, bet ir nuspėti serialo dinamiką ateičiai.

Daug pažangesnė metodika tiriant bendrą laiko eilučių tendenciją yra analitinis derinimas. Tiriant bendrąją tendenciją analitinio derinimo metodu, daroma prielaida, kad dinamikos eilučių lygių pokyčius galima suvidurkinti tam tikrų matematinių funkcijų pagalba su įvairaus aproksimavimo tikslumo laipsniu. Teorinės analizės būdu atskleidžiamas reiškinio raidos pobūdis ir tuo remiantis parenkama viena ar kita matematinė išraiška, pavyzdžiui, reiškinio kitimas: išilgai tiesės, išilgai antros eilės parabolės, eksponentinė (logaritminė) kreivė ir kt.

Akivaizdu, kad laiko eilučių lygiai susidaro bendrai veikiant daugeliui ilgalaikių ir trumpalaikių veiksnių, įskaitant. įvairių rūšių nelaimingų atsitikimų. Reiškinio vystymosi sąlygų pasikeitimas lemia daugiau ar mažiau intensyvų pačių veiksnių pasikeitimą, jų poveikio stiprumo ir efektyvumo pasikeitimą ir galiausiai reiškinio lygio kitimą. mokytis laikui bėgant.



Daugiamatė statistinė analizė- matematinės statistikos skyrius, skirtas matematiniams metodams, kuriais siekiama nustatyti ryšių tarp tiriamo daugiamačio požymio komponentų pobūdį ir struktūrą, ir skirtas mokslinėms bei praktinėms išvadoms gauti. Pradinis daugiamačių duomenų masyvas tokiai analizei dažniausiai yra daugiamačio atributo komponentų matavimo rezultatai kiekvienam iš tiriamos populiacijos objektų, t.y. daugiamačių stebėjimų seka. Daugiamatis bruožas dažniausiai interpretuojama kaip daugiamatis atsitiktinis kintamasis, o kelių kintamųjų stebėjimų seka – kaip pavyzdys iš bendrosios populiacijos. Šiuo atveju pradinių statistinių duomenų apdorojimo būdas pasirenkamas remiantis tam tikromis prielaidomis dėl paskirstymo įstatymas tyrinėjo daugiamatę savybę.

1. Daugiamatių skirstinių ir jų pagrindinių charakteristikų analizė apima situacijas, kai apdoroti stebėjimai yra tikimybinio pobūdžio, t.y. interpretuojama kaip imtis iš atitinkamos bendrosios visumos. Pagrindiniai šio poskyrio uždaviniai: statistinis tiriamų daugiamačių skirstinių ir jų pagrindinių parametrų įvertinimas; naudojamų statistinių įverčių savybių tyrimas; daugelio statistinių duomenų tikimybių skirstinių tyrimas, kuris naudojamas statant statistinius kriterijus, skirtus įvairioms hipotezėms apie analizuojamų daugiamačių duomenų tikimybę tikrinti.
2. Tiriamo daugiamačio požymio komponentų santykių pobūdžio ir struktūros analizė sujungia sąvokas ir rezultatus, būdingus tokiems metodams ir modeliams kaip regresinė analizė, dispersinė analizė, kovariacinė analizė, faktorinė analizė, latentinė struktūrinė analizė, log-tiesinė analizė, sąveikų paieška . Šiai grupei priskiriami metodai apima ir algoritmus, pagrįstus duomenų tikimybinio pobūdžio prielaida, ir metodus, kurie netelpa į jokio tikimybinio modelio rėmus (pastarieji dažnai vadinami duomenų analizės metodais).

3. Tirtos daugiamačių stebėjimų rinkinio geometrinės struktūros analizė sujungia sąvokas ir rezultatus, būdingus tokiems modeliams ir metodams kaip diskriminacinė analizė, klasterinė analizė, daugiamatis mastelio keitimas. Šių modelių mazgas yra atstumo samprata arba artumo tarp analizuojamų elementų, kaip tam tikros erdvės taškų, matas. Tokiu atveju gali būti analizuojami ir objektai (kaip taškai nurodyti ypatybių erdvėje), ir požymiai (kaip taškai, nurodyti objektų erdvėje).

Taikomoji daugiamatės statistinės analizės vertė daugiausia susideda iš šių trijų problemų aptarnavimo:

Priklausomybių tarp nagrinėjamų rodiklių statistinio tyrimo problemos;

Elementų (objektų ar požymių) klasifikavimo problemos;

Nagrinėjamos ypatybių erdvės matmenų mažinimo ir informatyviausių ypatybių parinkimo problemos.

Pateikiamos pagrindinės statistinės analizės sąvokos ir metodai. daugiamatis rezultatus techninis eksperimentai. <...>Teorinė informacija apie savybių daugiamatis Gauso paskirstymus. <...>Vadove aptarto eksperimento rezultatas yra atsitiktinis vektorius paskirstytas pagal įprastą dėsnį.<...>Daugiamatis normalus tankis Dažnai eksperimento rezultatas yra visuma skaičiai, apibūdinantys kokį nors tiriamą objektą.<...>4 f x  Rašykite kaip ξ  ~ ( ND,)μ  turi p-matmenų normalus paskirstymas. reiškia kad vektoriusξ , ξ) įgyja skirtingas reikšmes, todėl pagrįstai galime kalbėti apie tai atsitiktinis vektorius 12 komponentas vektorius,ξ  komponentas, ξ  t.y. EDE E   ξ= E E ξ ξ  = μ = ξ − μ ξ − μ ()()  ξp čia E – lūkesčio ženklas.<...>Tegu η yra p pp   sprendiniais μ= ν +B ;.   bD BD Bη ξ = ′ , (1.3) Matrica D iš (1.2) yra simetriškas, teigiamai apibrėžtas, todėl jo vaizdavimas yra D CC′=Λ kur C yra stačiakampis matrica, susidedantis iš savo vektoriai matricos;D Λ – įstrižainė matrica Su savo numeriaiλ>i 0 matricos D išilgai pagrindinės įstrižainės.<...> Bendras tankis jo dedamoji,1,η=i ip, nustatyta iš bendrosios taisykles(žr. priedą) yra lygus 5 (1.4) ; linijinis transformacija,η  kur B yra matmenų kvadratinė matrica  yra atsitiktinis vektorius, variacijų,.<...>Normaliojo skirstinio parametrų įvertinimas ND . <...>Pagrindinis pirminės μ=i n  matricos uždavinys kovariacija . <...>A ln ∂ = (1,5) taisykles diferenciacija funkciniai vektoriaus arba matricos argumentai (žr<...>Tada σ = ξ −ξ ξ − ξ = ξ ξ −ξ ξ∑∑ ij nn ki i kj j kk Čia kiξ yra i-oji komponentas vektorius vidutinis iμ i-asis Komponentai vektorius . <...> Įvertinimai maksimalus patikimumas koeficientai j / ρ=σ σ σ turi formą ij ,. ij ii jj ri j σ σσ  ≠ ii jj Įrodymas.<...>Priklausomybės tarp komponentų įvertinimas normalus vektorius Išsami nuorodų analizė<...>

MU_to_performing_course_work_"Multivariate_statistical_analysis".pdf

UDC 519.2 LBC 22.172 K27 apžvalgininkas V.Yu. Chuev Kartashov G.D., Timonin V.I., Budovskaya L.M. K27 Daugiamatė statistinė analizė: Kursinio darbo įgyvendinimo gairės. - M .: MSTU leidykla im. N.E. Bauman, 2007. - 48 p.: iliustr. Pateikiamos pagrindinės techninių eksperimentų daugiamačių rezultatų statistinės analizės sąvokos ir metodai. Pateikiama teorinė informacija apie daugiamačių Gauso skirstinių savybes. Fundamentaliųjų mokslų fakulteto vyresniųjų klasių studentams. Il. 2. Bibliografija. 5 vardai UDC 519.2 LBC 22.172 © MSTU im. N.E. Baumanas, 2007 m

2 puslapis

TURINYS Įvadas................................................ .............................................................. ................... ..... 3 1. Daugiamatis normalusis skirstinys .................... .......................... 4 2. Statistinės išvados apie vidurkių vektorių ............. ...................... 17 3. Diskriminacinė analizė .. ..................... .................................. 23 4. Pagrindinio komponento metodas .. ................................................................ ............ 27 5. Kanoninės koreliacijos ................................................. .................................. 30 6. Daugiamatė regresinė analizė .......... ................................. .. 35 7. Faktorių analizė ....... ...................................................... ...................... 40 Priedas .............................. ...................................................... ..................................................... 44 Literatūros sąrašas ....... ...................................................... ...................................................... 46 47