Barangolás a társadalomtudományi kutatás világában
2019. július 17. szerda - Endre, Elek
Tóth Gergely

2011. május 10. kedd, 17:45
Tóth Gergely


Elemzési lehetőségek tér-klaszteres modellekkel: Európa parlamenti választások térbeli struktúrája


Társadalomtudományi, illetve közgazdaságtudományi szempontból egy fontos kérdés lehet a településszinten értelmezett területi különbözőségek vizsgálata. Habár generális értelemben a területi egyenlőtlenségek vizsgálatára több standard mutató áll rendelkezésre (így például a koncentrációs- /Hirschman-Herfindahl/ index, a Hoover-index, Gini-együttható stb.1), azok lényegében csupán csak egyetlen egységes mutatószámban foglalják össze a vizsgált elemekre összességében jellemző egyenlőtlenség mértékét, tehát elsősorban összehasonlításra alkalmasak, viszont egy térbeli elemeken végzett speciális klaszteranalízissel lehetőség nyílhat az egyenlőtlenségek megjelenítésére, illetve a relatív homogén csoportok lehatárolására is.

A térben folytonos, ugyanakkor homogén klaszterek lehatárolását egyrészt az ökológusok, makroökológusok alkalmazzák a bioszféra tagolására, de ugyanígy egészségügyi kutatásokban az egyes betegségek, genetikus jegyek elterjedésének, vagy akár bűnözési adatok elemzésekor is találkozhatunk vele, amely elemzések az elemezni kívánt adatoktól függetlenül azonos módszertani alapokon nyugszanak. A térbeli klaszteranalízis célja elsőrendűen a geográfiai mintázatok azonosítása (Jacquez 2008).

Ezen kutatási területeken a tér-klaszter modellek alapvetően két szempontból hasznosíthatóak: egyrészt a térbeli modellek építésénél, másrészt a feltáró jellegű adatelemzéseknél, adatbányászatban (EDA/ESDA - Exploratory /Spatial/ Data Analysis). Modell építés esetén a tér-klaszterek a térbeli mintázatok megértéséhez szükségesek, mivel az egyes modellek által a releváns tényezők köre szűkíthető. A feltáró jellegű kutatások esetén pedig arra törekednek, hogy egyrészt identifikálják, másrészt leírják a térbeli mintázatot, úgymint kilógó esetek, klaszterek, hot- és cold spot-ok, trendek és határvonalak specifikus mintázatát.

Jelen vizsgálat során ennek a módszernek az átültetésére teszek kísérletet, és azt kívánom bemutatni, hogy alkalmazása társadalmi környezetben is lehetséges, hiszen a kidolgozott elvi alapok kellően nyitottak akár társadalmi adatok befogadására is.2 A tanulmány során a 2009-as Európai Parlamenti Választási adatokon mutatom be a módszer alkalmazásának előnyeit.

 

Módszertani különbségek: eltérés a társadalomtudományokban alkalmazott klasztermodellektől

 

A klaszteranalízis a statisztikai szakirodalomban már régóta ismert dimenziócsökkentő eljárás, amely célját tekintve az esetek csoportokba sorolását hivatott segíteni.  Habár maga az eljárás alapötletét tekintve nem különösen komplex, mégis rengeteg műveletet igényel, hiszen távolság számításon alapul és ezért elterjedését is lényegében a modern számítógépeknek köszönheti. Két alaptípusa elterjedt a "Hierachical", és a "K-means" klaszterezés, míg az úgynevezett "Fuzzy" eljárás ismert ugyan, de kevésbé alkalmazott. (Székelyi M. - Barna I. 2002, Nemes Nagy J. 2005)

A hagyományos eljárás részletes bemutatása jelen esetben nem szükséges, csupán csak a térbeli klaszteranalízis megértését elősegítendő célszerű áttekinteni.

Az esetek csoportba sorolásának alapja az az X dimenziós hipertér, amelynek az egyes dimenzióit az elemzésbe bevont változók jelentik. Minden esetet elvileg az adott változók által kijelölt koordináták alapján helyezhetünk el ebben a térben (feltételezve, hogy minden eset valamilyen értékkel rendelkezik az adott változón). Az eljárás maga arra irányul, hogy megpróbáljuk oly módon csoportosítani az egyes eseteket, hogy míg az egyes csoportok a lehető legegységesebbek legyenek, addig az egyes csoportok egymástól vett távolsága a lehető legnagyobb legyen.

A hierarchikus klaszterezés során a klaszterképzés lépcsőzetesen történik. Kezdetben minden egyes elem külön klasztert jelent, majd fokozatosan, az előre definiált módszer alapján összevonásra kerülnek, amíg a Quick (vagy K-means) klaszterezés esetén arra törekszünk, hogy az adott változótérben az előre definiált klaszterszámmal megegyező klasztereket hozzunk létre, minden egyes elemet egyértelműen besorolva valamelyik klaszterbe.

Különböző klaszterképzési módszerek és távolság metrikák ismertek, amelyek a végső soron meghatározzák a klaszterstruktúrát.

Használhatóság szempontjából a hagyományos klaszteranalízisről, hogy habár a technológia alapvetően könnyen alkalmazható és látványos eredményekre vezethet, azonos adatbázison különböző módszerekkel és metrikákkal létrehozott klaszterek közötti különbözőségek magyarázatára lényegében nincs mód. Tehát mind interpretálhatósági, mind érvényességi szempontból mindig problémát fog jelenteni a klaszteranalízis módszerének alkalmazása. 

A fent említett eljárásoktól elkülönül a tér-klaszterálás eljárása, aminek társadalomtudományi keretek között bevett fogalmi határai még képlékenyek.

Habár a módszer elnevezését adó tér-klaszterizálás (spatial cluster model) nem feltétlen egyértelmű, de az bizonyos, hogy valamilyen térparaméteres (geolokalizált) adatokra épülő eljárást értünk alatta.  

A tér-klaszterizálás egyrészt jelentheti azt az eljárást, amikor az elemzési dimenziók közé a térbeliséget kifejező tengelyeket is felvesszük (így az X, Y tengelyt).  (Nemes Nagy J. 1998, 37-40. illetve Sikos T. T. 1984, 58-62.)

Ugyanakkor ezen technikák nem teszik lehetővé az egyes dimenziók mentén való teljes koherenciát, illetve ha mégis, akkor az csak a többi dimenzió hatásának a mesterséges csökkentése (súlyozása) révén.3

Ezenkívül, további problémát jelent a kérdés szempontjából az is, hogy a térbeliség hosszúsági és szélességi koordináták alapján kifejezett helyzete nem képes kezelni társadalmi, gazdasági folyamatok szempontjából kritikus közlekedési, földrajzi jellegű sajátosságokat (folyók, hegyek, autóutak stb.), tehát ha még súlyozási technikával létre is hozhatunk közelségen alapuló, összefüggő klasztereket, azok semmiképpen nem fognak igazodni a fentebb említett földrajzi jellegű tényezőkhöz.

Ezen problémák feloldása gyanánt a tér-klaszteranalízis alatt jelen esetben azt az eljárásmódot értem, amikor ugyan a térbeli paraméterek abszolút módon elsőbbséget élveznek, de csak abban az értelemben, hogy az eredmény mindig elérhetőségi térben (Tóth G. - Kincses Á. 2007) összefüggő, "amőbaszerű", míg a többi, nem a térbeliséget kifejező paraméterek szempontjából a lehető leghomogénebb marad a klaszterstruktúra.

Ugyanakkor jelen esetben az ökológiai jelentéstől is szükségesnek tartom lehatárolni az itt alkalmazott eljárást, abban az értelemben, hogy míg az ökológiában alkalmazott klasztermodellek esetén nem szükséges az összes megfigyelés besorolása, addig a társadalomtudományi alkalmazásnál az alapvető cél az összes megfigyelési pont besorolása. (Ennek jelentősége a későbbiekben az alkalmazott modell bemutatása esetén válik érthetővé.)


Egy lehetséges megoldás: hierarchikus tér-klaszter modell


A hagyományos klaszterképzési technikákhoz hasonlóan, ("K-means", illetve "Hierarchical"), azokon alapulva, két eljárásmód kidolgozására nyílhat lehetőség. A technológia kulcsa a közúti elérhetőségen értelmezett szomszédsági struktúrán alapul.4 A klaszterépülés során szabályként érvényesíteni kell, hogy csak olyan elemek kerülhetnek egy klaszterbe, amelyek szomszédsági viszonyban vannak egymással.

A tanulmányban részletező módon csak a hierarchikus klaszterezés alapján kidolgozott térbeli klaszterképződéssel tudunk foglalkozni, mivel a K-means alapú megoldás több irányba is mutathat, és azok tesztelései idő hiányában még váratnak magukra. 

A hierarchikus eljárás algoritmusának elvi vázlata alapján látható (1. ábra), hogy hasonlóan a normál klaszterképződéshez, az elemek besorolása egyenként történik. Látható továbbá az alapvető különbség, hogy míg hagyományos esetben az algoritmus az összes eset közül választja ki a leíró változók alapján az összevonandó elemeket, addig ebben az eljárásban mindig csak a térben szomszédos elemek közül választ az algoritmus, így biztosítva a kompaktsági kritériumot.

1. ÁBRA

Hierarchikus tér-klaszterképzés folyamatának elvi vázlata

(Conceptual flowchart of the hierarchical spatial clustering algorithm)


            Ma már több, jellemzően ökológiai és geostatisztikai elemző szoftver (így több ingyenes alkalmazás is, pl.: SAM) áll rendelkezésre, de az általam megismertek közül közvetlenül egyik sem tűnt alkalmasnak a társadalomtudományi kutatások során alkalmazott adatstruktúrák elemzésére. Ebből a kényszerből adódóan saját program fejlesztésébe fogtam, és az 1. ábra logikáját követve létrehoztam egy hierarchikus tér-klaszterizáló algoritmust R-ben, amely ugyan programozói szempontból nem optimalizált - tehát viszonylag lassú -, de bizonyítottan képes társadalomtudományi és gazdasági adatbázisokkal is együttműködni.   

 

A módszer alkalmazása Magyarország választási adatain

 

A módszer alkalmazásának eredményeit a 2009-as Európa Parlamenti választás magyarországi adatain5 mutatom be, olyan módon, hogy azokat összevetem a hagyományos klaszteranalízis eredményeivel is.

Mielőtt azonban a konkrét eredményekre térnék, mivel nem egy bevett eljárásról lévén szó, szükségesnek tartok néhány további, az eredményekhez vezető eljárás technikai részletére is kitérni.

A választási adatokkal település szinten dolgoztam, ahol Budapestet egyben kezeltem. Az elemzéshez minden egyes települési megfigyeléshez szükséges volt azok területi jellemzőit hozzárendelni, amelyhez - ahogyan utaltam már rá - társadalmi jellegéből adódóan elsőrendűen nem a konkrét földrajzi koordinátákra volt szükség, hanem a települések egymáshoz viszonyított helyzetére, közvetlen elérhetőségére. Ebben az esetben a szomszédsági viszonyokat alkalmaztam, amely garanciát nyújtott arra, hogy az eredmények térben kompaktak legyenek. A szomszédságot az úthálózat alapján definiáltam, ahol is egy harmadik település érintése nélkül összeköttetésben lévő településeket tekintettem szomszédnak, értelemszerű módon kezelve az autópályák és a főbb utak miatt esetlegesen létrejövő anomáliákat.

A forrásadatokat az elemzéshez természetszerűleg százalékos arányokká alakítottam, amelyek egyrészt a párt támogatottsági arányokat (2009-ban az EP választáson induló szervezetek: JOBBIK, FIDESZ-KDNP, MSZP, LMP, SZDSZ, MCF, MDF, MUNKÁSPÁRT), másrészt a részvételi arányokat jelentik. Így összességében egy 9 változós alapkészletet alakítottam ki, amelyek alapeloszlását a 1. táblázat tartalmazza.

1. TÁBLA

Településszintű választási adatok leíró statisztikái

(Descriptive statistics of the municipality-level electoral data)

Változók

Minimum

Maximum

Mean

Std. Deviation

JOBBIK - %

0,00

57,47

13,8076

7,62484

FIDESZ - %

4,88

97,22

63,9539

12,03846

MSZP - %

0,00

90,24

13,7973

7,30069

LMP - %

0,00

51,35

1,3243

1,81147

SZDSZ - %

0,00

53,15

1,2628

1,87834

MCF - %

0,00

54,21

,9142

3,36730

MDF - %

0,00

52,50

3,8784

2,72242

MUNKÁSPÁRT - %

0,00

21,05

1,0616

1,33558

Részvétel - %

11,48

89,19

34,9379

10,29298

   Forrás: saját számítás  

 

A választási arányokkal való munka azért volt szerencsés, mert ilyen módon minden változó azonos, elvi 0-100 skálán volt értelmezhető, tehát standardizálás nélkül is felhasználhatóak és közvetlenül interpretálhatóak maradtak.

Eddigi tapasztalataim alapján állíthatom az alkalmazott összevonási kritériumok közül, azt célszerű alkalmazni, amely a belső varianciák minimalizálására épül, ezért az úgynevezett "Ward's módszer speciálisan módosított átültetését alkalmaztam. (A módszerválasztás visszavezethető egyrészt a gyökerekre, másrészt az eredmények interpretálhatóságára,6 de ez a terület még további kutatásokat igényel.)


Ahogy a folyamatábráról (1. ábra) leolvasható, a teljes hierarchikus klaszterezési folyamat rendkívül számításigényes. Jelen adatbázisnál a teljes futási idő 10 órás nagyságrendben volt mérhető. (Az matematikai algoritmus Windows operációs rendszer alatt R programnyelv segítségével lett végrehajtva.)

 

 

 

A hagyományos klaszteranalízissel végrehajtott elemzés eredményei

 

Annak érdekében, hogy láthatóvá váljék a tér-klaszter elemzés sajátságos mivolta, a forrás-adatokon a társadalomtudományi területen bevett hagyományos eljárásokkal is elvégeztem az elemzést. Jelen esetben az összehasonlítás alapját egy Ward's módszerrel végzett négy klaszteres hierarchikus modell jelenti (1. térkép).

1. TÉRKÉP

Településszintű választási eredmények klaszterei

(Cluster model of the municipality-level electoral data)




A térkép alapján látható, hogy a klaszterstruktúra bizonyos fokig rendelkezik térbeli rendezettséggel, mert a 3-as klaszter szinte kizárólag Kelet-Magyarországra jellemző.

Annak érdekében, hogy értelmezni tudjuk az egyes klasztereket, szükséges az egyes klasztereket leíró jellemzők bemutatása. (2. tábla) Ebben az esetben egy összegző táblát közlünk, amelyből nem csak az egyes klaszterek jelentése (átlag/mean érték), hanem az egyes klaszterépítők erőssége is leolvasható (F érték). Ezek alapján a táblázat eredményeit összefoglalva a következő kép rajzolódik ki.

A modell egyértelműen legmeghatározóbb tényezője a településen elért Fidesz-arány (F = 2772), melyet a Jobbik-, MSZP-, majd a részvételi arány követ. (A modell alapján minden tényező szignifikáns strukturálódást mutat, amely nem meglepő, hiszen a klaszterezés deklarált célja pont ez.)

2. TÁBLA

Klaszter modell leírók

(Cluster model descriptors)

ANOVA tábla

JOBBIK

FIDESZ

MSZP

LMP

SZDSZ

MCF

MDF

MUNKÁSPÁRT

Részvételi arány

Teljes modell (N = 3145)

Sum of Squares- Between Groups

72953

330337

61119

323

119

692

1564

260

95652

Sum of Squares - Within Groups

109785

124759

106361

10008

10983

34672

21771

5355

238023

Sum of Squares - Total

182738

455095

167480

10332

11102

35364

23336

5615

333675

Eta Squared

0.399

0.726

0.365

0.031

0.011

0.020

0.067

0.046

0.287

F

695.7

2772.2

601.6

33.8

11.4

20.9

75.2

50.9

420.7

Sig.

0.000

0.000

0.000

0.000

0.000

0.000

0.000

0.000

0.000

Mean

13.8

64.0

13.8

1.3

1.3

0.9

3.9

1.1

34.9

Std. Deviation

7.62

12.03

7.30

1.81

1.88

3.35

2.72

1.34

10.30

1-es klaszter (N = 1129)

Mean

14.17

58.02

17.14

1.75

1.51

1.44

4.75

1.22

33.20

Std. Deviation

5.96

6.31

5.60

2.36

2.51

4.97

3.20

1.44

10.01

2-es klaszter (N = 1266)

Mean

11.27

71.47

10.36

1.05

1.09

0.49

3.45

0.82

33.76

Std. Deviation

4.75

5.15

3.80

1.09

1.31

1.39

2.16

0.96

7.30

3-as klaszter (N = 439)

Mean

24.67

46.24

20.15

1.19

1.24

1.19

3.73

1.59

31.10

Std. Deviation

8.79

8.00

10.33

1.23

1.37

3.07

2.36

1.75

7.13

4-es klaszter (N = 311)

Mean

7.39

80.12

6.66

1.07

1.07

0.31

2.65

0.72

51.38

Std. Deviation

4.90

7.67

4.40

2.24

1.68

0.96

2.44

1.28

10.70

Forrás: saját számítás

 

Az egyes klaszterek röviden így jellemezhetőek:

-         1-es klaszter: kispárt-domináns települések, hiszen míg -átlagos részvételi arányok mellett- a nagy pártok viszonylagosan az országos átlaghoz közelítenek, addig a kisebbek átlag feletti értékeket mutatnak.

-         2-es klaszter: jellemzően Fidesz-párti települések, ahol átlagos részvétel mellett a Fidesz arányai térnek el felfele.

-         3-as klaszter: Jobbik-MSZP-domináns települések, amely klasztert az első kettőnél kisebb és alacsonyabb részvétel jellemzi, de a Jobbik és az MSZP által elért eredmény az átlaghoz viszonyítva kimagasló.

-         4-as klaszter: kizárólagosan Fidesz-domináns települések, amely klaszter méretét tekintve a legkisebb, de magas részvét mellett a Fidesz által elért kimagasló eredmény jellemzi.

Az ANOVA modellhez számított, a modell magyarázó erejét leíró négyzetes összegek és eta2 értékek elsőrendűen az összehasonlításnál kapnak majd szerepet, de annyit azért célszerű megemlíteni, hogy az F értékekkel összhangban, sorrendben a "Fidesz arány", "Jobbik arány", "MSZP arány", "részvételi arány" változók eloszlását magyarázza legerősebben a kapott négy klaszteres modell.

 

A tér-klaszteranalízissel végrehajtott elemzés eredményei

 

 A hagyományos eljárással készült klaszterstruktúra után a tér-klaszter modell eredményeit célszerű áttekinteni. (2. térkép) A térkép alapján egyértelműen látszik, hogy az így létrejött modellre már érvényesül a kompaktság feltétele. Az előző térképpel (1. térkép) összehasonlítva elmondható, hogy habár vannak hasonlóságok, de egyértelmű klasztermegfeleltetésre nincs mód. Az eltérések tekintetében vizuálisan is látszik, hogy míg a hagyományos modellnél viszonylag egyenletesen oszlottak el a települési esetszámok (legkisebb klaszter is több, mint 300 települést foglalt magába), addig a tér-klaszter modell esetén két nagyobb és két egészen kis esetszámú klaszter jött létre.

A tér-klaszter modell esetén az egyes klaszterek címkéje arra a fázisra utal, amikor az létrejött a hierarchikus klaszterépülés során: így látható, hogy utoljára a 3138-as klaszter jött létre, (a 0-ik lépéstől számítva a 3139-ik lépésben). Ugyanakkor az is látható, hogy habár elvi szinten négy klasztert kívántunk létrehozni az eljárással, néhány települést, a környezetüktől való nagymértékű eltérés okán nem sikerült besorolni ebbe a négyes struktúrába. Ezen települések név szerint: Csenyéte, Tarnazsadány, Tornakápolna.

2. TÉRKÉP

Településszintű választási eredmények tér-klaszterei

(Spatial cluster model of the municipality-level electoral data)

 


A hagyományos klasztermodellhez hasonlóan itt is lehetőség van ez egyes klaszterek leírására. (3. tábla)

A modell legmeghatározóbb tényezője a településen elért Jobbik-arány (F = 256.3), melyet a Fidesz-, MSZP-, majd az MCF-arány követ. A modell alapján két tényező nem mutat szignifikáns strukturálódást (LMP-, SZDSZ-arány), amely feltehetőleg a "városias" párt jellegükből adódik. (A magyarországi települési struktúrában a városok nem mutatnak összefüggő mintázatot, ezért nem meglepő, hogy egy tér-klaszteres modellben sem tudnak összefüggő módon rendeződni.)

 

Az egyes tér-klaszterek röviden így jellemezhetőek:

- 3063-as klaszter: északkelet-magyarországi (Borsod-Abaúj-Zemplén megyei) magas részvételű Fidesz-klaszter, amely 9 darab települést foglal magába (Abod, Damak, Galvács, Hegymeg, Irota, Ládbesenyő, Lak, Szakácsi, Tomor). A klaszter településein a választások során kiemelkedő volt a részvétel, és a Fidesz mellett egyedül a Jobbik tudott elérni átlagos eredményt.

 

3. TÁBLA

Tér-klaszter modell leírók

(Spatial cluster model descriptors)

 

ANOVA Tábla

JOBBIK

FIDESZ

MSZP

LMP

SZDSZ

MCF

MDF

MUNKÁSPÁRT

Részvételi arány

Teljes modell (N = 3145)

 

Sum of Squares- Between Groups

44976

96817

10159

10

9

1050

230

74

4694

Sum of Squares - Within Groups

137762

358278

157320

10321

11093

34314

23106

5541

328981

Sum of Squares - Total

182738

455095

167480

10332

11102

35364

23336

5615

333675

Eta Squared

0.246

0.213

0.061

0.001

0.001

0.030

0.010

0.013

0.014

F

256.3

212.1

50.7

0.8

0.6

24.0

7.8

10.5

11.2

Sig.

0.000

0.000

0.000

0.533

0.651

0.000

0.000

0.000

0.000

Mean

13.8

64.0

13.8

1.3

1.3

0.9

3.9

1.1

34.9

Std. Deviation

7.62

12.03

7.30

1.81

1.88

3.35

2.72

1.34

10.30

3063-es klaszter (N = 9)

 

Mean

14.15

74.64

7.71

0.46

0.60

0.00

2.12

0.33

50.00

Std. Deviation

4.46

7.93

6.88

1.39

0.81

0.00

2.08

0.52

11.01

3108-es klaszter (N = 20)

 

Mean

31.03

40.12

18.93

1.34

0.83

2.66

3.49

1.60

28.57

Std. Deviation

6.89

9.10

6.50

1.56

1.05

5.65

2.00

1.40

8.79

3131-as klaszter (N = 1707)

 

Mean

10.47

68.65

12.54

1.33

1.25

0.73

4.09

0.93

35.57

Std. Deviation

5.69

10.57

7.15

2.12

1.89

2.98

3.11

1.40

10.42

3138-es klaszter (N = 1406)

 

Mean

17.58

58.67

15.21

1.32

1.28

1.08

3.64

1.22

34.13

Std. Deviation

7.57

10.85

6.87

1.36

1.88

3.44

2.15

1.24

9.94

Forrás: saját számítás

 

-         3108-as klaszter: Ózd-Kazincbarcika-Salgótarján környéki 20 települést tartalmaz (Arló, Bánréve, Borsodszentgyörgy, Domaháza, Farkaslyuk, Gömörszőlős, Hangony, Hét, Kelemér, Királd, Kissikátor, Ózd, Sajóivánka, Sajókaza, Sajónémeti, Sajópüspöki, Sajóvelezd, Serényfalva, Zabar, Zádorfalva), amelyeken rendkívül alacsony részvételi arányok mellett egyértelmű Jobbik-MSZP többlet azonosítható.

-         3131-es klaszter: nyugat-magyarországi enyhe Fidesz többletű települések (1707db), amelyeken az átlagos részvétel mellett a Fidesz értékei kissé átlag felettiek, míg a Jobbik arányai átlag alattiak. A többi szervezet eredménye az országos átlagos hasonló arányokat mutat.

-         3138-as klaszter: kelet-magyarországi klaszter, amelybe átlagos részvételű Jobbik-MSZP többletű települések (1406db) tartoznak.

A be nem sorolható három település értékeit a 4. tábla tartalmazza. Amint a táblázatban látható, nem véletlen, hogy a tér-klaszterálás folyamata során ez a három település nem épült be, hiszen a kimaradt települések több szempontból is extrémnek nevezhető értékekkel bírnak. Csenyétén (amelyet többek közt az ország egyik legszegényebb településeként tartanak számon) igen alacsony részvételi arányok mellett totális MSZP előny regisztrálható, de az SZDSZ is aránytalanul jól szerepelt. Ugyanakkor Tornakápolna egy szétszakadó település képét mutatja, hiszen nagyon magas részvétel mellett a Jobbik és az MSZP kettősége mérhető, míg Tarnazsadány, mint az MCF- Roma Összefogás Párt egyik legerősebb támogató településeként azonosítható.

 

4. TÁBLA

Besorolhatatlan települések

(Settlements parameters which cannot be assigned)

 

JOBBIK

FIDESZ

MSZP

LMP

SZDSZ

MCF

MDF

MUNKÁSPÁRT

Részvételi arány

Csenyéte

0,0

4,88

90,24

0,0

4,88

0,0

0,0

0,0

18,88

Tarnazsadány

8,06

16,85

17,58

,73

0,0

54,21

,73

1,83

29,71

Tornakápolna

40,00

20,00

40,00

0,0

0,0

0,0

0,0

0,0

83,33

Forrás: saját számítás

Az eta2 értékek természetes módon most is az F értékekkel összhangban vannak, tehát az egyes klaszterek mentén elsőrendűen a Jobbik szóródik, melyet a Fidesz, MSZP, majd az MCF követ. Ugyanakkor fontos megemlíteni, hogy az első modellel összehasonlítva kisebb magyarázóerejű modell született. Az eltérés mértékének számszerűsítésére esetlegesen az összes dimenzió mentén összegzett belső négyzetösszegek arányai adhatnak képet, amely alapján jelen esetben a tér-klaszteres modellhez képest a hagyományos modell besorolása 62%-kal jobb. Ugyanakkor ez a számszerűsítés nem képes a mögöttes tartalomban jelentkező különbségeket figyelembe venni, tehát azt, hogy a két modell alapvetően nem ugyanabban a jelentésdimenzióban értelmezhető. 

            Négy klaszteres modell után jogos kérdés lehet, hogy a végső, két klaszteres modell hogyan alakul. Amint az eljárás leírásánál említettem, a modellépítés során az összes lehetséges modell elmentésre került, ami alapján könnyen vizsgálható a kérdés. (5. tábla, 3. térkép)

5. TÁBLA

Két klaszteres tér-modell paraméterei

(Parameters of the two cluster model)

 

JOBBIK

FIDESZ

MSZP

LMP

SZDSZ

MCF

MDF

MUNKÁS-PÁRT

Részvételi arány

3131-es klaszter (N = 1707)

Mean

10.47

68.65

12.54

1.33

1.25

0.73

4.09

0.93

35.57

Std. Deviation

5.69

10.57

7.15

2.12

1.89

2.98

3.11

1.40

10.42

3143-as klaszter (N = 1438)

Mean

17.74

58.42

15.29

1.31

1.27

1.13

3.62

1.22

34.17

Std. Deviation

7.74

11.28

7.20

1.36

1.87

3.74

2.15

1.24

10.11

Teljes modell (N = 3145)

Mean

13.80

63.97

13.80

1.32

1.26

0.91

3.88

1.06

34.93

Std. Deviation

7.62

12.03

7.30

1.81

1.88

3.35

2.72

1.34

10.30

Forrás: saját számítás

3. TÉRKÉP

Településszintű választási eredmények tér-klaszterei: 2 klaszteres modell

(Spatial cluster model of the municipality-level electoral data: 2 cluster model)

 

A kapott eredményeket az előzőekhez hasonló módon lehet értékelni, amire jelen tanulmány során terjedelmi okokból már nincs lehetőség. Ugyanakkor egy kevésbé tudományos, és inkább egy értéktelítettnek nevezhető állítást mindenképpen szükségesnek tartok megjegyezni: a választási adatok alapján Magyarország kelet-nyugati tengely mentén történő kettészakadása figyelhető meg, amelynek a jövőre nézve akár komoly társadalmi-politikai következményei lehetnek.

 

Összefoglalóan a tér-klaszter módszer alkalmazásának lehetőségeiről

 

A felvázolt eljárás alapján összefoglalóan elmondható, hogy habár a tér-klaszterizációs eljárás a hagyományos klaszteranalízisnél statisztikailag rosszabb eredményt ad, de interpretálhatóság szempontjából sokkal inkább alkalmazható térbeni összefüggéseket mutató adatok elemzésére. A modell nem csak a homogén téregységek lehatárolását segítheti, hanem ugyanúgy képes akár képes a környezetüktől nagy mértékben eltérő települések (be nem sorolható elemek), illetve kisebb homogén mikrokörnyezetek (kis elemszámú klaszterek) felderítésére is.

 

 

A tér-klaszterizálás jelentősége, további felhasználási területek

 

Az eredmények alapján elmondható, hogy az ökológiai adatokon túl a társadalmi adatok térbeli struktúráinak felderítésére és ábrázolására egyik bizonyítottan járható útja lehet a tér-klaszteranalízis, amely mellett feltétlenül szükséges megemlíteni, hogy adatelrendezés szempontjából létező hasonlóság okán (szomszédsági relációk - kapcsolati relációk) a módszertan kiterjesztésével lehetőség nyílhat nem csak térbeli struktúrák felderítésére, hanem akár egyéb kapcsolati hálózatokon belüli homogén csoportok azonosítására is, tehát hálózatelemzésre is.

 

További fejlesztési célok

 

Habár a tér-klaszteranalízis eljárása elvi szinten technikailag társadalomtudományi területen már régóta elérhető lehetőség, egyelőre még nem léteznek azok a társadalomtudományi területre specializált könnyen elérhető alkalmazások és adatbázisok, amely révén a használata bevetté válhatna. Ebből adódóan egy fontos célkitűzésnek tekinthető, ezen technikai jellegű határoknak a lebontása és az alkalmazás használatának széleskörű elterjesztése is.

 

Jegyzetek

1 Bővebben lásd: (Nemes Nagy József (szerk) 2005: 3 fejezet)

2  Ugyanakkor szeretném megjegyezni, hogy a fent említett módszertani gyökereken túl a geostatisztika területén is kialakult a térbeli klaszterképzésnek a saját módszertana, amely alapvetően céljait és alapadatait tekintve hordoz specifikus jegyeket.

3 (Megjegyzendő ugyanakkor, hogy a súlyozásos technikával csak a térbeli dimenziók extrém súlyai esetén biztosítható a teljes koherencia, amely lényegében a többi dimenzió teljes elhanyagolását jelenti.

4  Jelen esetben a szomszédsági viszonyokat az úthálózati kapcsolódások adják, ahol szomszédosnak definiálunk minden olyan települést, amelyek anélkül, hogy egy harmadik településen át kellene menni, összeköttetésben vannak. Jelen esetben, a szomszédsági viszonyokban az autópályák által okozott anomáliák egy idő limit (20 perc) révén vannak kontrol alatt tartva. Az úthálózati kapcsolódások a GeoX kft. által forgalmazott, 2006-os viszonyokon alapuló DSM-Mátrix alapján lettek definiálva.

5  Az adatok forrása: www.valasztas.hu

6 A térbeliségen alapuló regresszió számításoknál, illetve a geostatisztikai elemzések egy részénél a használhatóság alapfeltétele a másodrendű stacionaritás kritériumának teljesülése, tehát a szóráshomogenitás. Ennek a feltételnek a teljesítéséhez az egyik eljárás lehet a tér-klaszterizálás jelen esetben alkalmazott módszere, hiszen alkalmazásával lehetőség nyílik a térben, a vizsgálati változók tekintetében homogén (relatíve homogén) téregységek lehatárolására. Ugyanakkor szükséges megjegyezni, hogy társadalmi jellegű adatok esetén sajnálatos módon az esetek nagy részében nem lesz lehetőség a geológiai folyamatok révén létrejövő határvonalakhoz hasonló "éles" vágások identifikálására. (Ebből adódóan társadalmi jellegű adatok esetén a szóráshomogenitás kritériumának általában nem tökéletes, hanem csak közelítő teljesítésére van mód.)

A módosított Ward's módszer alkalmazására egy további érv a klasztermodellek interpretálhatóságából vezethető le, mivel a klaszterezésnél alkalmazott különböző eljárások többször csak elvontabb matematikai absztrakciók révén érthetők meg, amelyeknek a forrásadatokon alapuló közvetlen megértésére sokszor nincs is lehetőség. Ezzel szemben ennek a módszernek az alkalmazása véleményem szerint könnyebben megérthető, hiszen az épülés kritériuma, hogy minél kisebb varianciájú, minél homogénebb elemek kerüljenek egy klaszterbe. Tehát, habár a végeredmény tekintetében matematikailag esetlegesen jobb modellek is létrehozhatóak, addig a választott módszer esetén nem csak a végeredmény, de a modellépülés minden lépése is átlátható marad.

 

A publikáció eredetileg megjelent: In Benkő Péter (szerk.) Politikai régió -régiópolitika. Budapest: Deák Bt., 300-315.

 

Irodalom

 

Jacquez, GM. (2008) Spatial Cluster Analysis. - S. Fotheringham - J. Wilson (Eds.). The Handbook of Geographic Information Science, Blackwell Publishing, 395-416. o.

 

Nemes Nagy J. (1998) Tér a társadalomkutatásban. (Bevezetés a regionális tudományba) Hirschner Rezső Szociálpolitikai Egyesület, Budapest, http://geogr.elte.hu.

 

Nemes Nagy J (szerk.) (2005) Regionális elemzési módszerek. (Regionális Tudományi Tanulmányok; 11.) ELTE Regionális Földrajzi Tanszék - MTA-ELTE Regionális Tudományi Kutatócsoport, Budapest. 5.14. fejezet.

Sikos T T (szerk.) (1984) Matematikai és statisztikai módszerek alkalmazásának lehetőségei a területi kutatásokban. Akadémiai Kiadó, Budapest.

 

Székelyi Mária - Barna Ildikó (2002) Túlélőkészlet az SPSS-hez. Typotex, Budapest.

 

Tóth G. - Kincses Á. (2007) Elérhetőségi modellek - Tér és Társadalom. 3. 51-87. o.

 

 

Data analysis with spatial cluster models: the spatial structure of the European Parliament elections 2009

 

TÓTH GERGELY

 

The study presents a new spatial analysis method by the way of the analysis of spatial structure of the European Parliament elections 2009. The applied method is originally called spatial cluster procedure in macroecology, and it is not an included procedure on the area of the social sciences yet. The study compared the spatial cluster method with the traditional cluster procedure and highlights not just the advantages, but the disadvantages of the spatial process. In terms of the results can be said, that the applied method is clearly working with the analyzed social data, and it is efficiently able to manifest the spatial structure of the social phenomena. 

 

 



 


Csatolmányok
Nincs csatolmány a publikációhoz...


Vitafórum

Még nincs hozzászólás a publikációhoz...

Új hozzászólás:
Hozzászóláshoz regisztráltként be kell jelentkezni!