Header

En början till kartläggning av SOUniversum: 100 ämnen på 1990-talet

6 Jun-2015 | Skrivet av Sverker Lundin i Okategoriserade

Christopher Kullenberg har förtjänstfullt laddat hem och OCR:at alla svenska SOU:er.  Liksom jag tänker han att den inom Digital humaniora populära tekniken ”topic modelling” kunde vara användbar för att överblicka vad alla dessa texter handlar om. Han beskriver egna försök med programmet MALLET.

Jag har skrivit ett litet verktyg i Mathematica för vad jag vill kalla Relationell korpusanalys. Den enkla idén är att texter får sin mening strukturellt, genom dess relation till varandra. Den är inspirerad av Pierre Bourdieu och de matematiker han arbetade med. Topic Modelling passar bra in i denna övergripande metodologi.

SOU-materialet är dock en utmaning, eftersom det är så stort: drygt 5000 texter, många långa som böcker. Det mäktar inte riktigt mitt lilla verktyg och min lilla dator med, och det väcker frågor kring hur verktyget fungerar. Istället för att alltid läsa in allt i datorns minne kanske man borde arbeta med någon typ av databas. Jag vet inte. Hur som helst.

Jag bestämde mig för att begränsa mitt första försök till ett årtionde och valde 1990-talet. I materialet finns 765 SOU:er från detta årtionde. Jag bestämde mig för att bara ha med de 10000 vanligaste orden i analysen, och att behandla de allra vanligaste 200 orden som så kallade ”stoppord”, det vill säga ord som man bortser från på grund av att de är så vanliga. Detta är ganska godtyckliga val, och det återstår att se om analysresultaten ändrar sig dramatiskt om man tar med fler eller färre ord och ändrar antalet stoppord. Jag tror inte  att de gör det.

Jag delade in alla texterna i bitar om 1000 ord. Det blev 15227 sådana bitar. Jag tänkte: 100 är ett jämnt tal, varför inte köra MALLET med precis 100 topics. Detta innebär att TM-algoritmen försöker identifiera 100 olika ”ämnen” för att så bra som möjligt karaktärisera de 765 SOU:erna. Valet av antalet ”topics”, är ett krux med metoden. Det kan mycket väl hända att topic-uppsättningen ändrar sig ganska mycket om man ändrar antalet topics, till exempel till 99 eller 101. Samtidigt blir det ofta så att vissa topics, som är så att säga ”stabila”, inte påverkas så mycket. Om jag varit mer noggrann – och mer noggranna analyser kommer! – så skulle jag provat att variera topic-antalet några gånger, så att jag på något sätt kunde markera vilka topics som var ”att lita på”. Så inte nu. Det är alltså en preliminär karta jag presenterar, som skall tas med en nypa salt.

Hur som hest. Mitt Mathematica-verktyg anropar MALLET, alltså samma program som Christopher arbetar med. Det är bra att komma ihåg att man (läs: jag) inte riktigt vet vad MALLET gör med texterna. Förmodligen finns någon sorts ytterligare rensning av vilka ord som anses värda att ingå i själva topic-modellerandet. Mest kontroll hade man såklart haft om man implementerat algoritmen själv. Så inte nu. Man får hoppas att programmet gör något klokt.

Med lite bearbetning av de ganska obskyra textfiler som MALLET lämnar ifrån sig fick jag följande lista med ”ämnen”: TM-karta

En början, kanske, på en kartläggning.

/Sverker

Följ bloggen med RSS Du kan svara eller lämna en trackback.

5 kommentarer

  • Oj, det blev ju mycket tydligare med 100 ämnen! Jag ska pröva att justera detta upp och ned för att se vad som ger de ”renaste” formerna. Observerar även att du får vissa ämnen som består av siffror eller bindesord. Men de flesta känns intuitivt som ”ämnen” av typen ”jordbrukspolitik”, ”psykvård”, ”rättsväsende” etc. Kanske kan man med denna metod skapa en ”karta” över staten på något sätt.

    Tyvärr blir det ganska resurskrävande redan vid ganska små datamängder. Jag justerade upp Mallet till att använda 6Gb minne och då kunde jag köra ganska stora indatafiler.

    • cdh säger:

      Ja, efter att först ha hållit fast vid principen att man skall börja med det enkla – i det här fallet få Topics – och sedan arbeta sig framåt, har jag accepterat att man ofta får rätt intressanta resultat med stort antal topics.

      Det är också rätt typiskt, verkar det som, att man får olika sorters topics, typ:
      – Dels ämnestopics, meningsfullt avgränsade, det som man är ute efter
      – Topics om sådant som siffror, tabeller, enkäter, referenslistor, innehållsförteckningar, osv. som handlar om texternas form
      – Topics med andra språk, för SOU:erna Engelska och (om jag såg rätt) Danska.
      – Topics som handlar om felaktigheter vid OCR, med delar av ord och enstaka bokstäver.

      Jag har inte stött på några minnesproblem med MALLET ännu. Min flaskhals är i Mathematica, delvis på grund av min klumpiga programmering. Jag inväntar ny dator med 16Gb ram och med den kommer jag rätt säkert att kunna köra hela SOU-materialet. Jag har blivit inspirerad och har ett par saker på listan av vad jag vill göra. Först vill jag koppla ihop Mathematica direkt med de algoritmer som David M. Blei har byggt för olika sorters Topic-Modelling. Sedan känns det som att riksdagsmotionerna, som ju också finns fritt hämtbara, är ett material som skulle passa väldigt bra ihop med SOU-materialet. Samarbetar gärna!



Kommentera inlägget

Göteborgs universitet förbehåller sig rätten att ta bort inlägg som innehåller diskriminerande uttalanden, personliga påhopp eller språk som kan uppfattas som stötande.

Din epost-adress kommer inte publiceras. Namn och epost är obligatoriska fält.

*