Hjem > Sprog > Dekonstruktion af en politikers sprog

Dekonstruktion af en politikers sprog

Kan man bruge en computer til at forudsige, hvad en politiker vil sige i morgen?

Spørgsmålet lyder umiddelbart tåbeligt, og de fleste vil nok tro, at jeg nu vil gå i gang med at skrive noget om neurale netværk eller måske en marxistisk analyse af det post-kapitalistiske samfunds determinisme.

Men nej. Det handler derimod om noget så kedeligt som statistik. Selvom jeg er humanist, så har jeg altid været fascineret af statistik og har faktisk også i forbindelse med mine dansk-studier brugt statistiske værktøjer til noget fornuftigt, nemlig i forbindelse med korpuslingvistik, som desværre er en disciplin, der er meget overset herhjemme. Formodentlig, fordi folk der ved noget om sprog, er bange for statistik – og fordi folk, der ved noget om statistik, intet aner om sprog.

Jeg har forsøgt mig med lingvistiske analyser af korpora fra internetbaserede debatgrupper, for på den måde at bestemme, om der fandtes et særligt “net-sprog”, der adskilte sig fra hhv. talt- og skrevet sprog. Jeg har også brugt nogle af teknikkerne i forbindelse med mit speciale, hvor jeg brugte Velfærdskommissionens rapporter til at sammensætte et korpus og på den baggrund analysere de enkelte ord og semantiske sammenhænge.

Mit store problem var dog – og er stadig – at det er ret besværligt at gøre på dansk. Jeg forsøgte at finde nogle brugbare programmer, men endte for en stor dels vedkommende med at side og kode det hele i hånden og bruge lidt Excel til databehandlingen.

Træls, især fordi der findes nogle ret smarte programmer til formålet, desværre ikke på dansk (kender du nogle, så smid gerne en kommentar med et link).

Et af de programmer, jeg dog har fundet og brugt, er T-LAB Tools programmer. Og selvom jeg ikke er nogen haj, så lykkedes det mig da at bruge dem.

Dog ikke på samme måde som eksperterne, der virkelig kan lave nogle interessante ting. Og det er her, jeg vender tilbage til indledningen. For Franco Lancia fra T-Labs har nemlig begået en ret interessant analyse af sen. Barack Obama (D-IL), der som de fleste vil vide, forsøger at blive nomineret som Demokraternes præsidentkandidat.

Lancia har samlet et korpus bestående af alle de 77 taler, som Obama har holdt og publiceret på sin hjemmeside.

Dette korpus er blevet tilpasset og analyseret ved hjælp af en række af T-Labs værktøjer, og ved hjælp af dem, kan han både grafisk og statistisk vise, at Obama i sine taler kredser om de samme temaer (krig, uddannelse, energi og justitsvæsen). Han kan også finde ud af, hvad sandsynligheden er for, at et tema kommer før et andet og ikke mindst kan han finde ud af, hvilke ord, der benyttes oftest og i hvilke sammenhænge, de benyttes.

Eksempelvis er det interessant at se på, hvilke ord, Obama benytter, når han taler om energi og hvilke associationer, han knytter til det.

Artiklen er nok nørdet, og desværre formår Lancia ikke rigtigt at knytte en politisk analyse til (måske skyldes det, at han er italiener?), men artiklen demonstrerer, hvor stærkt et værktøj, computer-assisteret korpus lingvistik kan være i mange forskellige sammenhænge.

Der er naturligvis en række forskningsmæssige aspekter, som kan løftes. Ved at opbygge ordentlige korpora kan man eksempelvis studere et partis eller en politiske udmeldinger over tid, og dermed relativt let få et overblik over den politiske udvikling. Et oplagt – og interessant – bidrag til fremtidige politiske biografier.

Men spørgsmålet er, om det ikke også kunne have en mere konkret anvendelse. I USA er der ingen tvivl om, at politiske modstandere kan bruge disse værktøjer til at dekonstruere modstanderens synspunkter og finde ud af, hvilke ord og vendinger, man mest effektfuldt skal sætte ind overfor. Helt konkret. Microtargeting på et hidtil uset niveau :-)

Der går nok et stykke tid, før vi ser den slags i Danmark. I første omgang ville det jo kræve, at der var flere, der lærte og mestrede værktøjerne, eksempelvis på universiteterne. Men det ville nok kræve en tværfaglighed ud over det sædvanlige, og den er desværre ikke helt til stede endnu.

[ratings]

Categories: Sprog Tags:
  1. 16 marts, 2007 på 12:26 | #1

    Ja, text-mining, som vi plejer at kalde det, er et rigtig spændende felt, som nok i fremtiden vil finde større anvendelse.

    Jeg var til et foredrag for et års tid siden (jeg husker ikke foredragsholderens navn) og hørte om et amerikansk forskningsprojekt baserert på et email-korpus fra Enron. Samtlige ansattes email-korrespondence i årene op til skandalen er blevet samlet og frigivet til forskningsbrug, og det afslører mange spændende tendenser. En af de sjove ting var blandt andet, at et af de største samtaleemner i månederne op til skandalen var fantasy-football (noget i stil med “drømmeholdet”) ;-)

    Her på institut for informatik og matematisk modellering har vi i øvrigt også spændende projekter på det område, blandt andet et projekt som skal udvikle værktøjer til trend-spotting indenfor specifikke fagområder ved mining af internettet.

    Men ja, det der er brug for, før det bliver rigtig spændende, er tværfagligt samarbejde mellem statistik-nørder (en gruppe som jeg nok må indrømme at jeg tilhører) og fag-eksperter.

  2. 18 april, 2007 på 13:22 | #2

    I øvrigt, Mikkel. Jeg glemte helt at spørge: Hvilke programmer bruger du/I til text-mining?

  3. 19 april, 2007 på 15:00 | #3

    Jeg tror ikke der er nogen her på stedet der bruger nogen af de komercielle programmer – fokus er mere på at forstå / udvikle metoder til textmining, og det bliver typisk udviklet i generelle programmeringsmiljøer som Matlab.

  1. 7 september, 2007 på 21:07 | #1