Kasper Hyllesteds weblog

En weblog om livet i det moderne IT-samfund

Kategori: 'Sprog'


Dekonstruktion af en politikers sprog - version II

Tilbage i marts 2007 skrev jeg en post her på bloggen om et værktøj, der kunne bruges til at lave en digital analyse af eksempelvis en politikers tale. Text mining, som feltet, hvor man bruger IT-værktøjer til at analysere større mængder tekst, er et utrolig spændende område, som der desværre er alt for få, der forsker i herhjemme.

Hidtil har de elektroniske værktøjer til korpuslingvistiske analyser været enten utrolig besværlige eller meget lidt effektive. Og det har primært været værktøjer, som forskere og nørder som mig har kunnet finde ud af at bruge.

Men heldigvis er der også programmører, der tænker på ganske almindelige mennesker, og sammen med IBM har nogle sådanne udviklet et fantastisk redskab,s om hedder Many Eyes.

Med Many Eyes kan man få visualiseret en stor mængde data på en logisk måde. Det mest oplagte er naturligvis data, der indeholder tal, så man kan få vist grafer eller kort med farvekoder etc. Det er programmet faktisk også rigtig godt til, selvom jeg stadig foretrækker Excel, når jeg skal lege. Men er man ikke god til Excel, så er Many Eyes glimrende.

Men man kan også - og det er her, der for alvor bliver spændende - bruge tjenesten til at visualisere større mængder tekst.

I USA har man en langt større tradition for, at politikere eksempelvis holder taler. Og deres taler er ofte gjort til genstand for indgående analyser - også i lingvistisk form.

Herhjemme udgiver politikere i stedet “debatoplæg”, men fra tid til anden skal de også holde taler. Og hvis man gerne vil vide, hvilke ord og vendinger, en politiker lægger vægt på eller bruger ofte, så kan man få et rigtig godt overblik med Many Eyes.

Er man eksempelvis en lidt doven journalist, der torsdag sad og hang på Chrisitiansborg og bare ikke gad høre på flere finanslovstaler, så er der hjælp at hente. For man skal jo have skrevet artiklen om, hvad de enkelte ordførere lagde vægt på i deres taler.

Talerne bliver altid udsendt elektronisk til pressen, og kan også hentes på nettet med det samme. Og så er det bare at fyre det ind i Many Eyes, og bede om at få en såkaldt tag cloud.

En tag cloud kendes fra mange blogs og andre hjemmesider. Den viser, hvilke ord, der bruges ofte, eksempelvis på en blog. Jo oftere, et ord bliver brugt, desto større og mere markant fremhæves ordet i tagclouden.

Jeg brugte Many Eyes til at analysere Socialdemokraternes finansordfører, Morten Bødskovs, tale ved torsdagens finanslovsdebat. Talen kan læses her.

Det tog ikke mange sekunder at copy-paste teksten over i Many Eyes, og sekunder efter havde jeg følgende tag cloud:

Tagcloud - Many Eyes - Morten Bødskov

Her har jeg kun vist et screendump af tag cloud’en, men i bedste web 2.0-stil er der naturligvis tale om et interaktivt stykke java-slik, som man kan klikke på, og få vist , hvilken kontekst et ord står i. Man burde kunne se tag cloud’en ved at følge dette link.

Ud fra tag cloud’en kan man se, at Morten talte rigtig meget om skattelettelser, regeringen og ikke mindst velfærd. Finansministeren bliver også nævnt ofte, åbenbart.

Tag cloud’en kan altså give et indtryk af, hvad der tales om i den givne tekst. Har man et større korpus - eksempelvis samtlige taler fra debatten - så kan man få et samlet indtryk af hele debatten, og ikke blot en enkelt talers. Der er en grænse på 5 megabyte, og det er en meget stor mængde tekst, så go for it.

Many Eyes er helt gratis at bruge. Man skal være registreret hos IBM, for at kunne uploade sine egne data, men det er ganske uproblematisk - og ligeledes gratis. Se mere hos Many Eyes.

2 kommentarer

God latin

Det er præcist 30 år siden Den Lille Latinprøve bortfaldt som optagelseskrav til sprogligt gymnasium, og siden er det gået ned ad bakke for faget på alle niveauer. Der er dog politisk røre, og forleden kunne man i KD læse, at der er overvejelser om et politisk indgreb, der måske vil sidestille latin med naturfag i gymnasiet.

Jeg var en af de der mega-nørder, som ikke valgte at tage knallert-kørekort, da Ungdomsskolens verden blev åbnet for os i 8. klasse, men derimod tilmeldte mig latin. Mandag og onsdag aften - to timer. Hver eneste uge. Vi var vel en 10-12 stykker fra hele Odense, der kastede os over sum, fui, esse etc.

Latin åbnede for mig sproget totalt, og det var første gang, at jeg indså, at sprog og matematik hænger sammen. Den latinske grammatik var ikke bare logisk, dens indbyggede matematik var smuk. Når man havde knækket en sætning og forstået, hvorfor et substantiv stod i ablativ og dermed pludselig forstod sætningen, ja, så var det en særlig fornøjelse.

Men som sagt: Man skal nok være mega-nørd for at sætte pris på den slags.

I mine øjne er latin en gave, som rigtig mange ville have glæde af at tage imod. Ikke blot fordi et kendskab til latin åbner for en helt unik forståelse for både modersmål og fremmedsprog, men også fordi det åbner et sprogligt univers, der binder hele den europæiske kulturhistorie sammen - lige fra antikken over middelalderen og helt op til moderne tid. Latin og har også pædagogiske potentialer, som kan fremme elevernes koncentration, arbejdsdisciplin og analytiske kompetencer.

Jeg stiller mig derfor glædeligt op i køen af folk, der anser det for en tåbelighed, at man over de sidste 30 år helt har udryddet latin fra den danske uddannelsesverden. I 1977 afskaffede undervisningsminister Ritt Bjerregaard Den lille Latinprøve som adgangskrav til gymnasiets sproglige linje. Dermed blev latin som valgfag reelt afskaffet i folkeskolen.

Faget var derefter obligatorisk på de sproglige linier i 1.g samt – selvfølgelig – på en eventuel klassisk-sproglig linie. Da valgfagsgymnasiet i 1988 erstattede grengymnasiet, blev faget yderligere svækket. Latin er for mange travle, unge mennesker ikke det mest fristende tilvalg i konkurrencen med mindre terpeintensive fag, og en del gymnasier prioriterede derfor heller ikke at fastholde tilbuddet om latin på højt niveau. I perioden fra 1988-2007 blev der undervist i latin på A-niveau på halvdelen af landets knap 150 almene gymnasier, kan man læse i dagens udgave af Weekend-Avisen.

Den seneste gymnasiereform, der trådte i kraft i 2005, har givet latin det endelig dødsstød. Ganske vist indgår latin nu som en fast del af introduktionsmodulet “almen sprogforståelse”, hvilekt betyder, at 1.g’ere skal bruge 20 ud af 45 timer på en elementær indføring i mekanikken bag latin og, i langt mindre grad, græsk. De, der blev sproglige studenter i juni i år, havde haft fire gange så mange timer i 1.g.

Halvandet år efter reformen undervises der nu kun i latin på A-niveau på otte gymnasier, pt. svarende til 110 elever.

Det er sørgeligt og synd for rigtig mange gymnasieelever, som uden tvivl ville have haft glæde og gavn af at stifte bekendtskab med latin - uanset om de skal være civilingeniører eller translatører.

I mine øjne bør man belønne de gymnasieelever, der trådser den politiske vilje og stædigt holder fast i latinen. De 110, der nu har taget latin, bør have bedre muligheder for at blive optaget på videregående uddannelser og evt. belønnes direkte i gymnasiet med nedsættelse af pensum i sprogfag eller en eksamen mindre.

Der bliver ikke mindre brug for folk, der har indgående kendskab til sprogets struktur, historie og baggrund. Og det er netop, hvad latin kan give.

2 kommentarer

Kan de ikke li’ hinanden?

Jeg ved godt, at Google og Microsoft er kommercielle fjender, og i krig og kærlighed findes åbenbart ingen grænser for, hvor små sko, man må gå i.

Men Microsoft overrasker mig nu alligevel.

I den nye danske version af deres glimrende tekstbehandler, Word, er indbygget en fin ordbog, som automatisk understreger ord, den ikke genkender, med en rød bølgestreg.

Det er en ganske fin funktion, men nogle gange undrer man sig over, hvilke ord den kender, og hvilke den ikke gør.

Jeg undrede mig nu en del over, at Google åbenbart ikke hører til Microsofts vokabularium (faktisk et ord, som Word kender!), selvom vi andre bruger det flere gange om dagen og ikke har problemer med det:

Word kender ikke Google

[ratings]

Skriv kommentar

Dekonstruktion af en politikers sprog

Kan man bruge en computer til at forudsige, hvad en politiker vil sige i morgen?

Spørgsmålet lyder umiddelbart tåbeligt, og de fleste vil nok tro, at jeg nu vil gå i gang med at skrive noget om neurale netværk eller måske en marxistisk analyse af det post-kapitalistiske samfunds determinisme.

Men nej. Det handler derimod om noget så kedeligt som statistik. Selvom jeg er humanist, så har jeg altid været fascineret af statistik og har faktisk også i forbindelse med mine dansk-studier brugt statistiske værktøjer til noget fornuftigt, nemlig i forbindelse med korpuslingvistik, som desværre er en disciplin, der er meget overset herhjemme. Formodentlig, fordi folk der ved noget om sprog, er bange for statistik - og fordi folk, der ved noget om statistik, intet aner om sprog.

Jeg har forsøgt mig med lingvistiske analyser af korpora fra internetbaserede debatgrupper, for på den måde at bestemme, om der fandtes et særligt “net-sprog”, der adskilte sig fra hhv. talt- og skrevet sprog. Jeg har også brugt nogle af teknikkerne i forbindelse med mit speciale, hvor jeg brugte Velfærdskommissionens rapporter til at sammensætte et korpus og på den baggrund analysere de enkelte ord og semantiske sammenhænge.

Mit store problem var dog - og er stadig - at det er ret besværligt at gøre på dansk. Jeg forsøgte at finde nogle brugbare programmer, men endte for en stor dels vedkommende med at side og kode det hele i hånden og bruge lidt Excel til databehandlingen.

Træls, især fordi der findes nogle ret smarte programmer til formålet, desværre ikke på dansk (kender du nogle, så smid gerne en kommentar med et link).

Et af de programmer, jeg dog har fundet og brugt, er T-LAB Tools programmer. Og selvom jeg ikke er nogen haj, så lykkedes det mig da at bruge dem.

Dog ikke på samme måde som eksperterne, der virkelig kan lave nogle interessante ting. Og det er her, jeg vender tilbage til indledningen. For Franco Lancia fra T-Labs har nemlig begået en ret interessant analyse af sen. Barack Obama (D-IL), der som de fleste vil vide, forsøger at blive nomineret som Demokraternes præsidentkandidat.

Lancia har samlet et korpus bestående af alle de 77 taler, som Obama har holdt og publiceret på sin hjemmeside.

Dette korpus er blevet tilpasset og analyseret ved hjælp af en række af T-Labs værktøjer, og ved hjælp af dem, kan han både grafisk og statistisk vise, at Obama i sine taler kredser om de samme temaer (krig, uddannelse, energi og justitsvæsen). Han kan også finde ud af, hvad sandsynligheden er for, at et tema kommer før et andet og ikke mindst kan han finde ud af, hvilke ord, der benyttes oftest og i hvilke sammenhænge, de benyttes.

Eksempelvis er det interessant at se på, hvilke ord, Obama benytter, når han taler om energi og hvilke associationer, han knytter til det.

Artiklen er nok nørdet, og desværre formår Lancia ikke rigtigt at knytte en politisk analyse til (måske skyldes det, at han er italiener?), men artiklen demonstrerer, hvor stærkt et værktøj, computer-assisteret korpus lingvistik kan være i mange forskellige sammenhænge.

Der er naturligvis en række forskningsmæssige aspekter, som kan løftes. Ved at opbygge ordentlige korpora kan man eksempelvis studere et partis eller en politiske udmeldinger over tid, og dermed relativt let få et overblik over den politiske udvikling. Et oplagt - og interessant - bidrag til fremtidige politiske biografier.

Men spørgsmålet er, om det ikke også kunne have en mere konkret anvendelse. I USA er der ingen tvivl om, at politiske modstandere kan bruge disse værktøjer til at dekonstruere modstanderens synspunkter og finde ud af, hvilke ord og vendinger, man mest effektfuldt skal sætte ind overfor. Helt konkret. Microtargeting på et hidtil uset niveau :-)

Der går nok et stykke tid, før vi ser den slags i Danmark. I første omgang ville det jo kræve, at der var flere, der lærte og mestrede værktøjerne, eksempelvis på universiteterne. Men det ville nok kræve en tværfaglighed ud over det sædvanlige, og den er desværre ikke helt til stede endnu.

[ratings]

4 kommentarer

Idiomer, sprogblomster og ordbøger

Jeg har flere gange her på bloggen skrevet om ordbøger og sproglige finurligheder. Og det vil jeg så gøre igen. Anledningen er, at vi fra i dag får adgang til en ny, interaktiv ordbog på dansk om faste vendinger: “Ordbogen over Faste Vendinger”.

Det er her, man kan få forklaringen på udtryk som “at parkere aben”, ”apostlenes heste”, ”djævlens advokat” eller ”på herrens mark”?

Der er nok mangt en journalist, der kunne have glæde af at konsultere den, inden de strør om sig med sproglige blomster, der ikke bare visner, men ofte også skifter farve og formål, når de bruges forkert. Og det sker ofte.

Den nye ordbog, som indeholder 12.000 artikler, og det mest fantastiske er, at den kan bruges af alle - helt gratis.

- I den nye ordbog har vi lagt stor vægt på at imødekomme brugernes behov. Man kan derfor søge på forskellige måder afhængig af, om man har læst en tekst, hvor der var et ukendt udtryk, om man er ved at skrive en tekst og er usikker på, hvordan udtrykket bruges, eller om man bare generelt gerne vil vide noget om for eksempel ordsproget ”En ekspert er en, der ved mere og mere om mindre og mindre”, forklarer Henning Bergenholtz, leder af Center for Leksikografi, i et interview, jeg faldt over på nettet.

Centeret har tidligere stået bag en række online ordbøger, bl.a. Den Danske Netordbog og Den Danske Idiomordbog, som desværre måtte lukke, fordi Kultur-Brian var for snævertsynet til at se, at vi havde brug for en online-ordbog over det danske sprog.

Den nye ordbog afløser sidstnævnte, men medtager både idiomer, ordsprog, ordforbindelser og faste vendinger.

Besøg ordbogen her og fryd dig over de mange timer, man kan bruge i dens selskab.

[ratings]

7 kommentarer

Prinsesse Aldina spreder glæde

Normalt forbinder man ikke det tyske discount-supermarked ALDI med poesi. Og de klassiske gule pris-sedler, som i netop ALDI fortæller kunderne, hvad der ligger på pallerne, og hvad de koster, får normalt ej heller poesiens blå farve til at flyde i blodet på unge danske poeter.

Men ikke desto mindre, så har de to danske forfatter Christian Bretton-Meyer og Søren Petersen formået at koble de kønsløse prislappers lakoniske udtryk med både humor og eftertanke, og leverer i deres “Fars ven John” intet mindre end en hysterisk morsom samling ALDI-digte.

Deres muse - der naturligvis hedder Prinsesse Aldina - bor på Aldislottet. Og “det er hende, der bestemmer, hvad varene skal koste, og hvor de skal stå“. Hun har givet de to digtere olympisk inspiration til at digte perler som:

Distribution har været et af de største problemer i det moderne. ALDI beklager“, der lakonisk efterfølger “SAKS. Til blandt andet klip af hår og negle. 23,50

Bretton-Meyer og Petersen benytter næsten en haiku-form til at kombinere nogle åbenlyse selvfølgeligheder, der sættes i et neongult lys fra oven: “Ved brug af Dankort overføres pengene ved hjælp af elektricitet” eller min egen favorit: “El-koger. Gør koldt vand varmt mens den bruger strøm“.

Såvel humor som stil er hentet i den sorteste kulkælder, og det kræver nok, at man sætter pris på den slags, hvis man skal have glæde af “Fars ven John”. Alene titlen og det absurde utydelige forsidebillede af en eller anden gammel mand (John? Eller far? Eller?), der intet har med indholdet at gøre, siger det meste.

Om forfatterne har fået ALDI’s tilladelse til at bruge såvel logo som navn til deres digte, skal jeg lade være usagt, men hvis den tyske koncern havde humor, så investerede de i restoplaget af dette lille hæfte, og delte det gratis ud til samtlige medarbejdere.

Til folk, der ikke selv arbejder i ALDI, så kan jeg anbefale alle at bruge de 40 kr., som “Fars ven John” koster. Hvis man altså kan få fat i den. Min lokale boghandler måtte give op, men skaffede mig en af forfatternes mobilnummer. Og herigennem fandt jeg frem til, at Arnold Busck i Købmagergade lå inde med et oplag.

Er man ikke helt overbevist om behovet for at foretage investeringen, så kan man hos Afsnit P opleve en særlig billedugave, hvor man klikker sig frem i billeder fra det indre af en rigtig, ægte ALDI-butik, og der får man et godt indblik i, hvad de to forfattere har præsteret.

“Fars ven John” har min varme anbefaling. Den er udgivet på forlaget Space Poetry og koster som sagt 40 kr. Og som man kan læse: “Ved retmæssig betaling må du tage varerne med hjem der hvor du bor“.

Se mere her.

[ratings]

Skriv kommentar

MSN Alerts

Xobni outlook add-in for your inbox