Datalingvistik

Datalingvistik, som også kaldes computerlingvistik (eng. computational linguistics), er et interdisciplinært felt inden for sprogvidenskaben, som bl.a. trækker på lingvistik, datalogi, kunstig intelligens og statistik. Datalingvistikken anvendes bredt – både i forbindelse med sprogvidenskabelig forskning og til udvikling af værktøjer, som kan facilitere kommunikation på flere områder – og må dermed anses for værende et vigtigt forskningsfelt inden for sprog og kommunikation. Blandt datalingvistikkens hovedformål er automatisk analyse (dvs. analyse udført af en computer) af sproglige fænomener samt simulation af sprogsystem, sprogforståelse og sprogproduktion. Ofte er disse sammenkædet, i og med at automatisk sproglig analyse afhænger af en eller anden form for simuleret sprogsystem. I produktions- og forståelsesdimensionen fokuseres der på computerværktøjer til interaktion mellem menneske og maskine/computer, samt kommunikation mellem mennesker. Datalingvistikken er udviklet i takt med datalogi og computervidenskab som sådan, og kan bl.a. spores tilbage til 1940’ernes og 1950’ernes behov for oversættelse og afkryptering af store mængder dokumenter samt til samme periodes diskussioner om kunstig intelligens.

I automatisk syntaktisk analyse, også kaldet “parsing”, analyserer computeren elektroniske tekster (dvs. digitale og digitaliserede tekster) grammatisk, og ordklasser identificeres. Mere sofistikeret software kan også identificere syntaktiske relationer samt semantiske roller og andre semantiske forhold, og der arbejdes også på automatisk analyse af pragmatiske forhold. Værktøjer til datalingvistisk tekstuel og grammatisk analyse samt visse aspekter af sprogproduktion kan programmeres på diverse programmeringssprog så som Prolog (Matthews 1998), Python (Bird, Klein & Loper 2009) og Java (Reese 2015). Der findes fx et omfattende Natural Language Toolkit til Python (Bird, Klein & Loper 2009), og Prolog kan bruges til at udvikle bl.a. syntaktiske parsere baseret på forskellige parsing-strategier (Matthews 1998: 121-242). Automatisk syntaktisk, semantisk, morfologisk og semantisk analyse anvendes blandt andet i disciplinen korpuslingvistik til annotation af sprogkorpora med information om ordklasser og syntaktiske relationer samt semantiske detaljer (se fx tekstsamlingen i Garside, Leech & Sampson 1987). Denne type analyse er blandt andet blevet anvendt i forbindelse med kortlægning af semantiske universer i politisk kommunikation; som eksempel nævnes, at Klebanov, Diermeier & Beigman (2008) i en automatisk analyse af en tale af Margaret Thatcher fra 1977 kunne identificere flere semantiske felter og dermed kortlægge gennemgående framings (fx frames Nordirland i et perspektiv af vold, konflikt og terrorisme).

Parsing bruges ikke kun i forbindelse med analyse og forskning, men også i interaktion mellem menneske og computer, hvor computeren skal kunne genkende strukturer og ord i sproglig input fra brugeren. Simple parsere bruges fx i grammatikkontrol i tekstbehandlingsprogrammer.

Som et eksempel fra computerspillets verden kan nævnes, at der i tekstbaserede adventurespil samt tidlige grafiske adventurespil (før point-and-click) gjordes brug af primitive parsere, hvor brugeren kunne styre spillet via simple syntaksbaserede kommandoer så som “look room”, “take hat”, “give money to man” og “put keys in box”. Internetbrowsere og andre søgemaskiner gør også brug af parsere til at facilitere informationssøgning på internettet.

Maskinoversættelse (dvs. brug af computere til automatisk oversættelse fra et sprog til et andet) er en af de ældste discipliner i datalingvistikken, og en stor del af datalingvistikkens andre discipliner er udsprunget af behovet for korrekt mekanisk oversættelse, der kan tage højde for bl.a. leksis, grammatik og pragmatik. Denne gren af datalingvistikken har rødder i krigstidsspionagen i 1940’erne (Weaver 1949: 1-4) samt det efterfølgende behov for oversættelse mellem russisk og engelsk under den kolde krig (Hutchins 1999: 30). I 1970’erne udvikledes Systran, som bl.a. blev brugt af det amerikanske luftvåben til oversættelse mellem russisk og engelsk og af Europa-Kommissionen til oversættelse mellem fransk og engelsk (Hutchins 1999: 30-31). Forskning i 1980’erne og 1990’erne førte til udviklingen af Trados, som har været et populært støtteværktøj blandt professionelle oversættere (Hutchins 1999: 31), og i dag findes fuldt automatiske maskinoversættere (der dog endnu ikke kan oversætte fuldkomment korrekt), såsom Google Translate og Facebook’s oversættelsesfunktion.

I en anden gren af datalingvistikken undersøges sprogets evolution og udvikling – både på individets niveau og på det samlede sprogsystems niveau. I begge tilfælde konstrueres ofte statistisk baserede modeller, som simulerer sprogets udvikling, og denne tilgang bruges ofte til at undersøge teorier omkring sprogtilegnelse og sproghistoriske processer. Som eksempel kan nævnes Ellis & Larsen-Freemans (2009: 110-118) undersøgelse af tilegnelse af grammatiske konstruktioner på engelsk som fremmedsprog via to forskellige simulationsbaserede modeller.

Sprogproduktionsmæssigt har datalingvister længe været interesseret i at konstruere såkaldte “Turing-maskiner” (opkaldt efter Alan M. Turing), som kan producere ytringer, der ikke kan skelnes fra menneskeproducerede ytringer. Turing-testen (Turing 1950) er en central ide i forskning i kunstig intelligens og i produktionsorienteret datalingvistik. Selvom vor tids Turing-maskiner ikke har nået det niveau, som Turing opstillede i det tankeeksperiment, som Turing-testen bygger på (dvs. de kan ikke konversere helt naturligt), så er chatbots og mere sofistikerede ‘conversational agents’ (også kaldet ‘embodied agents’, hvis disse har en fysisk manifestation i form af fx en avatar, som brugeren kan se og interagere med) eksempler på Turing-maskiner, som kan producere ytringer og reagere på brugerens ytringer.

Datalingvister arbejder ikke kun med skriftsprog, men også med talesprog. I denne gren af datalingvistikken er talegenkendelse og talesyntese de vigtigste punkter. Talegenkendelse indebærer, at en computer kan identificere kombinationer af fonemer, intonation, trykfordeling og andre aspekter af talesprog i faktiske talte ytringer; teknisk set genkender computeren lydbølger, og den kan via disse identificere elementer i den pågældende ytring og dermed “forstå” den. Talesyntese indebærer, at en computer kan sammensætte fonemer, intonation, trykfordeling og andre aspekter af talesprog og dermed producere ord og sætninger, som kan forstås af mennesker.

Talegenkendelse og talesyntese bruges ofte i forbindelse med omsættelse fra tekst til tale og fra tale til tekst. Tekst-til-tale-værktøjer er softwaretyper, som kan omsætte input på skriftsprog til output på talesprog (eller rettere en imitation, eller syntese, af talesprog). Selvom disse teknologier ikke fungerer perfekt endnu, bruges både talesyntese og talegenkendelse hyppigt nu om dage. Tekst-til-tale bruges f.eks. i visse pdf-readere som et støtteværktøj til læsehæmmede, og det kan også nævnes, at der i den offentlige transport flere steder i landet i 2000’erne er blevet brugt tekst-til-tale-værktøjer i forbindelse med annoncering af busstoppesteder. Talegenkendelse anvendes f.eks. i Siri-funktionen iOS-styresystemet, som kendes fra iPhone, iPad og andre produkter fra Apple. YouTubes automatiske undertekstningsfunktion er et eksempel på et tale-til-tekst-værktøj. Slutteligt kan det nævnes, at Google Translate kombinerer maskinoversættelse med talesyntese, i og med at brugeren kan få Google Translate til at læse oversættelsen op.

Som Uszkoreit (2000) påpeger, er datalingvistik stadig en ung disciplin, men datalingvistikken har udviklet sig til et meget bredt og mangfoldigt felt pga. de behov, som følger med udvikling af internettet og anden digital kommunikationsteknologi.

2017

Supplerende læsning

Mitkov 2005, Jurafsky & Martin 2009, Clark, Fox & Lappin. 2010, Hausser 2014

Reference

Bird, Stephen; Klein, Ewan & Loper, Edward (2009). Natural Language Processing with Python. Sebastopol, Calif.: O’Reilly Media

Clark, Alexander; Fox, Chris & Lappin, Shalom (2010). The Handbook of Computational Linguistics and Natural Language Processing. Malden, Mass.: Wiley-Blackwell

Ellis, Nick C. & Larsen-Freeman, Diane (2009). “Constructing a second language: Analyses and computational simulations of the emergence of linguistic constructions from usage.” Language Learning, 59 (1), s. 90-125

Garside, Roger; Leech, Geoffrey & Sampson, Geoffrey (1987). The Computational Analysis of English: A Corpus-Based Approach. London: Longman

Hausser, Roland (2014). Foundations of Computational Linguistics: Human-Computer Communication in Natural Language. New York: Springer [2. rev. udg. 2001, 1. udg. 1999]

Hutchins, John (1999). “Retrospect and prospect in computer-based translation.” Proceedings of MT Summit VII “MT in the Great Translation Era” . Tokyo: AAMT, s. 30-44

Jurafsky, Daniel & Martin, James H. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. New York: Pearson Education [1. udg. 2000]

Klebanov, Beata B.; Diermeier, Daniel & Beigman, Eyal (2008). “Automatic annotation of semantic fields for political science research.” Journal for Information Technology & Politics, 5 (1), s. 95-120

Matthews, Clive (1998). An Introduction to Natural Language Processing through Prolog. London: Longman

Mitkov, Ruslan (red.) (2005). The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press

Reese, Richard (2015). Natural Language Processing with Java. Birmingham: Packt

Turing, Alan M. (1950). “Computing machinery and intelligence.” Mind, 49, s. 433-460

Uszkoreit, Hans (2000). “What is computational linguistics?” [Tilgængelig på <http://www.coli.uni-saarland.de/~hansu/what_is_cl.html>]

Weaver, Warren (1949). “Translation.” [Tilgængelig på <http://www.mt-archive.info/Weaver-1949.pdf>]