Sprogteknologisk seminar
Ingeniør Lene Offersgaard, Nordisk Forskningsinstitut:
CLARIN: Få sprogteknologiske værktøjer i spil med dine egne og andres tekster
Clarin.dk’s mission er at stille data og værktøjer til rådighed for humanistisk forskning. Der vil være eksempler på hvad CLARIN kan tilbyde, krydret med hvilke udfordringer, der typisk dukker op når værktøjer bringes i spil, fx vil vi se på vejen til korpussøgning i den ældste danske viseoverlevering. Metadata som middel til at beskrive tekster er også et centralt område for CLARIN. Endelig gives der en kort orientering om det europæiske CLARIN netværk.
Lektor Michael Lerche Nielsen, Nordisk Forskningsinstitut:
”Vi laver en database” – og hvad så?
Mit første møde med databaser var to runedatabaser, den danske del af ”Samnordisk runtextdatabas” ved Uppsala universitet i begyndelsen af 1990erne og siden ”Danske Runeindskrifter” samt efter årtusindskiftet personnavnedatabasen ”Danskernes Navne 2005” på Nordisk Forskningsinstitut. Det er unødvendigt at sige at databaser fundamentalt har ændret vores undersøgelsesmuligheder for forskning, og jeg vil kort vise eksempler på dette. Men jeg vil også nævne de problemer, databaserne giver. Er data lige så valide som traditionelle, videnskabelige publikationer? Og er afsenders intentioner på dette punkt de samme som modtagerens? Hvorledes kommer vi som forskningsinstitution videre med version 2 og 3 af databaserne? Som projektleder har jeg faglige ideer til forbedringer men savner viden om de teknologiske muligheder samt udgiftsrammer. Opgraderingsspørgsmålet er sørgeligt underprioriteret, ikke mindst fordi man let finder andre ”faglige” dagsordener på nettet, herunder hjemmesider, der sakser udvalgt information fra vores sider. Vil vi bevare den faglige autoritet og gennemslagskraft, må vi have midlerne og tiden til at gøre databaserne mere tidssvarende og synlige.
Videnskabelig medarbejder Philip Diderichsen, Dansk Sprognævn:
Ortografisk rangering: At ordne tekster efter antallet af stavefejl
Vi (Jørgen Schack, Sune Just Christensen og jeg selv) er i øjeblikket i gang med et projekt der har til formål at ordne korpustekster efter ortografisk kvalitet til brug for normeringsarbejdet. Sprogbrugsprincippet, der giver hjemmel til at fravige den ellers konservative linje i retskrivningsnormeringen, træder i kraft når der sker ændringer i “gode og sikre sprogbrugeres skriftlige sprogbrug”. Spørgsmålet er hvornår en sprogbruger er god og sikker, og vi vil gerne se om dette kan afgøres ved at tælle stavefejl (i første omgang i avistekster). Optællingen af stavefejlene er rugbrødsarbejdet i projektet. I første fase af projektet har vi vist at det virker lovende at opstille en liste med ikke-ord, som man herefter ret ukompliceret kan tælle op i et korpus. I anden fase er vi nu i gang med at lede efter betingede fejl: ordformer der ikke bare kan tælles, eftersom de kan være korrekte former afhængigt af konteksten (“at lærer” kan være korrekt i .. at lærer Madsen er flink osv.). Det gør vi ved at opstille søgekriterier i form af grammatikregler (Constraint Grammar-regler) der luger ud i falske positiver i en staveafvigelsesopmærkning udviklet af Eckhard Bick, SDU/GrammarSoft.
Direktør Sabine Kirchmeier-Andersen, Dansk Sprognævn:
Sprogteknologi i Danmark og i EU
Vi tror at vi er langt fremme i Danmark på IT-området, og det er vi måske også, men det ser faktisk ikke særlig godt ud når det gælder sprogteknologi.
Meta-net rapporten viser at vi ligger på flere områder halter bagefter de lande som vi normalt sammenligner os med fx Nederlandene. Den viser også at mange østeuropæiske lande har langt bedre sprogteknologi for deres sprog end vi har, og det gælder både taleteknologi og maskinoversættelse. I disse lande har man haft kontinuerlige strategiske satsninger på sprogteknologi og fx indsamling af tekst- og talekorpusser og udvikling af software.
EU-kommissionen er gået i gang med at dele ud af sine resurser og programmer og er begyndt at presse på for at promovere brugen af sprogteknologi i Danmark især over for offentlige institutioner. I mit oplæg vi jeg fortælle hvordan det foregår, og hvad det kan komme til at betyde.