Natural Language processing - KMDtxt

En åben bærbar computer

I DIMA har vi nogle af Danmarks førende kompetencer inden for kunstig intelligens baseret sprogprocessering, også kaldet Natural Language Processing (NLP). Dette kan eksempelvis ses i vores løsninger: KMD Spendanalysis, KMD Case Insight og KMD Graphics Insight, som alle anvender sprogforståelse til at kategorisere fakturaer, sager samt hjemmesider.

Andre steder, som NLP kommer til udtryk, er for eksempel, da konsulentbureauet Analyse & Tal F.M.B.A i maj måned offentliggjorde den hidtil mest avancerede dansksprogede algoritme til detektion af angreb og ”hate speech” på sociale medier. Kernen i denne algoritme er den sprogmodel, Ælæctra, som Malte Højmark-Bertelsen, Data Scientist fra DIMA Health-Business solutions har udviklet.

Men hvad er en NLP sprogmodel egentligt?

NLP er betegnelsen for teknologien, der gør computere i stand til at kommunikere med mennesker på vores eget sprog og dermed arbejde med sprogrelaterede opgaver. NLP er et forskningsområde, der efter en meget berømt artikel i 2017 kaldet ”Attention is All You Need” har oplevet en voldsom udvikling. Pludselig blev det muligt for computere at læse tekst, genkende tale, og fortolke sprog på et niveau, hvor det til tider er umuligt at adskille computeres sprogforståelse fra menneskers. Det nye ”kvantespring” inden for området var introduktionen af den matematiske operation kendt som Transformere.

Disse nye kapabiliteter har muliggjort, at vi nu kan trække oplysninger ud af ellers ”dødt” data, eksempelvis udtræk af nyttige oplysninger fra brødtekst-felter i databaser eller meget avanceret klassifikation af skreven tekst.

For at løse enhver moderne transformerbaseret NLP-opgave er der behov for at træne en sprogmodel. Dette gøres ved at udsætte algoritmen for en masse skreven tekst, så den derigennem får en abstrakt repræsentation af sproget. Et af DIMA’s helt store kapabiliteter i denne sammenhæng er, at vi har nogle rigtigt skarpe hjerner, der er i stand til at træne disse sprogmodeller og anvende dem i den rigtige sammenhæng.

KMD generelt har fået ekstra fokus på NLP efter DIMA, gennem Malte, har fået tildelt KMD’s Innovation Grant på 1 mio. DKK for at udvikle en fælles tekstprocesseringsservice, KMDtxt, hvor visionen er at samle NLP kapabiliteterne i et API, som kan kaldes på tværs af KMD. Fordelen ved at centralisere NLP er netop, at den samme sprogmodel kan genbruges i mange forskellige sammenhænge.

Den første kunde for DIMA KMDtxt kommer antageligt til at være en endnu ikke identificeret Workzonekunde. Her vil KMDtxt API’et facilitere dansk tekstredaktion, altså identificering af sensitiv (eksempelvis personfølbar) information i sager lagret i Workzone, så det eksempelvis kan udstreges i forbindelse med aktindsigt, hvilket er en opgave, som flere Workzonekunder bruger meget tid på.

På nuværende tidspunkt indeholder KMDtxt’s betamodel allerede følgende funktionaliteter, der kan kaldes:

  • Identifikation af sager som ligner hinanden
  • Sentiment analyse på dansk (hvor positiv / negativ er en tekst)
  • Named entity recognition på dansk (identifikation af objektet af en sætning, fx personen som det drejer sig om)
  • CPR-nummer identifikation
  • Telefonnummer identifikation
  • E-mail identifikation
  • Paragraf identifikation (i forbindelse med lovtekster)

Planen er, at der på sigt kommer til at være mange flere funktioner inkluderet, eksempelvis tekst-redaktion, oversættelse, spørgsmålsbesvarelse, områdespecifikke opgaver som aflæsning af patientjournaler og meget mere.

Lad os tale om Jeres muligheder!

Hvis nogen i DIMA har nysgerrige spørgsmål eller idéer til, hvad der ellers i fremtiden kan ligge af funktionaliteter i KMDtxt, og hvor KMDtxt kan skabe yderligere værdi, så er alle velkommen til at kontakte Malte Højmark-Bertelsen på hjb@kmd.dk og Emil Sarauw Rasmussen på esr@kmd.dk eller udfylde kontaktformularen nedenfor. 

Mand trykker på smartphone