Illustrasjon på menn som kontakter unge jenter på nettet. Dette er en chat hentet fra Instagram, den ble vist av politet i Sør-Trøndelag i forbindelse med fengsling av en mann i 40-årene som er siktet for overgrep. Bilde viser at dette er en vanlig framgangngsmåte, men bilde har ikke noe med den aktuelle saken å gjøre.Foto: Ned Alley / NTB
FAGARTIKKEL
Kan nettprat fra overgrepssaker
brukes til å forebygge
framtidige nettovergrep?
Nettprat-prosjektet fikk tillatelse til å samle inn materiale fra straffesaker for å utvikle et
maskinlæringsverktøy for bruk i forebygging av framtidige nettovergrep mot barn. Den
største utfordringen ble imidlertid å finne fram til nettprat-materialet i politiets egne
systemer.
Inger MarieSundeProfessor på Politihøgskolen
NinaSundePolitioverbetjent på Politihøgskolen, PhD-stu...
Forventningene til hvordan kunstig
intelligens kan bidra til mer
effektivt politiarbeid er store.
I Nettprat-prosjektet, finansiert
av Justis- og beredskapsdepartementet,
har Politihøgskolen og
Trøndelag politidistrikt undersøkt om
data innhentet som bevis i straffesaker
om seksuelle overgrep mot barn kan
brukes til å utvikle et maskinlæringsverktøy
(ML-verktøy) for å forebygge slike
overgrep.
ML-systemets autonomi medfører at
brukeren ikke vet hvordan løsningen
produseres i det enkelte tilfellet. God
opptrening er følgelig en første forutsetning
for å kunne stole på systemet, og da
er kvaliteten på treningsdataene avgjørende.
Treningsdataene er så viktige at
den foreslåtte europeiske forordningen
om kunstig intelligens stiller spesifikke
krav om at de må være relevante, representative,
komplette, feilfrie og egnet
for statistisk analyse. Kravene er en
forutsetning for å kunne regne med at
ML-systemet vil virke etter hensikten.
Annonse
Effektiv deteksjon
Nettprat-prosjektet
er et første
steg i retning av
å realisere «Prev-
BOT-konseptet». Konseptet gjelder et
ML-verktøy i form av en chatbot som
kan understøtte politiets patruljering
på internett. Formålet er å bidra til
effektiv deteksjon av problematiske
steder, altså nettsteder hvor det
foregår seksualisert prat, og hvor
både voksne og barn ferdes.
Bildet viser en samtale i en nett-overgrepssak.
Når disse risikofaktorene identifiseres,
gir det politiet
grunn til å følge
med på nettstedet. En
person klarer bare å
følge med på noen få
samtaler av gangen,
men for PrevBOT
gjelder ikke denne
begrensningen. Siden
den er en chatbot,
kan den arbeide selvstendig og
erstatte innsats som ellers måtte utføres
manuelt. PrevBOT kan altså gi mer
politikraft på internett.
Mer vesentlig er det likevel at PrevBOT kan utføre oppgaver som mennesker
ikke kan utføre, uansett om
man har aldri så mye tid til rådighet.
Uriktige opplysninger om alder og
kjønn er typiske «grooming»-strategier.
Ved automatisk analyse av språklig
atferd kan PrevBOT anslå både alder
og kjønn til deltakere i nettprat, og
med dette gi et beslutningsgrunnlag
for politiet til å gripe inn med forebyggende
eller avvergende tiltak mot
nettovergrep, når voksne som utgir
seg for å være barn kontakter barn.
Vi ønsket dermed å undersøke
muligheten for å trene opp
en ML-algoritme til å analysere
nettprat for å avdekke disse risikoindikatorene.
Gitt
kravene til relevans
og representativitet
må treningsdataene
bestå av reelle samtaler
mellom overgriper
og barn, og
være på norsk siden
partene i norske
overgrepssaker fortrinnsvis
bruker norsk. Med tillatelse
fra Riksadvokaten og Politidirektoratet
startet vi innhenting av nettpratlogger
fra straffesaker om seksuelle
overgrep mot barn, med ambisjon om
å tilrettelegge et datasett for opptrening
av en PrevBOT.
Uforutsette problemer
Ambisjonen viste seg å være altfor optimistisk fordi vi støtte på en rekke uforutsette problemer. Problemene må antas å være generelle for ML-
utviklingsprosjekter med behov for datasett fra bevis i straffesaker, og reiser spørsmål om behov for endringer
i politiets dataforvaltning.
Vårt største problem var å identifisere saker som kunne inneholde relevante data. Siden det ikke kan søkes etter relevante data direkte i straffesakssystemet (BL), måtte vi identifisere saker med utgangspunkt i uttrekk fra STRASAK basert på relevante statistikkgrupper. Dette ga mer enn
20.000 saker. For å avgrense ytterligere brukte vi modusbeskrivelser, noe som reduserte antallet til 2250
antatt relevante saker. Blant politidistriktene var det imidlertid store
variasjoner i bruken av modusbeskrivelser, noe som trolig førte til at
relevante saker ikke ble fanget opp av søket vårt. Dette gikk ut over kravet
til fullstendighet i treningsdataene.
For prosjektet var det logger med nettprat mellom overgriper og barn som var relevante. Politidistriktene har imidlertid ulik praksis også for om loggene lagres i sin helhet, og i så fall
hvor de lagres. Mest vanlig er at loggen ligger i en sikringsfil på politiets
beslagsnett. Vi hadde adgang til å hente ut nettprat-logger selv fra BL, men ikke fra beslagsnettet, fordi sikringsfilen ikke omfattes av sakens dokumenter.
En direkte forespørsel til politidistriktene om å få tilsendt nettprat-logger viste at bare to av dem fant ressurser
til å kunne hjelpe oss. Lagringspraksisen medførte dermed at vi gikk glipp
av data i saker som var identifisert og
antatt relevant.
Gjennomgående praksis er å legge eksempler fra nettprat-loggene i rapporter i BL, og disse var tilgjengelige
for oss. Med tanke på utvikling av et ML-verktøy, er problemet med praksisen mangelen på fullstendighet, noe som også kan gå ut over representativiteten i treningsdataene. I tillegg var eksemplene i BL ofte uegnede som
treningsdata. Nettprat kunne være dokumentert i form av etterforskerens mobilfoto av skjermbildet på fornærmedes mobiltelefon, som for eksempel viste en melding på Snapchat. Snapchat er også hyppigst brukt, men lagrer ikke logger, noe som går ut over bevissikringen. Mobilfotografiene kunne være av så dårlig kvalitet at de ikke lot
seg behandle maskinelt. Dataene kan
da skrives inn manuelt, men det er ressurskrevende og medfører en ikke
ubetydelig risiko for tolkningsfeil. Det går ut over kravet til feilfrihet. Dersom nettprat-data derimot hadde vært lagt i sakens dokumenter som rådata, ville de vært maskinlesbare og kunne vært
brukt som treningsdata.
Nye problemstillinger
Når formålet med databehandlingen
endres fra å opplyse en straffesak til å være treningsdata for maskinlæring, oppstår nye problemstillinger. Hvorvidt politiets databehandling i etterforsking bør innrettes på også å
dekke senere utnyttelse for ML-formål, eller om en spesiell prosess for slik utnyttelse bør utarbeides, er en egen
diskusjon.
Kilder
Europakommisjonens forslag til en europeisk forordning om kunstig intelligens («Artificial Intelligens Act») av 21. april 2021. PrevBOT-konseptet er beskrevet i N. Sunde & I. M. Sunde, «Conceptualizing an AI-based Police Robot for Preventing Online Child Sexual Exploitation and Abuse: Part I – The Theoretical and Technical Foundations for PrevBOT» (2021).
Det som uansett synes klart er at politiet kan forvalte dataene bedre innenfor etterforskingsformålet, særlig ved å lagre beslaglagte logger fra sikringsfilen som del av saksdokumentene. Etter gjeldende rett skal
databeslag i avgjorte saker heves eller
slettes, mens bevis i sakens dokumenter skal arkiveres.
Data som er lagt i saken er dermed
beskyttet mot sletting og kan være en
fremtidig ressurs for teknologiutviklingen i politiet med formål om kriminalitetsbekjempelse.
Kontakt oss på [email protected]. Fagartikler i Politiforum er objektive, faglig funderte tekster basert på forskning eller studier. Makslengde er 7000 tegn (inkl. mellomrom). Teksten må ha tittel og ingress som beskriver hovedpoenget. Legg ved portrettbilde.