– Selv om en salgs­brosjyre sier at et data­verktøy kan tenke som et menneske, bør man ikke stole på det
(Foto: Torkjell Trædal)

– Selv om en salgs­brosjyre sier at et data­verktøy kan tenke som et menneske, bør man ikke stole på det

Professor om kunstig intelligens og predictive policing.

Denne teksten er utskrift av en samtale med professor Katrin Franke ved NTNU på Gjøvik. Samtalen ble tidligere i uka utgitt som en podcast på engelsk. Du kan lytte til den her.  

 

– I fjor signerte norsk politi en avtale med big-data-selskapet Palantir, verdt rundt 80 millioner kroner. I vinter signerte også Tollvesenet en enda større avtale med Palantir, verdt ca. 300 millioner kroner. På Gjøvik forsker Katrin Franke og andre eksperter på «digital kriminalteknikk», på hvordan man kan bruke datametoder eller kunstig intelligens til å finne bevis i etterforskning av for eksempel digital eller økonomisk kriminalitet. Stemmer det, Katrin Franke?

– Vi finner mer effektive løsninger for hvordan man kan etterforske ved hjelp av datamaskiner.

– Så dere lager metoder som politiet kan bruke for å løse kriminalitet?

– Vi har faktisk tett samarbeid med Kripos, Økokrim, Oslo politidistrikt og Politihøgskolen, for å undervise, trene og forske på nye metoder i det digitale rom. For å gjøre dette får vi finansiering fra Politidirektoratet gjennom CCIS, Senter for informasjonssikkerhet, som ble etablert i 2014 på Gjøvik.

– Det er først det siste året at spørsmålet om hvordan vi kan bruke data til å løse kriminalitet har blitt virkelig fremtredende her til lands. Det er fordi politiet signerte en avtale med Silicon Valley-selskapet Palantir, som vil gi politiet verktøy for å løse kriminalitet. I dag skal vi snakke om «predictive policing» – forutseende politiarbeid. Ideen bak forutseende politiarbeid, er at du ved å koble sammen nok data med hverandre, på en eller annen måte kan forutse kriminalitet.

Katrin Franke Foto: NTNU

– Dette er målet og håpet. Men la meg først bare gjøre klart at det å bruke kunstig intelligens og selvlærende datamaskiner (computing machines) i politiarbeid har en lang tradisjon. Etter hva jeg vet, ble et av de første systemene laget i 1975. Det er lenge siden, jeg kunne ikke skrive på den tida. De ble utviklet av tysk politi for å bekjempe terrorister i Røde Armé Fraksjon, som mange kanskje kjenner. Disse systemene la data sammen, spesielt data knyttet opp mot dokumenter og håndskrift. Etter 11. september 2011, sa sjefen for FBI at forebygging mot kriminalitet måtte være mer i fokus. Som et resultat av det, jobbet Secret Service i USA, Netherlands Forensic Institute og Bundeskriminalamt i Tyskland tett sammen, for å oppdatere eksisterende systemer for forutseende politiarbeid og analyse av bevis. Noen har kanskje også hørt om systemet Xiraf, som ble utviklet av Netherlands Forensic Institute, for å analysere bilder knyttet til overgrep mot barn. Så dette har vært gjort, men det har vært en nisje. Med de nye framskrittene innen teknologi og kunstig intelligens, har denne programvaren blitt mainstream. Plutselig er det mange selskaper på markedet som vil selge sine tjenester til politiet.

– Og et av dem er Palantir. De er signert i Danmark, Norge og i mange byer i USA. Kan du forklare kort hva Palantir og andre selskaper som gjør det samme, sier at de kan gjøre? Hvordan kan de forutse kriminalitet?

– Først og fremst: Alt er basert på eksisterende data og eksisterende saker og materiale som blir puttet inn i datasystemene. Ingen datasystemer kan forutse noe uten at du putter inn historiske data. Så datamaterialet systemene lærer av er nøkkelen, og ikke nødvendigvis algoritmene som programvaren er bygget på. De som kjøper systemene må tilby data, og det er ikke mer magi enn det.

– Dette er altså bare programvare om analyserer ulike registre og data, for eksempel personregistre, kriminaldata, bilregistre, telefonregistre. Det avhenger av hva du putter inn i systemene, og så vil de koble dataene sammen og foreslå for eksempel hvor, når og av hvem kriminalitet vil bli begått.

– Ja. Datakoblingen er det som tillater oss å forutse kriminalitet. Vi har i saker fra USA sett at Palantir har klart å avdekke informasjon, som forsvarsadvokatene aldri hadde fått se. Hvis et system som Palantir eller andre systemer har tilgang til store mengder data og oppføringer i databaser, så vil systemene selvsagt ha mulighet til å skape koblinger mellom dem. For eksempel hvor biler har vært parkert hvis de har tilgang til registre fra alle parkeringshus, eller hvor narkotikahandel trolig vil skje, hvis de har tilgang til databaser over alle offentlige toaletter. Programvarene gir oss datakoblingene, men du trenger altså først dataene.

– Og dette er jo fordelene. Før måtte du søke gjennom databaser og registre manuelt. Med dagens teknologi kan du gjøre det på et sekund, og også krysskoble dem. Det høres ut som en fantastisk mulighet for politiet. De kan forutse hvor noe vil skje og være raskt på stedet. De patruljere områder der kriminalitet sannsynligvis vil skje. Er det så fantastisk som det høres ut som?

– Innen kriminalteknisk vitenskap sier vi alltid at ting avhenger av noe. Og, ja, også dette avhenger av noe. Metoder som brukes, granskes mer og mer av forskerne, og det gjelder også forutseende politiarbeid. Vi har funnet ut at man ved å introdusere disse systemene åpenbart danner forutinntatthet. Når vi mater systemene med kriminalitetsdata fra et bestemt distrikt, og dette er spesielt vanlig i USA hvor du har nabolag du ikke bør gå aleine i, så går andelen kriminalitet og også hva vi klarer å forutse av det opp. Samtidig vil samme mengde kriminalitet skje i et annet geografiske området, men systemene vil ikke klare å fange det opp fordi man mangler dataene. Så man må alltid være bevisst hvilke databaser man har inne i systemet, fra hvilke områder og fra hvilke typer saker. Vi må spørre oss om vi blir forutinntatte, når vi har utviklet systemer som i hovedsak skal forutse kriminalitet i bestemte områder, eller om vi beholder nøytraliteten og dekker et større område.

– Ideen om forutseende politiarbeid, hviler på en antakelse av at kriminelle er vanemennesker og gjør det samme igjen. Hvor sannsynlig er det?

– Vi har jobbet tett med de som forsker på organisert kriminalitet, som kommer fra mer samfunnsvitenskaplige disipliner og kriminologi. Og vi ser faktisk en endring her. Småfiskene opererer i sine områder, men de store fiskene, terrorister vi kaller ensomme ulver, går ikke der hvor alle går. Jeg vil derfor si at utfordringen med systemene er at dersom vi ser på sofistikerte individer som begår kriminalitet, så blir det vanskelig. Jeg vil nevne en studie fra vår egen forskning, der vi har sett på bruken av generelle analyser av sosiale medier for å avdekke organisert kriminalitet og avanserte kriminelle på det mørke nettet. Det viser at vi med standard algoritmer ikke klarer å avdekke de kriminelle med avanserte evner. Så jeg stiller alltid spørsmålet: Hvis vi bruker standardmetoder fra generelle dataleverandører, er de kjent med kriminelle profiler og klarer de å avdekke de avanserte kriminelle.

Du trenger altså eksperter som alltid er oppdatert på hva som skjer innen kriminalitet, og som også kan oppdatere algoritmer og dataprogrammer, slik at man ikke alltid benytter standardprogramvare fra utsiden?

– Ja. Og beskjeden herfra, som er veldig viktig, er at det er behov for et tett samarbeid mellom kriminologer, kriminalteknikere og dataeksperter. Tradisjonelle dataeksperter er ikke kjent med profiler og karakteristikker ved kriminalitet, som for eksempel ensomme ulver og markedet på det mørke nettet. Derfor er et tett samarbeid mellom disse gruppene helt nødvendig. Kriminologer og kriminalteknikere må dele kunnskapen fra sine domener med datautviklerne.

– Norge kjøpte Palantir i fjor. Og vi må påpeke at norsk politi ikke kjøpte det med formål om å drive forutseende politiarbeid, men for å oppfylle kravene som stilles til norsk politi gjennom internasjonalt politisamarbeid. Politiet sier de skal bruke Palantir først og fremst som et søkeverktøy i biometriske data og ulike registre politiet har tilgang til fra før. Men på et mer generelt grunnlag: Politiet betaler 80 millioner kroner for Palantir, Tollvesenet betaler 300 millioner for Palantir og i Danmark bruker man det. Er det riktig at de private selskapene er de som skal tilby disse tjenestene?

– For det første: Det er helt forståelig at Norge er under et press i et europeisk politisamarbeid, hvor det kreves at man har kompatible datasystemer. Å kunne søke opp og dele data i kampen mot cybercrime og terrorisme, er viktig. Dette kan vi forstå. Spørsmålet er likevel om Norge uten å tenke seg om skal selge seg selv til et privat selskap i USA. Og enda verre, skal Norge dele sine data med et selskap i USA, som aldri har sett kriminalstatistikk fra Norge, og la dem lære av kriminaliteten vår? For dette er ikke Europol eller Interpol eller en internasjonal organisasjon, men et privat selskap. Og hvorfor skal i så fall data deles med Palantir, og ikke for eksempel Sqrrl? Så spør du, hva er Sqrrl. Sqrrl er et konkurrerende selskap som opprinnelig utviklet etterretningsverktøy og dataverktøy for National Security Agency i USA. NSA har blitt tvunget til å gå «open source» (basere dataverktøyene på åpen kildekode, journ.anm.) og gjøre data og algoritmer transparente, og ifølge brosjyrene fra både Sqrrl og Palantir, tilbyr de det samme. Spørsmålet her blir om noen har testet fordelene og ulempene med begge disse systemene? Palantir og Sqrrl. Og bør vi bare stole på Palantir som følge an internasjonale avtaler, eller bør vi støtte det internasjonale samarbeidet og i tillegg være veldig strenge når vi bestemmer hvilke systemer som brukes internt i Norge. Ja, jeg snakker engelsk, men jeg er gift og bor i Norge, og jeg spør fordi jeg bryr meg om Norge.

– Du sier at Palantir er mindre transparent enn NSAs Sqrrl?

– Det viser våre undersøkelser. Vi forsøker å undersøke og forske på begge systemer. Jeg har ikke kjennskap til om de som har signert kontrakter for politiet vet mer enn oss eller om de har gjort analyser på dette, men jeg lurer fordi vi ved NTNU har et mandat fra politiet der vi skal bistå politiet ved avgjørelser rundt big-data-analyse.

– Palantir er kjent som et selskap med hemmeligheter. Siden Norge betaler store summer til Palantir, har vi forsøkt å stille spørsmål om planene for selskapet i Norge. Men det er hemmelig. Det siste året har Palantir rekruttert i Norge og for øyeblikket er fire stillinger ledige i selskapets Oslo-avdeling. I Norge er advokaten Carl Christian Martiniussen fra Kvale advokatfirma kontaktperson, men alle spørsmål sendes videre til en ukjent talsperson i selskapet. Det eneste svaret vi har fått tilbake er at Palantir vokser i Norden, men utover det vil de ikke svare på spørsmål. Så de vil tjene rundt 400 millioner norske skattekroner, men selskapet er åpenbart ikke transparent. Å kjøpe programvare fra slike selskaper, fører det med seg noen demokratiske eller etiske problemstillinger? Blir det vanskelig å kontrollere selskapene eller sette etiske standarder, slik som man kanskje kan forvente av selskaper som har avtaler med norske myndigheter?

– Jeg håper de som har signert avtalene for politiet har studert det som står med små bokstaver, hva som loves og hvilke forpliktelser man har. Jeg er klar over at Palantir vanligvis ber om mye data tilbake, og jeg er selv bekymret for at private selskaper mottar store mengder av data om saker fra Norge. I tillegg undres jeg over at private selskaper kan jobbe med norske data uten at noen har overblikk. Fra tidligere samarbeid med politiet mellom politiet og leverandører at datainfrastruktur, har vi som støtte for politiet tatt en kikk på ny produkter før de blir kjøpt inn i større skala. Mitt spørsmål er om folk med dyp kjennskap til datasystemer og kunstig intelligens ha muligheten til å validere Palantir. Jeg vil gjerne påminne politiet om deres egne standarder, som sier at alle systemer skal fagfellevurderes ("be peer reviewed"), testes på offentlige data og stilles overfor standarder for verktøy som brukes. Det gjelder alle typer systemer, ikke bare Palantir. Har man sett for seg det første tilfellet der en forsvarsadvokat i en domstol stiller spørsmål ved bruken av slike programvarer, og er man i så fall i stand til å forklare og forsvare bruken av dem? Kan man bevise at det fungerer riktig? Hvis man ikke kan si det, så må man være raske og forsikre seg om at man kan det, og sørge for at den praktiske bruken er OK. Dette gjelder alle typer verktøy.

– Dette har jo vært tema i New Orleans nå. Der ble Palantir temmelig skjult tatt inn i kriminalitetsbekjempelsen. Bare et par politisjefer visste om det. Og de brukte det for å arrestere og dømme gjengmedlemmer. Nå stiller forsvarsadvokater spørsmål ved bruken av Palantir i saken, og det er en risiko for at folk kan gå fri igjen. Dette er ikke første historie fra USA om Palantir. Fra New York og Los Angeles har man hatt problemer med hvordan prismodeller, og når man har ønsket å forlate avtaler med Palantir, har man ikke fått med seg analysene videre som Palantir har gjort basert på politiets data. Selskapet er grunnlagt av Peter Thiel og Alex Karp, og Peter Thiel er knyttet til Trump-kampanjen. Palantir-ansatte har også de siste ukene blitt knyttet til Cambridge Analytica, det store selskapet som samlet inn informasjon fra 50 millioner Facebook-brukere for å benytte det i presidentkampanjen. Det høres ut som det er en del innvendinger mot dette selskapet, som ikke er transparent?

– Hvor transparente datasystemene er, har vært et tema i de 20 årene jeg har sett på bruken av dem til politiarbeid. Det er mulig problemene har dukket opp igjen med Palantir, men jeg vil trekke det opp på et mer generelt plan, for det gjelder uansett hvilket selskap som tvinger politiet inn i en nisje, til å bruke deres tjeneste og bare deres tjeneste. Det vi har sett er at organisasjoner som Netherlands Forensic Institute så disse problemene for lenge siden, og sa i stedet at de ønsket å utvikle egne alternativer. Bundeskriminalamt i Tyskland sa at vi vil ha verktøy som ikke gjør oss avhengige av noen mellomprogramvare. I Europol finnes det initiativer der politistyrker rundt i Europa samler kreftene sine, og forsøker å utvikle verktøy som er troverdige, transparente og open source. Mitt poeng er at i stedet for å bare kjøpe et dataverktøy som et selskap med fine brosjyrer tilbyr, så bør man også se på hvilke initiativer som foregår rundt i politiverden og Europa, og samarbeide om dem. For hvis man selger seg til et selskap, og spesielt om man selger sine data, så sitter man fast. Og vi har allerede nok negative eksempler til at vi bør tenke oss om.

– Så vi vet at det er vanskelig å forutse kriminalitet og at det er dumt å gjøre seg avhengige av lite transparente verktøy og selskaper. Men hvis vi fortsatt vil benytte oss av dataanalyse, og det vil vi jo, fordi dataanalyse kanskje allerede er det viktigste vi har for å avsløre kriminelle, hvilke alternativer har vi? 

– Splitt og hersk! Det betyr at man skal bruke programmer med forhåndsprosessert data (data der feilkilder er luket ut, journ.anm.), at man skal beholde noen tjenester in-house og andre deler kan man outsource. Palantir har for eksempel en fint brukergrensesnitt som er enkelt å håndtere. Da kan man benytte de funksjonene, men beholde kjernedata og algoritmer innad i politiet. 

– Og vi har alternativer, som du var inne på. Programvare som er utviklet av politi selv. Et av dem er programvaren «Hansken», som utvikles av Netherlands Forensic Institute. Hva er Hansken?

– Hansken har blitt utviklet basert på erfaringene fra Xiraf, programmet NFI lagde for å søke gjennom bilder i saker med overgrep mot barn. Det er dedikert til å analysere og koble data i digital etterforskning. Alle delene av programvaren i Hansken er open source. Systemet er svært modulært, og det betyr at dersom rammeverket systemet er bygget på, Hadoop, blir utdatert, så kan systemet enkelt overføres til et annet rammeverk, en annen kode. Det samme gjelder søkemotoren, som kan byttes ut. Programvarens oppbygning er velkjent, og Hansken har også implementert mekanismer for godkjenning ved arbeid med journaler og mapper, noe som er påkrevd ved kriminalteknisk arbeid. Jeg er ikke betalt av Hansken og driver ikke reklame, men dette er mine entusiastiske uttalelser som forsker. I 2015 inkluderte Hansken 15 årsverk, som NFI har sponset hovedsaklig selv. NFI ønsker å samarbeide med andre land, og jeg vet at Norge har vist seriøs interesse for å involveres i dette samarbeidet. Så vi vet at Hansken har sine fordeler, men det har også sine ulemper. Og en ulempe kan være at ikke programmet har fancy grafiske framstillinger av data. Da kan man spørre om hvorfor man ikke kan bruke Palantir eller andre verktøy til det. Og det kan man. Man kan bruke det beste av to verdener, men uten å selge seg å gjøre seg avhengige av kommersielle aktører.

– Så dette er alternativer som er enkle å oppdatere og utvide, og som er eid av myndighetene selv, og de kan også i store trekk gjøre det samme som Palantir og andre selskaper?

– Ja, og så trenger man ikke glemme alle systemene som finnes der ute. Vi trenger ikke kaste bort dem, vi kan nevne Hansken, FDK, Access Data og så videre, bare for et nytt Palantir. Vi må huske hva som er kompatibelt med eksisterende systemer. Jeg vil gjerne nevne en rapport fra 2015 som omhandlet big data-verktøy som ble brukt av politiet rundt i verden. Overraskende nok var verken Hansken eller Palantir listet opp. Men det er mange andre. En annen ting er de store europeiske prosjektene som pågår når det kommer til å dele bevis, som finansieres av Europakommisjonen. Hvorfor ikke se på det også? Ja, tid er penger og vi må handle nå, jeg er enig i det. Men samtidig må vi passe på at vi ikke gjør oss avhengig i 10, 20 eller 50 år på grunn av tidspress.

– Så for å ikke bli avhengige av systemer de neste 20 eller 50 årene, hvordan må vi rigge oss?

– Vel, først og fremst på utdanning. Hvis vi vet hva som befinner seg i eska, kan stille spørsmål ved innholdet. Vi slipper å stole blindt på leverandøren. Hvis jeg vil ha en ny bil og noen viser meg en Ferrari, så vil jeg bli imponert fordi den ser så bra ut. Men min norske mann vil si at "Katrin, her er det snø og du trenger en firehjulstrekker, ellers vil du ikke overleve". Så noen må være kjent med forholdene. Ja, jeg liker Ferrari, men lytter til min mann som veit det. Hva kan vi gjøre? Politidirektoratet har investert i utdanning innen maskinlæring og kunstig intelligens for politiet. Vi har siden 2010 tilbudt utdanning for sikkerhetsansatte og kriminalteknikere. Ikke bare hent en forsker fra gata med utdanning innen kunstig intelligens, fordi en generell forsker på feltet kjenner som sagt ikke til karakteristikkene ved politiet. Politiet kan drive med kunstig intelligens, men de må forstå det grunnleggende i det først. De må se både mulighetene og begrensningene i dette. Har man ikke utdanning, vil man gå i en felle. Man vil la seg imponere at de fine salgsbrosjyrene, men man må kunne stille spørsmål ved og påpeke hva som er påkrevd for å kunne implementere kunstig intelligens i politiarbeidet med suksess.

– Politiet må bare investere i folk som kan dette?

– Ikke alle må investere, det holder med noen få i de ulike delene av politiet. Spesialenheter i politiet, spesielle betjenter i distriktene. Av og til trenger man bare én som kan stille de riktige spørsmålene, og deretter kan man samarbeide rundt i Norge og ikke bare blindt stole på et dataverktøy. Selv om en brosjyre sier at et datasystem kan tenke som et menneske, så ikke stol på det. Ferrarien hører til i Italia. Firhjuleren hører til i Norge.

Til toppen