Kategorier
Länkar

”Data mer värt än guld, men behandlas som skit”

Håkan Ogelid skriver krönikor med analyser av trender på marknaden och den tekniska utvecklingen.

Håkan Ogelid skriver krönikor med analyser av trender på marknaden och den tekniska utvecklingen.
Individer, företag och organisationer slarvar enormt med hanteringen av data. Ofta är det som att låta en guldtacka ligga framme på skrivbordet eller köksbordet. Eller förresten. Som att hälla ut en säck diamanter över köksbordet. Samtidigt har det aldrig pratats mer om vikten av att ha kontroll över sina data och att kunna analysera dem.

Inom statistiken är begreppet korrelation centralt, det vill säga sambandet mellan begrepp. Ett vanligt uppdrag för en statistiker är att belägga sambandet mellan två begrepp, till exempel sambandet mellan en individs uppväxtmiljö och genomsnittlig studielängd.

Ett annat uppdrag kan vara att belägga sambandet mellan en individs snittlängd och medellönen, men då kallas det nonsenskorrelation och sådana är mycket enkla att ta fram.

Ett värre problem, eller oro, för en statistiker är att nya samband hela tiden växer fram, men att de aldrig beläggs. Den som hittar dessa nya samband, och kanske utvecklar metoder för att automatiskt belägga dem, kan bli en mycket rik människa. Därför är det viktigt att hantera data korrekt. Inte släppa data till vem som helst eller att ta lätt på värderingen.

Individer sprätter lättvindigt data omkring sig till Facebook och Google, som fortsätter att tjäna pengar på att få dem gratis. Eller rättare sagt. Det är priset jag betalar för att använda Googles söktjänst. Inget är som bekant gratis. Värre är när företag släpper data om verksamheten. Därför pågår nu en kamp i det tysta om vem som ska kontrollera data, som produceras i ett rasande tempo.

Analysmetoderna utvecklas, så att den till synes helt värdelösa mängden ostrukturerade data blir oerhört värdefull. När analys är som enklast är det frågan om att veta vilka frågor som ska ställas utifrån en väl definierad datamängd. Men det blir betydligt knepigare när frågorna som bör ställas är okända och även data är helt okända och ostrukturerade. Knepigt är bara förledet, men likväl sitter statistiker just nu och löser problemet. Skräp blir till guld.

När vilken data som helst kan analyseras och frågorna generas med hjälp av algoritmer, så hotas integriteten och mycket blir osäkert. Värdet på internet of things ligger inte i antalet uppkopplade prylar, utan i data som skapas. Där finns också framtidens problem när det gäller säkerhet och integritet.
För två år sedan existerade inte 80 procent av datamängden som finns idag. Mot den bakgrunden kanske det är läge att börja prata om datamaskiner i stället för datorer.