billede mangler

Er machine Learning nonsens?

Machine learning, kunstig intelligens, billedgenkendelse etc. Der flyver en masse ord rundt i branchen, og mange virksomheder prÞve at tjene penge pÄ at sÊlge den ene machine learning lÞsning efter den anden til deres kunder. Nogle med stor succes, andre med mindre succes. Med succes menes ikke at IT-virksomheden tjener penge, men at kunden fÄr noget ud af den solgte lÞsning.

For SOAK A/S er machine learning at hjÊlpe vores kunder med at understÞtte deres beslutninger via anbefalinger fra et IT-system. Ja, det lyder ikke sÄ smart som det andre sÊlger, men lad os prÞve at se pÄ hvad vi mener. Vi tager udgangspunkt i Microsoft Azure Machine Learning Studio. ML studio er et vÊrktÞj (der findes en gratis og betalte versioner), der bruges til Machine Learning.

Et lille eksempel

Vi driver en virksomhed der har til formÄl at vurdere om fly der skal lette vil blive forsinkede eller ej. Vi har ca. 2,7 mio. registreringer om flyafgange, og vi Þnsker at bruge dem til at vurdere fremtidige flyafgange.

NÄr man har dette dataset, sÄ er nÊste skridt at man laver et eksperiment og det mest simple og brugbare man kan lave ser ud som fÞlgende:

I ML Studio har man derefter mulighed for at trykke RUN, og sÄ kÞrer modellen, og nu har jeg trÊnet ML studio pÄ samme mÄde som jeg ville have trÊnet et menneske til at gÊtte. Forskellen er i hÞj grad at IT-systemet ser objektivt pÄ dataene hvor et menneske kan forholde sig til subjektive og objektive facts. IT systemet kan processere store data mÊngder og finde sammenhÊnge, mennesket kan finde MÊrkelige men brugbare sammenhÊnge.

Et projekt er som minimum bygget op af ovenstÄende 6 steps (men kan have mange flere)

  1. Flight Delay Data. dette er vores 2,7 mio. rÊkker af data med forskellige attributter, f.eks. afgangslufthavn, tid pÄ dagen etc.
  2. Split data. NÄr man laver en model, sÄ skal man bruge nogle af dataene til at trÊne modellen og andre data til at teste om modellen er brugbar. Har man f.eks. 100 rÊkker data, sÄ kan man bruge de 70 rÊkker til at trÊne modellen og de 30 til at teste om modellen virker.
  3. Two-Class logistic regression. Dette er den matematiske model som bruges til at finde sammenhĂŠnge, og sammen med data udgĂžr den matematiske model trĂŠningen.
  4. Train Model. Her fortÊller man blot hvilket felt den matematiske model skal gÊtte pÄ et resultat af, pÄ baggrund af de data man sender ind i modellen. I vores tilfÊlde er det feltet der viser om et fly er forsinket mere end 15 minutter eller ej. vi har 2,7 mio. registreringer af flyafgange hvor vi ved om de er forsinket mere end 15 minutter eller mere.
  5. Score Model. Her kan vi se hvor godt modellen rammer plet pÄ de data vi ikke har trÊnet modellen med, men som vi har gemt til at teste modellen med.
  6. Evaluate model. Her kan vi fÄ en statistisk vurdering af kvaliteten af vores model.

Ad 5, sÄ ser resultatet ud som fÞlgende.

Kolonnen markeret med 1 er de faktiske data og kolonnen markeret med 2 er det som vores model har gÊttet pÄ. Som man kan se (og eksemplificeret med 3), sÄ rammer de fleste plet, men i den linje der er markeret med 4, rammer modellen forkert.

Men det fĂžrste visuelle indtryk viser at modellen er rimelig god til at gĂŠtte om et fly er mere end 15 minutter eller ej.

For at fÄ en statisk vurdering skal man se pÄ Evaluate model, som ser ud som fÞlgende:

Der er mange informationer, men hvis an ser pÄ 1+2 = Her rammer modellen rigtigt og 3+4 rammer modellen forkert. Dette ser sÊrdeles fornuftigt ud, og nu er det en smal sag at lave en webservice, hvor vi fra vores ERP-system, eller andre systemer (f.eks. excel), kan sende fremtidige flyafgange ind, og sÄ gÊtte pÄ om flyet er forsinket mere end 15 minutter.

Smart og tal lyver jo aldrig. Eller gĂžr de?

Der er mange fordele ved machine Learning, men man skal ogsÄ kende begrÊnsningerne. Disruptiv adfÊrd er svÊr at forudsige, og derfor skal en kontinuerlig trÊning af modellen finde sted. Derudover, og det er nok den vigtigste pointe, sÄ krÊver en god model at man har stort kendskab til det man arbejder med, for ellers kan det vÊre svÊrt at definere hvilke parametre modellen skal basere sig pÄ.

Tilbage til det indledende spÞrgsmÄl: Er Machine Learning Nonsens? Absolut ikke, men ligesom alt andet skal det bruges med omtanke, og man skal kende de faldgruber som der er.

 

PowerBI, PowerDit og PowerDat….. tiden er til Self service BI.

Med Microsoft Powerbi har Microsoft lavet et af de bedste produkter til den generation af Self Service business Intelligence som er oppe i tiden. Self Service business intelligence betyder pÄ godt jysk at vi vil have flere og flere brugere til at kunne skabe innovation gennem data, vi vil have flere og flere brugere der ikke har teknisk men forretningsmÊssig indsigt til at bruge data til at skabe fremdrift i virksomheden, og vi vil fjerne nogle af de problemstillinger omkring flaskehalse der har vÊret tidligere i forbindelse med Business Intelligence produkter.

Der er efterhĂ„nden en del forskellige Microsoft teknologier / produkter, der starter med “Power”, og det kunne vĂŠre interessant at se hvad disse ord dĂŠkker over.

Microsoft PowerBI

Som hovedbegreb har vi PowerBI. Powerbi er Microsofts svar pÄ en cloud baseret lÞsning, hvor man kan fÄ prÊsenteret og arbejde med virksomhedens data. For at udvikle prÊsentationer og datamodeller til PowerBi, skal man bruger Microsoft PowerBI Desktop, som er et udviklingsvÊrktÞj man installere pÄ sin computer. Her henter man via PowerQuery data fra forskellige datakilder. Man behÞver ikke at se at det er PowerQuery man bruger, man kan vÊre en ganske god BI udvikler, alene ved at kunne bruge det grafiske brugerinterface i Microsoft
PowerBI Desktop. OvenstÄende er de basala Power teknologier man skal kan forstÄ for at kunne arbejde med Microsoft PowerBI.

Nogle virksomheder bruger udelukkende PowerBI Desktop til at lave rapporter og til at vise dem. NÄr man arbejder i PowerBI Desktop, sÄ gemmer man en fil kaldet PBIX, og denne fil kan alle Äbne og hente/vise data i/fra. Jeg anser dog PowerBI Desktop som et udviklingsvÊrktÞj, og jeg ville personligt foretrÊkke at bruge Excel hvis jeg alligevel ikke veil vise mine visualiseringer pÄ PowerBI.Com.

Microsoft Excel

Hvis man ser pÄ Microsoft Excel, sÄ findes der ogsÄ en del produkter som man. Nogle af dem er

PowerQuery, som ogsÄ bruges i Excel til at hente og modulere data. Derudover har vi begrebet Microsoft Power Pivot, som dÊkker over en datamodel som gemmes internt i Excel. Man kan arbejde med sine data i Power Pivot og sÄ prÊsentere dem i et Excel Regneark.

Til visualisering af data, har vi i Excel mulighed for at bruge produkterne Power Map og Power View (Power Map findes ogsÄ i PowerBI, men den har jeg udeladt under PowerBI).

Mange af teknologierne gÄr igen i PowerBI og Excel, og derfor kan man spÞrge sig selv om hvornÄr man vÊlger det ene fremfor det andet. Tag fat i os, sÄ kan vi tage en snak om dette.

Klik her for at komme til forsiden.

 

 

To faktor Authentication i PowerBI

Det er let, det er smart og det ser helt fantastisk ud, nÄr man starter pÄ et Microsoft PowerBI projekt. Forretningsfolkene fÄr de fornÞdne informationer hurtigt og effektivt, og IT-afdelingen kan let fÄ en succes. Alle vinder ved det.

Men husker man altid at tĂŠnke sikkerhed med ind i lĂžsningen:

  1. Hvem har adgang til de forskellige dashboards, rapporter og dataset?
  2. Skal man lave begrÊnsninger i de data som en person / gruppe mÄ se (rÊkke og attributter)?
  3. Hvad gĂžr man med login?

Ad. 3, sÄ er udfordringen at dataene ligger i skyen og Powerbi.com er en cloudbaseret lÞsning. Det betyder pÄ godt jysk at enhver person der kan et brugernavn og et password, principielt kan logge pÄ fra alle steder i verden.

Det havde ikke vÊret et problem, hvis der var tale om et ligegyldigt system uden informationer, men problemet er at Microsoft PowerBI lÞsninger ofte lÞsninger der pÄ en eller anden mÄde giver andgang til nogle af de mest fÞlsomme data en virksomhed besidder.

Derfor skal data sikres pÄ mange forskellige mÄder, men en ting vi klart anbefaler er at man ogsÄ sÊtter en eller anden form for 2 faktor authentikering op.

Dette kan gÞres pÄ mange forskellige mÄder, men vi anbefaler at bruge de indbyggede funktionaliteter i office365.

Vi anbefaler naturligvis at tage en snak med os om dette, men Þnsker man ikke dette, sÄ kan man fÞlge fÞlgende link fra Microsoft.

https://support.office.com/en-us/article/set-up-multi-factor-authentication-for-office-365-users-8f0454b2-f51a-4d9c-bcde-2c48e41621c6

Linket er pÄ engelsk.

Linket er generelt for office365, og det betyder at udover at sikre ens Microsoft Office 365 konti med to-faktor authentikering, sÄ sikrer man ogsÄ sin mailboks og andre Office 365 services.

Har du lyst til at vide mere om sikkerhed i Microsoft PowerBI lÞsninger, herunder to-faktor authentikering, sÄ kontakt vores Salgschef Helle, pÄ hdv@soak.dk eller telefon +45 28 30 00 21.

Vi er eksperter i at teste sikkerhed i forbindelse med Microsoft PowerBI lĂžsninger, og vi tilbyder alt lige fra test af datasikkerhed til strukturerede komplette forlĂžb, inkl. uanmeldte opfĂžlgninger.

Klik her for at komme tilbage til forsiden.