28.01.2018. gada XNUMX. janvāris | Pjotrs Kžeševskis – datu zinātnieks
Datu kvalitātes nozīme mašīnmācīšanās pasaulē
Mašīnmācība nav iespējama bez datiem, kas satur mums nepieciešamo informāciju, ļauj uzdot jautājumus un ļauj mums atrast vērtīgas atbildes, kas pārtaps augstas biznesa vērtības ieskatos. Kādām īpašībām jābūt datiem, lai tos varētu efektīvi izmantot mašīnmācības procesā? Tālāk es analizēšu dažus raksturlielumus, kas raksturo labus datus. Katrā gadījumā mēģināšu ar piemēriem pamatot un ilustrēt šīs funkcijas nozīmi. Kā izrādās, pat šķietami nenozīmīgas nepilnības var būtiski ietekmēt visa projekta iznākumu. Problēmas ar datiem īpaši lielā mērā ietekmē datu zinātnes komandas darbu. Visbeidzot es iepazīstināšu ar metodēm, kas ļaus automatizēt datu apstrādi un samazināt izmaksas, kas rodas no sliktiem datiem.
Labu datu raksturojums
Pilnīgums
Mūsu izmantotajiem datiem jābūt pilnīgiem vismaz trīs galvenajos līmeņos:
- Mainīgs
Vai visi mainīgie, kas var ietekmēt mūsu jautājumu, ir iekļauti apmācību komplektā? Iedomāsimies situāciju, kad liela banka vēlētos atrast klientus, kas gatavi ņemt kredītu. Šādus pētījumus var izmantot mārketingā. Diemžēl kāds nolēma, ka datumam nav nozīmes, un svarīgs ir laiks, kas pagājis kopš pēdējā aizdevuma. Šajā situācijā Datu zinātniekam būtu grūts uzdevums, jo būtu grūti novērot piem. klientu grupa, kas aizņemas uz svētkiem. Pilna datu kopuma izmantošana ļautu monetizēt citu vērtīgu informāciju.
- Diapazons
Vai mūsu datu kopa aptver visus konkrēto mainīgo diapazonus? Pieņemsim, ka mēs vēlētos sagatavot modeli, kas prognozē antenas izmantošanas līmeni mobilā tīkla operatoram. Ja mums būtu dati tikai no rudens un ziemas, mums būtu grūti pareizi noteikt prognozes stacijām, kas atrodas piejūras pilsētās un vietās, kur notiek slaveni vasaras festivāli.
- Rekord
Vai katrā gadījumā ir visi pieejamie dati? Lai mūsu mērķis tagad būtu personalizēt mārketinga kampaņu liela apģērbu veikalu tīkla klientiem. Ja sagatavotajā komplektā lielai daļai klientu trūka dzimumu informācijas, mēs sagaidām, ka sagatavotais modelis būs ievērojami sliktāks nekā modelis, kas sagatavots uz pilnu datu kopu.
Unikalitāte
Datu dublikāti parasti ir nopietna problēma. Tie var parādīties divās vietās:
- Dublētas iezīmes
Daudziem datu zinātnes procesos izmantotajiem algoritmiem dublikāti ir problēma. Pirmkārt, tie palielina algoritma darbības laiku, jo tie paši dati ir jāapstrādā vairāk nekā vienu reizi. Dažos gadījumos tas ir arī izaicinājums, jo algoritmam var būt grūtības "izlemt", kura funkcija ir svarīgāka. Tas noved pie sliktākiem un nestabiliem (mazāk reproducējamiem) rezultātiem. Mēs uzskatām, ka vienas un tās pašas funkcijas attēlojums vairākās vienībās ir dublikāti (piemēram, klienta augums metros un centimetros vai neto un bruto rēķina vērtība).
- Ierakstu dublikāti
Atsevišķu novērojumu dublikāti ir mazāk izplatīta problēma. Ja dublikāti veido ievērojamu daļu datu, tie var izkropļot rezultātus. Iedomāsimies situāciju, kurā meklējam informāciju par jaunajiem banku klientiem, kuri atver noguldījumus. Laukos dzīvo klients, kurš izveidojis vairākus desmitus noguldījumu. Ja analīzi veiksim komplektā ar vairākiem šī klienta datu dublikātiem, mēs varam iegūt rezultātu, kas neatspoguļo realitāti, liekot domāt, ka klienti no laukiem atver daudzkārt vairāk noguldījumu nekā viņu vienaudži no pilsētas.
Aktualitāte
Cita veida problēmas var izraisīt novecojušu datu izmantošana. Kādās situācijās tas var negatīvi ietekmēt mūsu modeļa efektivitāti?
Ņemsim, piemēram, veikalu tīklu, kas saviem klientiem piedāvā lojalitātes kartes 2006.-2009.gadā. Vadība vēlētos paredzēt pieprasījumu pēc dažiem luksusa produktiem. Ar datiem no 2006.gada līdz 2008.gada vidum būtu ļoti grūti prognozēt pārdošanas apjomus 2009.gadā, kad bija vērojams būtisks ekonomiskās krīzes izraisīts patēriņa samazinājums. Šī situācija arī uzsver faktu, ka datu zinātniekam ir jāzina citi faktori, kas nav redzami datu kopā un kas ietekmēs veicamo analīzi.
Jums arī jānodrošina, lai datu kopā būtu jaunākie dati, ko varam iegūt. Būtu nepieņemami, ka datu zinātnieks sagatavotu modeli, lai izvēlētos labāko mārketinga kampaņu katram klientam, un viņam netiktu sniegti dati par šiem klientiem nesen veikto kampaņu rezultātiem.
No iepriekš minētajiem piemēriem var izdarīt divus secinājumus:
- var būt nepieciešams regulāri atsvaidzināt sagatavoto modeli, lai iekļautu pašreizējos datus. Šīs darbības biežums jāizvēlas atkarībā no modelējamās problēmas. Ražošana rūpnīcā var mainīties katru nedēļu, un lauksaimniecības augiem var pietikt ar pusgada vai ceturkšņa ciklu,
- Datu zinātnieks nevar izmantot datus, par kuriem tas nezina vai kuriem nav piekļuves. Tāpēc organizācijai ir jāsagatavo mehānismi, kas nodrošinās pareizu zināšanu izplatīšanu par esošajām datu kopām. To var mēģināt īstenot, ieceļot par šādiem uzdevumiem atbildīgo personu (piemēram, īpašu datu administratoru), bet lielākām organizācijām būs jārod automatizēti risinājumi.
Precizitāte
Daudziem cilvēkiem, kas dzīvo datu zinātnes pasaulē, šī ir vissvarīgākā datu iezīme. Datu precizitāte ir nepieciešama, lai iegūtu derīgu rezultātu. Diemžēl kļūdas var rasties daudzās vietās un dažādu iemeslu dēļ. Daži piemēri:
- sistēmā ievadīti nepareizi dati (lietotāji vai darbinieki),
- nepareizi datu pārsūtīšanas veidi starp sistēmām,
- nepareiza datu ielāde analīzes rīkos,
- nepareiza datu pārsūtīšana uz mašīnmācīšanās algoritmiem.
Problēma ar datu precizitāti var rasties jebkurā datu apstrādes un apstrādes posmā. Dažas kļūdas būs grūti pamanāmas un praktiski neiespējamas tās labot (īpaši, ja dati tiek ielādēti no sistēmas lietotāja). Datu apstrāde ir pakļauta cilvēka kļūdām, tāpēc ir vērts automatizēt visus ar to piegādi un apstrādi saistītos procesus.
Papildus tam ir arī citi aspekti, lai nodrošinātu datu precizitāti. Vai kolonnas ir labi aprakstītas? Vai datu zinātnieks spēs noteikt katra mainīgā nozīmi? Ņemsim, piemēram, kolonnu ar nosaukumu ceturksnis_1_pārdošanas_summa. Lai gan šķiet, ka tas ir labs tajā ietverto datu apraksts, joprojām ir pamatoti jautājumi:
- Uz kuru gadu šie dati attiecas?
- Vai tas ir neto vai bruto pārdošanas apjoms?
- Vai tiek ņemti vērā šajā periodā noslēgtie līgumi vai iegrāmatotie maksājumi?
- Kā ar šo mainīgo tiek apstrādāta preču atgriešana?
- Vai šim mainīgajam ir vienāda nozīme atsevišķiem klientiem un uzņēmumiem (jo īpaši attiecībā uz PVN nomaksu)?
Protams, ne visi šie jautājumi būs aktuāli katrā situācijā, un papildu informācija par datu kopu kliedēs dažas šaubas. Tomēr šādas neprecizitātes var radīt problēmas, izraisot kļūdas un aizkavēšanos. Bieži gadās, ka datu zinātniekam ir jāatrod cilvēki, kas ir atbildīgi par datiem, lai saprastu to nozīmi.
Ir vērts pieminēt arī parasto mērījumu neprecizitāti. Ja mēs veicam materiāla analīzi vai daži rādītāji nav precīzi izmērīti, kā tiek veidota šo mainīgo kļūda. Vai tas ir nemainīgs laika gaitā? Vai neprecizitātes informācija ir precīza un sniegta kopā ar datiem?
Kohēzija
Bieži vien neievērota (un parasti tiek uzskatīta par patiesu) datu īpašība ir konsekvence. Tāpat kā ar iepriekšējām problēmām, šīs funkcijas pārkāpšana var radīt problēmas dažādās situācijās. Gatavojoties datu zinātnes analīzei, mums jāatrod atbildes uz šādiem jautājumiem:
- Vai mēs varam saistīt datus no dažādām sistēmām ar vienu objektu (piemēram, konkrētu klientu, unikālu produktu)?
- Vai mūsu izmantotās sistēmas izmanto tos pašus datu formātus (piemēram, tālruņa numura, adreses formātu)?
- Vai visām izmantotajām datu kopām ir vienāds precizitātes līmenis (piemēram, vienā sistēmā atrašanās vieta ir valsts, bet otrā – pilsētas rajons)?
- Vai datos tiek izmantotas tās pašas vienības? Atšķirību starp kilogramiem un tonnām ir salīdzinoši viegli, taču kilometru un jūdžu neatbilstība var palikt nepamanīta un novest pie kļūdām, kuras nākotnē ir grūti labot.
- Vai laika dati ir izteikti vienādi? Vai viņi izmanto vienu un to pašu laika joslu?
Problēmas ar nekonsekventiem datiem ir zināmas jau ilgu laiku. Ir piemērs NASA projektam, kurā tika zaudēta zonde, jo imperatora vienības tika sajauktas ar SI sistēmu.
Svarīgums
Pēdējā iezīme, ko vēlamies pieminēt labu datu kontekstā, ir tās nozīme. Tāpat kā iepriekšējos gadījumos, to var aplūkot dažādos līmeņos.
Pirmkārt, es vēlētos pievērsties aspektam, kas nav tieši saistīts ar datiem, bet ir ļoti svarīgs visa procesa rentabilitātei. Pirms datu analīzes uzsākšanas jums jāapsver, vai jautājums, ko mēs uzdodam Data Science komandai, ir patiešām svarīgs biznesa ziņā. Vai nav problēmu, kas varētu radīt lielākus ietaupījumus vai peļņu? Jāatceras, ka Data Science komandai nereti ir liela pieredze gan tehniskajā, gan biznesa daļā, kas iegūta, strādājot dažādos projektos. Noteikti ir vērts lūgt datu zinātnes komandas viedokli, kas var norādīt uz problēmām, kurās turpmākā rīcība varētu izrādīties visrentablākā.
Derīgums jāapsver arī datu sagatavošanas un izmantošanas kontekstā. Vai datu zinātnieks ir saņēmis visus datus, ko tas var izmantot analīzē? Jāatceras, ka tieši datu zinātnieki vislabāk zina, kurus datus ir vērts izmantot, tāpēc viņiem būtu jāpieņem lēmumi šajā jautājumā. To var ilustrēt bankas piemērā, kura vēlas atlasīt klientu grupu, kurai ir vērts piezvanīt ar jaunu piedāvājumu. Šajā gadījumā ir jāņem vērā daudz dažādu datu veidu – personas dati, kredītvēsture, reakcija uz iepriekšējiem kontaktu mēģinājumiem. Taču interesanti, ka vienā no līdzīgiem projektiem izrādījās, ka ļoti svarīga ir lietotāju uzvedība mājaslapā. Svarīgas datu kopas izlaišana var nolemt projektu neveiksmei jau no paša sākuma.
Datu kvalitātes ietekme uz datu zinātnes komandu
Es sāku šo ziņu, sakot, ka mašīnmācīšanās nav iespējama bez datiem. Tomēr es teiktu, ka tas ir iespējams bez labiem datiem. Labam datu zinātniekam jāspēj apstrādāt neprecīzus, slikti aprakstītus datus, kas ir nekonsekventi un satur dublikātus. Analīzi var veikt arī, izmantojot nepilnīgus vai novecojušus datus (tas ietekmēs iegūto rezultātu).
Tomēr tas viss maksā laiku. Mēdz teikt, ka datu apstrāde ir aptuveni 80% no visa datu zinātnes procesa. Ja datu zinātniekam ir jāpavada papildu stundas, lai atklātu dublikātus, pārbaudītu izmantoto vienību pareizību vai dienas, lai precīzi noteiktu atsevišķu mainīgo nozīmi, visa procesa izmaksas ievērojami palielinās. Kas ir sliktāk, pirmie efekti, kas palīdzēs virzīt tālāko darbu, parādīsies daudz vēlāk.
Sliktu datu sniegšanai analīzei ir arī negatīva ietekme ārpus projekta. Datu zinātnieks ātri zaudēs uzticību datiem, ja izrādīsies, ka viņam pašam ir jāatbild par kvalitāti. Tas kaut kā būs spiests pārbaudīt visu datu kvalitāti, pat ja daži no tiem būs kvalitatīvāki. Otrkārt, tas var ietekmēt datu zinātnes komandas morāli. Ja projekta gaitā noteikta datu kopuma apstrādei tiek veltīts ievērojams laiks un tas ir jāatkārto nākamajā analīzē, uzdevums kļūst nogurdinošs un demotivējošs.
Datu kvalitātes problēmu risināšana
Tātad, kas mums jādara, lai nodrošinātu, ka mūsu dati ir kvalitatīvi?
Nepieciešami divi priekšmeti. Pirmkārt, organizācijā ir jābūt izraudzītām personām, kas ir atbildīgas par šo datu kvalitāti. Otrkārt, ir nepieciešams sevi atbalstīt ar atbilstošiem instrumentiem, lai nodrošinātu pareizu datu apstrādi.
Jebkurā organizācijā, kas rūpējas par datiem, ir jāņem vērā vairāki risinājumi:
- datu direktoriju. Rīks, kas satur informāciju par organizācijai piederošajām datu kopām. Pateicoties tam, administrators vai datu zinātnieks varēs pārbaudīt, kādas datu kopas ir pieejamas un kas tajās ir ietverts. Datu katalogs palīdz arī nodrošināt datu drošību un nodrošināt, ka atbildība par atsevišķām kolekcijām ir skaidri noteikta.
- apstrādes instrumenti Pamatdati (galvenie dati). Katrai organizācijai ir daži dati, kas ir vissvarīgākie konkrētajai organizācijai (piemēram, klientu, produktu vai telpu saraksts). Parasti šie dati tiek izmantoti vairākās sistēmās. Jūs nevarat atļauties pretrunas starp datiem - ka datos ir "vairākas patiesības versijas".
- instrumenti priekš Datu kvalitāte (datu kvalitāte). Tie ļauj kontrolēt datu kvalitāti, atrast problēmas un iestatīt savus noteikumus, lai nodrošinātu, ka visi dati ir pareizās kvalitātes.
datu apstrādes dzinējs, kas atbalstīs automātiskās darbības un nodrošinās datu aktualitāti.




