Хто і навошта збірае вялікія дадзеныя?

Восенню 2019 года разгарэўся скандал з сэрвісам Apple Card: пры рэгістрацыі ён выстаўляў розныя крэдытныя ліміты для мужчын і жанчын. Нават Стыву Вазняку не пашанцавала:

Годам раней стала вядома, што платформа Netflix паказвае карыстальнікам розныя постэры і цізеры ў залежнасці ад іх полу, узросту і нацыянальнасці. За гэта сэрвіс абвінавацілі ў расізме.

Нарэшце, Марка Цукерберга рэгулярна папракаюць у нібыта зборы, продажы і маніпуляцыі дадзенымі сваіх карыстальнікаў Facebook. На працягу многіх гадоў яго абвінавачвалі і нават судзілі за маніпуляцыі падчас амерыканскіх выбараў, дапамогу расійскім спецслужбам, распальванне нянавісці і радыкальных поглядаў, неналежную рэкламу, уцечку дадзеных карыстальнікаў, перашкоды расследаванням педафілаў.

Паведамленне ў Facebook ад Zuck

Пры гэтым онлайн-сэрвіс Pornhub штогод публікуе справаздачы аб тым, якую порна шукаюць людзі розных нацыянальнасцяў, полу і ўзросту. І гэта чамусьці нікога не хвалюе. Хоць усе гэтыя гісторыі падобныя: у кожнай з іх мы маем справу з вялікімі дадзенымі, якія ў XNUMX стагоддзі называюць «новай нафтай».

Што такое вялікія дадзеныя

Вялікія дадзеныя - яны таксама вялікія дадзеныя (англ. Big Data) або метададзеныя - гэта масіў дадзеных, які паступае рэгулярна і ў вялікіх аб'ёмах. Яны збіраюцца, апрацоўваюцца і аналізуюцца, у выніку чаго атрымліваюцца выразныя мадэлі і ўзоры.

Яскравы прыклад - дадзеныя з Вялікага адроннага калайдэра, якія паступаюць пастаянна і ў вялікіх колькасцях. З іх дапамогай навукоўцы вырашаюць мноства задач.

Але вялікія дадзеныя ў Інтэрнэце - гэта не толькі статыстыка для навуковых даследаванняў. З іх дапамогай можна адсочваць, як паводзяць сябе карыстальнікі розных груп і нацыянальнасцей, на што звяртаюць увагу і як узаемадзейнічаюць з кантэнтам. Часам для гэтага збіраюць дадзеныя не з адной крыніцы, а з некалькіх, параўноўваючы і выяўляючы пэўныя заканамернасці.

Пра тое, наколькі важныя вялікія дадзеныя ў сетцы, загаварылі, калі іх было сапраўды шмат. На пачатак 2020 года ў свеце налічвалася 4,5 мільярда інтэрнэт-карыстальнікаў, з якіх 3,8 мільярда былі зарэгістраваныя ў сацыяльных сетках.

Хто мае доступ да вялікіх дадзеных

Паводле апытанняў, больш за палову нашых краін лічаць, што іх дадзеныя ў сетцы выкарыстоўваюцца трэцімі асобамі. Пры гэтым многія размяшчаюць у сацыяльных сетках і дадатках асабістую інфармацыю, фатаграфіі і нават нумар тэлефона.

Тут трэба растлумачыць: першая асоба - сам карыстальнік, які размяшчае свае дадзеныя на любым рэсурсе або дадатку. Пры гэтым ён дае згоду (ставіць галачку ў пагадненні) на апрацоўку гэтых дадзеных другі бок - гэта значыць уладальнікі рэсурсу. Трэцяя асоба - гэта тыя, каму ўладальнікі рэсурсу могуць перадаваць або прадаваць дадзеныя карыстальнікаў. Часта гэта прапісана ў карыстальніцкім пагадненні, але не заўсёды.

Трэці бок - гэта дзяржаўныя ўстановы, хакеры або кампаніі, якія купляюць дадзеныя ў камерцыйных мэтах. Першы можа атрымаць дадзеныя па рашэнні суда або вышэйстаячага органа. Хакеры, вядома, не выкарыстоўваюць ніякіх дазволаў - яны проста ўзломваюць базы дадзеных, якія захоўваюцца на серверах. Кампаніі (паводле закону) могуць атрымаць доступ да даных толькі ў тым выпадку, калі вы самі дазволілі ім - паставіўшы галачку пад пагадненнем. У адваротным выпадку гэта незаконна.

Чаму кампаніі выкарыстоўваюць Big Data?

Вялікія дадзеныя ў камерцыйнай сферы выкарыстоўваліся дзесяцігоддзямі, але гэта было не так інтэнсіўна, як цяпер. Гэта, напрыклад, запісы з камер назірання, звесткі GPS-навігатараў або інтэрнэт-плацяжы. Зараз, з развіццём сацыяльных сетак, анлайн-сэрвісаў і прыкладанняў, усё гэта можна злучыць і атрымаць найбольш поўную карціну: дзе жывуць патэнцыйныя кліенты, што любяць глядзець, куды ездзяць у адпачынак і якая ў іх марка аўтамабіля.

З прыведзеных вышэй прыкладаў відаць, што з дапамогай вялікіх даных кампаніі, перш за ўсё, жадаюць арыентавацца на рэкламу. Гэта значыць прапаноўваць прадукты, паслугі або асобныя варыянты толькі патрэбнай аўдыторыі і нават наладжваць прадукт пад канкрэтнага карыстальніка. Акрамя таго, рэклама ў Facebook і іншых буйных пляцоўках становіцца ўсё даражэй, і паказваць яе ўсім запар зусім не выгадна.

Інфармацыю аб патэнцыйных кліентах з адкрытых крыніц актыўна выкарыстоўваюць страхавыя кампаніі, прыватныя клінікі і працадаўцы. Першыя, напрыклад, могуць змяніць умовы страхавання, калі ўбачаць, што вы часта шукаеце інфармацыю аб тых ці іншых захворваннях або леках, а працадаўцы могуць ацаніць, ці схільныя вы да канфліктаў і асацыяльных паводзін.

Але ёсць яшчэ адна важная задача, якая вядзецца апошнія гады: наблізіцца да найбольш плацежаздольнай аўдыторыі. Зрабіць гэта не так проста, хоць істотна палягчаюць задачу плацежныя сэрвісы і электронныя чэкі праз адзінага ОФД (аператар фіскальных даных). Каб наблізіцца як мага бліжэй, кампаніі нават спрабуюць высочваць і «выхоўваць» патэнцыйных кліентаў з дзяцінства.: праз анлайн-гульні, інтэрактыўныя цацкі і адукацыйныя паслугі.

Як гэта працуе?

Найбольшыя магчымасці збору даных ёсць у сусветных карпарацый, якія валодаюць адразу некалькімі сэрвісамі. Цяпер у Facebook больш за 2,5 мільярда актыўных карыстальнікаў. У той жа час кампаніі належаць і іншыя сэрвісы: Instagram — больш за 1 мільярд, WhatsApp — больш за 2 мільярды і іншыя.

Але Google мае яшчэ большы ўплыў: Gmail карыстаюцца 1,5 мільярда чалавек у свеце, яшчэ 2,5 мільярда - мабільнай АС Android, больш за 2 мільярды - YouTube. І гэта не лічачы прыкладанняў Google Search і Google Maps, крамы Google Play і браўзера Chrome. Засталося прыкруціць свой інтэрнэт-банк – і Google зможа ведаць пра вас літаральна ўсё. Дарэчы, Яндэкс у гэтым плане ўжо на крок наперадзе, але ахоплівае толькі рускамоўную аўдыторыю.

???? У першую чаргу кампаніі цікавяцца тым, што мы публікуем і лайкаем у сацыяльных сетках. Напрыклад, калі банк бачыць, што вы жанаты і актыўна лайкаеце дзяўчат у Instagram або Tinder, вы, хутчэй за ўсё, дасце спажывецкі крэдыт. І іпатэкі ў сям'і няма.

Таксама важна, на якую рэкламу вы націскаеце, як часта і з якім вынікам.

(Г. зн Наступны крок — асабістыя паведамленні: у іх значна больш інфармацыі. Уцечка паведамленняў адбылася ва «ВКонтакте», Facebook, WhatsApp і іншых мэсэнджарах. Па іх словах, дарэчы, лёгка адсачыць геалакацыю ў момант адпраўкі паведамлення. Напэўна, вы заўважылі: калі вы абмяркоўваеце з кім-небудзь куплю або проста заказ піцы, у стужцы адразу з'яўляецца адпаведная рэклама.

🚕 Вялікія дадзеныя актыўна выкарыстоўваюцца і «зліваюцца» службамі дастаўкі і таксі. Яны ведаюць, дзе вы жывяце і працуеце, што вы любіце, які ваш прыблізны даход. Uber, напрыклад, паказвае цану вышэй, калі вы едзеце дадому з бара і відавочна перастараліся. А калі ў вас на тэлефоне куча іншых агрэгатараў, то яны, наадварот, прапануюць больш танныя.

(Г. зн Ёсць сэрвісы, якія выкарыстоўваюць фота і відэа, каб сабраць як мага больш інфармацыі. Напрыклад, бібліятэкі камп'ютэрнага зроку - такая ёсць у Google. Яны скануюць вас і ваша асяроддзе, каб даведацца, які ваш памер і рост, якія маркі вы носіце, на якой машыне вы едзеце, ці ёсць у вас дзеці ці хатнія жывёлы.

(Г. зн Тыя, хто прадастаўляе банкам SMS-шлюзы для сваіх рассыланняў, могуць адсочваць вашы пакупкі па картцы – ведаючы апошнія 4 лічбы і нумар тэлефона – і потым прадаць гэтыя дадзеныя камусьці іншаму. Адсюль увесь гэты спам са зніжкамі і піцай у падарунак.

🤷️️ Нарэшце, мы самі перакідваем свае дадзеныя ў левыя сэрвісы і праграмы. Памятаеце той ажыятаж вакол Getcontact, калі кожны з задавальненнем запаўняў свой нумар тэлефона, каб даведацца, як яго напісалі іншыя. А цяпер знайдзіце іх пагадненне і прачытайце, што ў ім гаворыцца аб перадачы вашых дадзеных (спойлер: уладальнікі могуць перадаваць іх трэцім асобам па сваім меркаванні):

Карпарацыі могуць паспяхова збіраць і нават прадаваць карыстальніцкія дадзеныя гадамі, пакуль не дойдзе да суда - як гэта адбылося з тым жа Facebook. І тут вырашальную ролю адыграла парушэнне кампаніяй GDPR – закона ЕС, які абмяжоўвае выкарыстанне дадзеных нашмат больш жорстка, чым амерыканскі. Яшчэ адзін нядаўні прыклад - скандал з антывірусам Avast: адзін з даччыных сэрвісаў кампаніі збіраў і прадаваў дадзеныя ад 100 да 400 мільёнаў карыстальнікаў.

Але ці ёсць ва ўсім гэтым нейкія перавагі для нас?

Наколькі вялікія дадзеныя дапамагаюць усім нам?

Так, ёсць і светлы бок.

Вялікія дадзеныя дапамагаюць лавіць злачынцаў і прадухіляць тэрарыстычныя напады, знаходзіць зніклых дзяцей і абараняць іх ад небяспекі.

З іх дапамогай мы атрымліваем крутыя прапановы ад банкаў і персанальныя зніжкі. Дзякуючы ім мы мы не плацім за многія сэрвісы і сацыяльныя сеткі, якія зарабляюць толькі на рэкламе. Інакш толькі Instagram каштаваў бы нам некалькі тысяч долараў у месяц.

Толькі Facebook мае 2,4 мільярда актыўных карыстальнікаў. Пры гэтым іх прыбытак за 2019 год склаў $18,5 млрд. Атрымліваецца, што кампанія зарабляе на рэкламе да $7,7 у год з кожнага карыстальніка.

Нарэшце, часам гэта проста зручна: калі сэрвісы ўжо ведаюць, дзе ты і чаго хочаш, і не трэба самому шукаць патрэбную інфармацыю.

Яшчэ адна перспектыўная сфера прымянення Big Data - адукацыя.

У адным з амерыканскіх універсітэтаў Вірджыніі было праведзена даследаванне па зборы дадзеных аб студэнтах так званай групы рызыкі. Гэта тыя, хто дрэнна вучыцца, прагульвае заняткі і вось-вось кіне. Справа ў тым, што ў штатах штогод адлічваюць каля 400 чалавек. Гэта кепска як для ВНУ, у якіх зніжаюць рэйтынгі і скарачаюць фінансаванне, так і для саміх студэнтаў: многія бяруць крэдыты на навучанне, якія пасля адлічэнняў усё роўна прыйдзецца вяртаць. Не кажучы ўжо пра страчаны час і перспектывы кар'ернага росту. З дапамогай big data можна своечасова выявіць адстаючых і прапанаваць ім рэпетытара, дадатковыя заняткі і іншую адрасную дапамогу.

Гэта, дарэчы, падыходзіць і для школ: тады сістэма апавясціць настаўнікаў і бацькоў – маўляў, у дзіцяці праблемы, давайце разам яму дапаможам. Вялікія дадзеныя таксама дапамогуць вам зразумець, якія падручнікі працуюць лепш і якія выкладчыкі лягчэй тлумачаць матэрыял.

Яшчэ адзін станоўчы прыклад - прафесійнае прафіліраванне.: гэта калі падлеткам дапамагаюць вызначыцца з будучай прафесіяй. Тут вялікія дадзеныя дазваляюць збіраць інфармацыю, якую нельга атрымаць з дапамогай традыцыйных тэстаў: як паводзіць сябе карыстальнік, на што звяртае ўвагу, як узаемадзейнічае з кантэнтам.

У тых жа ЗША існуе прафарыентацыйная праграма – SC ACCELERATE. У ім, у тым ліку, выкарыстоўваецца тэхналогія CareerChoice GPS: яны аналізуюць даныя аб характары студэнтаў, іх схільнасцях да прадметаў, моцных і слабых баках. Затым даныя выкарыстоўваюцца, каб дапамагчы падлеткам выбраць правільныя каледжы для іх.

Падпісвайцеся і сачыце за намі на Яндэкс.Дзэн — тэхналогіі, інавацыі, эканоміка, адукацыя і абмен у адным канале.

Пакінуць каментар