Сет Стівенс-Давидович прийшов до вивчення великих даних, досліджуючи расизм у сучасному суспільстві для публікації статей в New York Times. Згодом коло його інтересів розширилося, і він виявив, що великі дані, якими сповнений Інтернет, можуть дати абсолютно несподівану картину в найрізноманітніших сферах, про що годі було і мріяти двадцять років тому. Тоді джерелами даних слугували соціологічні опитування, анкетування, інтерв’ювання та інші методи фіксації громадської думки.

Спочатку Стівенс-Давидович вивчав запити користувачів Google. Потім він почав вивчати звернення до Вікіпедії, профілі Facebook і навіть порнографічні сайти. Крім цього, він інтерв’ював учених, журналістів і підприємців, які мають такий самий інтерес до вивчення великих даних.

Наші пошукові запити говорять про нас набагато більше, ніж ми можемо уявити. Те, як ми шукаємо цитати, речі, анекдоти, людей, книжки або фільми, розповідають про наші таємні бажання та вподобання, про які ми часто не наважуємося говорити вголос ні з ким — крім Google. Набираючи в пошуковому рядку «Мій батько мене б’є» або «Я п’ю», ми зізнаємося йому в тому, чого не хотіли б відкрити нікому. З цих запитів і складаються справжні великі дані.

Усе це прекрасно, але, здавалося б, до чого тут брехня? Для порівняння Стівенс-Давидович наводить дані опитування про сексуальне життя. Жінки кажуть, що займаються сексом приблизно 55 разів на рік. Зважаючи на дані про кількість захищених статевих контактів, учені вирахували, що вони використовують 1,1 млрд презервативів на рік. Чоловіки стверджують, що за рік використовують у середньому 1,6 млрд презервативів. Тим часом цифри мають бути однаковими, то хто з них говорить правду? Інформаційно-вимірювальна компанія Nielsen, що відстежує споживчу поведінку, фіксує, що за рік продається трохи менше ніж 600 млн презервативів. Тож брешуть і чоловіки, і жінки, сильно перебільшуючи присутність сексу у своєму житті.

У толерантній і політкоректній Америці, як припускають багато аналітиків, давно покінчено з расизмом. Але вивчення запитів у Google дає іншу картину. Стівенс-Давидович зрозумів це, коли набрав у пошуковому рядку слово «нігер», образливе й неприйнятне в особистому спілкуванні. Він очікував, що обсяг пошуку буде зовсім невеликим. На свій подив, він виявив, що запит робиться настільки ж часто, як слова «мігрень» або «економіст».

Шукають анекдоти про афроамериканців, але частка таких запитів невелика. Інші набирають «тупі нігери» або «Я ненавиджу нігерів». Мільйони цих расистських запитів повторюються щороку.

Коли Обама став президентом США, ЗМІ коментували це як історичну подію і вихваляли першого чорношкірого президента. Але водночас приблизно один зі ста пошукових запитів включав «Обама Ку-клукс-клан» або «Обама нігер». У ніч виборів реєстрація на білому націоналістичному сайті, популярному в США, удесятеро перевищила норму. У деяких штатах було більше запитів «негр-президент», ніж «перший чорний президент».

Пошук у Google дав несподівану карту расизму, розподіленого по штатах. Традиційно расистські настрої були сильні в південних штатах, ще із часів війни Півночі й Півдня, противників і прихильників рабства. Пошукові запити виявили, що демократична сучасна Північ майже не відрізняється від консервативного республіканського Півдня. Саме ця обставина  допомогла політичному успіху Трампа, який стверджував у Твіттері, що чорні американці відповідальні за більшість убивств білих американців.

Так пошук у Google виявив те, що пропустила більшість політичних експертів, учених і журналістів, які не сумнівалися в расовій толерантності суспільства: насправді воно зовсім не таке толерантне, як свідчать дані соціологічних опитувань. Расизм і ксенофобія просто глибоко заховані. І коли Трамп відкрито заговорив про це, голоси були віддані йому.

Якби не було великих даних, це навряд чи вдалося б встановити. Великими даними сповнений Google — у середньому на день люди генерують в інтернеті 2,5 мільйона трильйонів байтів даних. Такі цифри дають справді виразну картину суспільства. Основна мета книжки — довести, що за допомогою великих даних можна знайти такі голки в таких копицях сіна, про які раніше годі було і мріяти. Це дасть нам новий погляд на людську поведінку та психологію.

Зміст дайджесту

1Великі дані використовуються для того, щоби прогнозувати вплив однієї змінної на іншу2Ми схильні перебільшувати значення нашого власного досвіду під час аналізу даних3Для ефективного використання нових даних найкраще діяти в тій сфері, де старі методи не працюють4Роблячи прогнози на підставі великих даних, не варто шукати пояснень, чому ваші моделі працюють. Головне — що вони працюють5Під час традиційних опитувань і спілкування в соціальних мережах усі брешуть6Правду про людську поведінку, наші справжні почуття і бажання можуть відкрити наші запити в Google7Запити в пошукових системах дають змогу побачити справжню картину суспільної нетерпимості та упередженості8Попри виявлення прихованих упереджень, інтернет зближує, а не розділяє людей із різними поглядами9Не тільки люди спотворюють об’єктивну картину, а й неправильні дані, що вводять в оману10Силу великих даних можна вжити як на благо, так і на зло11Завершальні коментарі
1

Великі дані використовуються для того, щоби прогнозувати вплив однієї змінної на іншу

Багатьох людей лякають цифри, вони почуваються безпорадними у світі чисел, вважаючи, що розуміти їх можуть тільки математичні генії. Але  поняття про великі дані набагато простіше, ніж думають люди, воно інтуїтивно зрозуміле. Як приклад він наводить підбір йому нареченої на сімейній раді. У кожного члена сім’ї була своя думка. Сестра говорила, що йому потрібна така ж божевільна дівчина, як він сам. Брат — що дівчина, навпаки, має його врівноважувати й бути спокійною та поступливою. Мати й батько сперечалися на тему, чи божевільний їхній син. І тут у розмову вступила бабуся, якій було під 90 років. Вона сказала, що найкраща кандидатура — не надто вродлива, але дуже розумна дівчина, комунікабельна, з почуттям гумору, бо в потенційного нареченого теж із почуттям гумору все гаразд. І всі сперечальники затихли. Бабуся в таких питаннях — особа авторитетна: ніхто в родині не бачив такої кількості вдалих і невдалих шлюбів. За десятиліття в неї склався алгоритм успішних стосунків. Іншими словами, вона має доступ до великої кількості даних.

У пам’ять бабусі завантажені дані майже за століття — це історії, які вона спостерігала особисто або чула від друзів, знайомих і родичів. Вона вибрала із цих даних зразок чоловіка, схожого на автора книжки, і визначила ключові якості жінки, з якою вони склали б гармонійну пару. Або, переходячи на мову математики, вона протягом життя помічала багато закономірностей і може передбачити, як одна змінна впливає на іншу. У цьому сенсі бабуся — фахівець із даних.

Те ж саме можна сказати про будь-яку людину. Дитина помічає, що її мама виявляє до неї більше уваги, коли вона плаче. Так вона вперше долучається до науки про дані. Доросла людина помічає, що з нею менше спілкуються, якщо вона часто скаржиться — це теж приклад науки про дані, тобто про те, як одна змінна впливає на іншу, про причинно-наслідковий зв’язок.

Тож не варто боятися цифр і слів «великі дані». Насправді всі ми так чи інакше маємо з ними справу.

2

Ми схильні перебільшувати значення нашого власного досвіду під час аналізу даних

Бабуся Стівенса-Давидовича не була повністю неупередженим і об’єктивним аналітиком — жодна людина, ґрунтуючись на власному досвіді, не може давати стовідсотково вірні прогнози. Так, вона влаштувала шлюб зведеного брата, який незабаром розпався. Вона вважала, що шлюб батьків Стівенса-Давидовича неміцний через розбіжність інтересів, але вони досі щасливі разом. Разом із досвідом людина в літньому віці дивиться на деякі речі так, як це було заведено в далекому минулому. Бабуся, зокрема, вважала, що для успішного шлюбу необхідна наявність спільних друзів — адже її власне життя із чоловіком було саме таким. Але дані дослідження вчених-програмістів показали, що велика кількість спільних друзів, наприклад у Facebook, не подовжують стосунки, а швидше навпаки.

Є безліч суспільних стереотипів, які приймаються за істину багатьма з нас.

Так, у США заведено вважати, що більшість гравців NBA народилися і виросли в бідних сім’ях, у важких умовах, і прагнення вирватися зі злиднів привело їх у вищу спортивну лігу. Спорт для таких дітей — не розвага, а питання життя та смерті. І справді, тому є підтвердження — наприклад, знаменитий Леброн Джеймс народився в бідній сім’ї в малолітньої матері-одиначки. Такою є розхожа думка. Що говорять із цього приводу великі дані, а не кілька яскравих прикладів?


Повний текст цього та інших дайджестів книжок з тем #психології, #бізнесу, #здоров'я, #науки, #філософії, #саморозвитку доступні підписникам клубу “Rozum.Love” Повний текст цього та інших дайджестів книжок з тем #психології, #бізнесу, #здоров'я, #науки, #філософії, #саморозвитку доступні підписникам клубу “Rozum.Love”

Повний текст цього та інших дайджестів книжок з тем #психології, #бізнесу, #здоров'я, #науки, #філософії, #саморозвитку доступні підписникам клубу “Rozum.Love”

Читайте тільки те, що заслуговує вашої уваги
ми вже відібрали 365 найкращих книжок та продовжуємо додавати нові щонеділі
Читайте тільки суть, без вступів, повторів та води
одна книга за ~30 хвилин
Читайте українською та вивчайте її нюанси
в кожному дайджесті по одному цікавому правилу рідної мови
Підтримуй українське!