Polak przed świętami szuka w internecie oryginalnego pomysłu na życzenia, świerka i kalendarza adwentowego. Szwedzi i Rosjanie wyszukują hasło „grzane wino”, a Kanadyjczycy – „syrop klonowy”. W Ameryce Południowej i Europie Centralnej sporym zainteresowaniem cieszą się kolędy. Trzy postaci królujące w grudniowych wyszukiwaniach to Jezus, Święty Mikołaj i …Grinch. Specjaliści Data Science z ITMAGINATION przeanalizowali tysiące zapytań zadanych wyszukiwarce przez internautów z 50 krajów, w tym Polski. Badali zależności pomiędzy wyszukiwanymi hasłami a tradycjami i sposobem obchodzenia Świąt Bożego Narodzenia w różnych częściach świata.

Celem badania była identyfikacja skojarzeń ludzi z różnych krajów ze świętami Bożego Narodzenia i wykazanie nieoczywistych różnic między narodami. Analiza uwzględniła częstotliwość wyszukiwania poszczególnych słów kojarzących się z Bożym Narodzeniem na podstawie wyszukiwań w przeglądarce Google w okresie przedświątecznym.[1] W osiągnięciu tego celu pomogła analiza języka naturalnego, a dokładniej wektoryzacja słów oraz wyszukiwanie ich najbliższych semantycznie sąsiadów.

Technologia w służbie zrozumienia zainteresowań

Jako firma specjalizująca się w innowacjach przede wszystkim opartych o Data Science chcemy pokazać, jak można wykorzystać najnowszą technologię do zrozumienia świątecznych zainteresowań i tradycji. Można śmiało powiedzieć, że wyszukiwarka internetowa nie kłamie i hasła, które jej podajemy są najlepszym świadectwem tego, w jaki sposób przeżywamy Święta Bożego Narodzenia. Ciekawym doświadczeniem jest porównanie wyników w różnych krajach, podobieństw między nami i obserwowanie, gdzie rodzą się nowe tradycje – mówi Łukasz Dylewski, Data Science Team Manager w ITMAGINATION.

„Xmas” i Grinch

W większości krajów słowo “xmas” jest wyszukiwane częściej niż “christmas”. Najpopularniejszymi postaciami w wyszukiwarkach są Jezus, Święty Mikołaj i …Grinch. Poszczególne kraje znacząco różnią się pod względem najczęściej wyszukiwanych haseł. Szwedzi intensywnie wyszukują przed świętami prezentów w postaci voucherów i kart podarunkowych. Często „googluje” się też „gingerbread house” (domek z piernika) i „christmas town” (miasteczko świąteczne). Analogicznie jak Rosjanie szukają też hasła „grzane wino”. W Kanadzie jako jedynym kraju na świecie przed świętami w wyszukiwarce wysoko pojawia się haslo “maple” – które jest związane z dobrze znanym syropem klonowym. W Brazylii w czołowej 30. wyszukiwań są kartki z życzeniami, podczas gdy w innych krajach nie występują one nawet w pierwszej 100.

Jak pokazuje analiza ITMAGINATION, Polacy częściej niż inne narody szukają w internecie pomysłów na życzenia świąteczne, kalendarzy adwentowych i …dzwonków. Świerk to drzewko, które jest najcześciej wyszukiwane jako przyszła choinka w Polsce, Szwecji, Kanadzie i Rosji podczas gdy w innych krajach internauci szukają po prostu hasła “choinka” lub “drzewo bożonarodzeniowe”. Wyjątkiem są Amerykanie, którzy wyszukują cedru. Polacy, Ukraińcy, Kolumbijczycy, Meksykanie i Hiszpanie najcześciej szukają kolęd. Wyniki Google wyraźnie wskazują na podobieństwa kulturowe i religijne krajów Ameryki Południowej i Europy Środkowo-Wschodniej. To tu poszukuje się więcej niż w innych regionach informacji o kolędach i Jezusie Chrystusie.

Natural Language Processing

Do badania wykorzystaliśmy technologię Natural Language Processing. Proces rozpoczął się od wybrania kilku słów w języku angielskim kojarzących się ze Świętami. Następnie zastosowano model NLP CBOW (The Continuous Bag of Words) oraz Skip-Ngram do znalezienia 1 tys. wyrazów najbliższych znaczeniowo. Uwzględniono również frazy świąteczne np. tytuły piosenek lub nazwy potraw. Istotne było przetłumaczenie wygenerowanych słów na języki narodowe, tak aby trend każdego kraju został zbadany w ojczystym języku. Na koniec zebrano dane z Google Trends z 5. ostatnich lat, na które złożyło się ok. 10 tys. zapytań z 50 krajów. Mieliśmy szansę „odwiedzić” w ten sposób tak oddalone miejsca jak Wenezuela, Japonia, Indie czy Nowa Zelandia – mówi Dawid Kowalczyk, Data Scientist w ITMAGINATION.

Źródło: ITMAGINATION