Na oficjalnym blogu Google pojawiły się interesujące informacje dotyczące metod interpretowania zapytań przez wyszukiwarkę Google.
Modele językowe powstają w oparciu o analizę miliardów dokumentów stworzonych w danym języku i zaindeksowanych przez Google, oraz historycznych danych dotyczących zapytań. Każde zapytanie jest analizowane w kontekście zapytań poprzednich i następnych – zadanych przez tego samego internautę, a każda modyfikacja użytych przez użytkownika słów jest dla algorytmu źródłem informacji o synonimach, wyrazach bliskoznacznych, formach gramatycznych, błędach ortograficznych i wielu innych. Dzięki tym informacjom algorytm wyszukiwarki może na bieżąco reagować na zmiany w języku i prezentować dokładniejsze i pełniejsze wyniki. Stosowanie interaktywnych modeli językowych umożliwia również dostarczanie różnych wyników wyszukiwania w zależności od kontekstu zapytania.
Większa liczba analizowanych danych oznacza bardziej dopasowane wyniki – dlatego modele językowe dla popularnych języków powstają szybciej i są dokładniejsze. Przykładowo, analiza wyszukań w języku angielskim z okresu jednego dnia dostarcza taką samą ilość informacji, jak analogiczna analiza przeprowadzona przez okres jednego roku dla języka katalońskiego. Model estoński potrzebuje natomiast aż 2,5 roku, aby dorównać ilości informacji dostarczanych przez język angielski w jeden dzień.
Ciekawe w którym miejscu na osi czasu plasuje się język polski? 🙂
—
Aneta Mitko