Как работят алгоритмите за търсене

При количеството информация в мрежата намирането на нужните ви сведения щеше да е почти невъзможно, ако не получите известна помощ. Системите на Google за класиране са проектирани точно за това: претърсват стотиците милиарди уеб страници в индекса на Търсене, за да намерят най-подходящите и полезни резултати за части от секундата, след което ги предоставят така, че да намерите търсеното.

Тези системи за класиране са съставени от цяла поредица алгоритми. За да ви предоставим най-полезната информация, алгоритмите на Търсене взимат предвид много фактори, включително думите в заявката ви, уместността и използваемостта на страниците, достоверността на източниците, както и местоположението и настройките ви. Всеки фактор има различна тежест в зависимост от естеството на заявката – например актуалността на съдържанието играе по-голяма роля при отговарянето на заявки за текущи новини, отколкото за речникови определения.

За да отговарят алгоритмите на Търсене на високите ни стандарти за уместност и качество, прилагаме щателен процес с тестове на живо и с участие на хиляди обучени външни оценители на качеството на търсенето от цял свят. Тези оценители следват стриктни указания, които определят целите ни за алгоритмите на Търсене и са обществено достъпни.

По-долу можете да научите повече за основните фактори, определящи какви резултати ще бъдат изведени за заявката ви:

  • Анализ на думите ви

    Анализ на думите ви

    Да разберем значението на търсенето ви е от първостепенна важност за извеждането на добри отговори. За да намерим страници с подходяща информация, трябва първо да анализираме какво означават думите в заявката ви. Създаваме езикови модели в опит да разгадаем какви низове от думи да търсим в индекса.

    Тези езикови модели, в които са приложени някои от най-новите проучвания в сферата на разбирането на естествения език, могат да изпълняват както привидно лесни действия, като тълкуване на правописни грешки, така и по-сложни задачи, например да разберат типа на въведената от вас заявка. Синонимната ни система например помага на Търсене да разбере какво имате предвид дори ако дадена дума има няколко значения. Тази система, чието разработване отне повече от пет години, значително подобрява резултатите за над 30% от търсенията на различни езици.

    Опитваме се също така да разберем в коя категория попада търсената от вас информация. Дали заявката ви е строго специфична, или обща. Дали съдържа думи като „отзив“, „снимки“ или „работно време“, които указват, че се нуждаете от конкретна информация. Дали сте използвали набиращи популярност ключови думи, което предполага, че искате да видите съдържание, публикувано на същия ден. Или пък търсите бизнес в района и се нуждаете от местна информация.

    Особено важен аспект от категоризирането на заявките е анализът дали с тях се търси актуално съдържание. Ако търсите набиращи популярност ключови думи, алгоритмите ни за актуалност ще интерпретират това като сигнал, че актуалната информация може да е по-полезна от по-старите страници. Това значи, че когато търсите най-новите „резултати от световното“, „курс на долара“ или „резултати от изборите“, ще виждате най-новата информация.

  • Намиране на съответствия за търсенето ви

    Намиране на съответствия за търсенето ви

    След това търсим уеб страници с информация, която съответства на заявката ви. Когато извършвате търсене, на най-основно ниво алгоритмите ни проверяват индекса за думите от заявката ви, за да намерят подходящите страници. Те анализират колко често и къде тези ключови думи се показват на страниците – в заглавията или в основния текст.

    Най-елементарният сигнал, че информацията е подходяща, е когато съответната уеб страница съдържа същите ключови думи като заявката ви за търсене. Ако те се срещат в страницата или в заглавката на текста, по-вероятно е информацията да е подходяща. Освен обикновеното намиране на съвпадение на ключовите думи използваме обобщени и анонимизирани данни за взаимодействието, за да оценим дали резултатите от търсенето са подходящи за заявките. Преобразуваме тези данни в сигнали, с които системите ни с машинно обучение оценяват уместността по-добре.

    Освен съответстващи ключови думи алгоритмите търсят ориентири, с чиято помощ да определят в каква степен потенциалните резултати предоставят на потребителите това, което търсят. Когато въведете заявката „кучета“, вероятно не искате да видите страница, в която думата „кучета“ е изписана стотици пъти. Опитваме се да разберем дали в страницата има отговор на търсенето ви, или заявката ви просто се повтаря в нея. Затова алгоритмите на Търсене анализират наличието на уместно съдържание на страниците – като например снимки на кучета, видеоклипове или дори списък с породи. Накрая проверяваме дали страницата е написана на същия език като заявката ви, така че първо да ви покажем страниците на предпочитания от вас език.

    Важно е да се отбележи, че макар системите ни да оценяват уместността посредством такива типове количествено измерими сигнали, те не са предназначени да анализират субективни понятия, като гледната точка или политическите пристрастия, изразявани на дадена страница.

  • Класиране на полезните страници

    Класиране на полезните страници

    За типичната заявка има хиляди, дори милиони уеб страници с потенциално уместна информация. Затова създаваме и алгоритми за оценяване на полезността им, с чиято помощ да класираме най-добрите страници на челни позиции.

    За да се опитат да изведат най-добрата информация, която мрежата може да предложи, тези алгоритми анализират стотици различни фактори – от актуалността на съдържанието до броя пъти, които се показват думите ви за търсене, и дали страницата осигурява добра практическа работа на потребителите. За да оценим надеждността и авторитетността на съдържанието, търсим сайтове, на които много потребители се доверяват за подобни заявки. Ако други известни уебсайтове, свързани с темата, водят към страницата, това е добър знак за високото качество на информацията.

    В мрежата има много съдържащи спам сайтове, които се опитват да стигнат до челни позиции в резултатите от търсенето чрез измамни техники, като многократно повтаряне на ключови думи или купуване на връзки, които предават PageRank. Тези сайтове осигуряват много лоша практическа работа на потребителите ни и е възможно дори да им навредят или да ги подведат. Затова създаваме алгоритми, които откриват спама и премахват от резултатите ни сайтовете, нарушаващи Указанията на Google за уеб администратори.

    Съдържанието в мрежата и в по-общата информационна екосистема непрекъснато се променя. Затова постоянно измерваме и оценяваме качеството на системите си, така че да постигаме точния баланс между уместност и достоверност на информацията и да поддържаме доверието ви в резултатите, които виждате.

  • Извеждане на най-добрите резултати

    Извеждане на най-добрите резултати

    Преди да ви покажем резултатите от търсенето, преценяваме доколко е полезна съвкупността от уместна информация – дали обхваща само една, или много теми. Дали твърде много страници са съсредоточени върху една тясна интерпретация. Стремим се да предоставим разнообразна информация във форматите, които са най-полезни за типа на търсенето ви. А с развитието на мрежата усъвършенстваме системите си за класиране, за да осигуряваме по-добри резултати за повече заявки.

    Тези алгоритми анализират сигнали, показващи дали всички потребители могат да видят резултата. Например дали сайтът се изобразява правилно в различни браузъри, дали е проектиран за всички типове и размери устройства, включително компютри, таблети и смартфони, и дали страниците се зареждат достатъчно бързо и за потребители с бавна връзка с интернет.

    Тъй като собствениците на уебсайтове могат да подобряват видимостта им, полагаме сериозни усилия да известяваме собствениците предварително при важни и изискващи предприемане на действия промени в алгоритмите ни за търсене. Например през януари 2018 г. съобщихме, че алгоритмите ни ще започнат да вземат под внимание скоростта на страниците в сайтовете – това се случи шест месеца, преди промените да влязат в сила. Осигурихме подробни указания и инструменти като PageSpeed Insights и Webpagetest.org, с чиято помощ собствениците на уебсайтове да проверят какво да коригират (ако се налага), за да направят сайтовете си по-удобни за мобилни устройства.

    Можете да намерите повече информация за инструментите и съветите на Google за собственици на сайтове тук .

  • Вземане предвид на контекста

    Вземане предвид на контекста

    Информацията, като например местоположението ви, историята на предишните търсения и настройките на Търсене, ни помага да персонализираме резултатите ви така, че да са най-полезни и уместни за вас в дадения момент.

    Използваме държавата и местоположението ви, за да предоставяме съдържание, подходящо за района ви. Ако например сте в Чикаго и потърсите „футбол“, първите резултати, които Google ще ви покаже, най-вероятно ще бъдат за американски футбол и „Чикаго Беърс“. Ако обаче потърсите „футбол“ от Лондон, Google ще класира по-високо резултатите за футбол и английската Висша лига. Настройките за търсенето, например дали сте задали предпочитан език и сте включили Безопасно търсене (инструмент, който помага за филтрирането на резултатите с нецензурно съдържание), също са важен индикатор за това, кои резултати е вероятно да са ви от полза.

    В някои случаи е възможно също да персонализираме резултатите ви посредством информацията за скорошната ви активност в Търсене. Ако например въведете заявката „Барселона“ и наскоро сте търсили „Барселона срещу Арсенал“, това може да е важен ориентир, че искате информация за футболния клуб, а не за града. Можете да избирате коя активност да се използва за подобряване на работата ви с Търсене, включително какви данни да се запазват в профила ви в Google, на адрес myaccount.google.com.

    Търсене също така съдържа функции, които персонализират резултатите въз основа на активността в профила ви в Google. Ако например потърсите „събития близо до мен“, Google може да модифицира някои препоръки съобразно с категориите събития, които според нас може да ви интересуват. Тези системи се стремят да намират съответствия за интересите ви, но не са предназначени да правят изводи за характеристики с деликатен характер, като вашата раса, религиозна или политическа принадлежност.

    Можете да контролирате коя активност да се използва за подобряване на работата ви с Търсене, включително като коригирате какви данни да се запазват в профила ви в Google, на адрес myaccount.google.com. За да деактивирате персонализирането на Търсене въз основа на активността в профила ви, изключете „Активност в мрежата и приложенията“.