Według znanych mi informacji 25 stycznia 2023 r. poprzez repozytorium Git o pojemności 44,71 GB od Yandex, wyciekły dane największej rosyjskiej wyszukiwarki, czwartej największej na świecie.
Najciekawszym elementem wycieku jest lista 1922 czynników rankingowych używanych w algorytmie wyszukiwarki Yandex.
Pogrupowałem czynniki rankingowe na kluczowe grupy, których zazwyczaj dotyczącą aktualne rozważania w SEO:
- Linki
- Treści
- Czynniki behawioralne
- Techniczne aspekty
- Świeżość treści, wiek treści
- W przybliżeniu coś w stylu Quality Raters
Najważniejsze z nich według nas przedstawiamy poniżej:
Czynniki związane z linkami:
- "Istotność linku. Factor remap."
- "Liczba, przez którą mnożone są niektóre czynniki linków (mianowicie czynniki numer 6, 7, 47, 66), jeśli trafność tekstowa wynosi 0 i jest mało linków"
- "Przeliczona ilość słów zapytania we wszystkich linkach url".
- "Liczba linków przychodzących."
- "Wszystkie słowa zapytania są w tekście + linki".
- "Względna częstotliwość występowania słów zapytania w linkach (1 - słowa zapytania występują często w linkach, 0,3 - rzadko); dokładniej, wartość tego współczynnika jest pesymizowana w warunkach: TR=0 && LR=0 && (brak linków ze wszystkimi słowami zapytania) && (brak limitu) && (przynajmniej jedna para słów zapytania występuje w tekście)"
- "Linki posiadają wszystkie słowa zapytania"
- "Jeden link ma wszystkie słowa zapytania"
- "Jaka część linków jest "dobra""
- "Ile jest "złych" linków (bad = dpr = 0)"
- "W tekście/linkach znajduje się dokładna forma wszystkich słów zapytania".
- "Dla wszystkich słów zapytania w tekście/linkach istnieje temat"
- "liczba linków, które dokładnie pasują do zapytania".
- "Liczba odwrotna do wariancji czasów występowania linków ze słowami zapytania"
- "Istotność tematyczna linków"
- "Istotność linków uwzględniająca jakość każdego z nich
- "Powiązanie znaczenia dla jakości każdego linku"
- "Trafność powiązań uwzględniająca jakość każdego z linków i tematyczność każdego z nich"
- "Istotność linków uwzględniająca niekomercyjność każdego z nich oraz tematyczność".
- "Trafność linkowania z uwzględnieniem niekomercyjności każdego linku i jakości każdego linku".
- "Trafność linkowania uwzględniająca niekomercyjność każdego linku, jakość każdego linku i tematyczność".
- "Procent linków przychodzących zawierających słowa zapytania"
- "Procent linków przychodzących zawierających wszystkie słowa zapytania"
- "Liczba linków pasujących do tekstu zapytania (inne remapy)"
- "XLerfLRlogRelev (znormalizowany do sumy wag Lerfa wszystkich linków, a nie sumy ich oryginalnych wag)".
- "XNonCommLRlogRelev (znormalizowany do sumy wag NonComm wszystkich linków, a nie sumy ich wag początkowych)".
- "Istotność linków z uwzględnieniem niekomercyjności każdego z nich i tematyczności"
- "Link Relevance, uwzględniający niekomercyjność każdego linku"
- "Trafność linków, w tym niekomercyjność każdego linku, jakość każdego linku i tematyczność"
- "Średni wiek linków wnoszących coś do LR LinkAge=Min(log(średni wiek linku)/7, 1), dla 1 przyjętych 3 lat"
- "LR uwzględniający dopasowanie języka linków i zapytań"
- "LR uwzględniający dopasowanie do języka linków i zapytań oraz klikalność"
- "Antyspamerzy speszyli stronę - wszystkie czynniki dynamicznego linkowania zostały zresetowane. zerolnk.flt".
- "Trzy poziomy regionu linków i dopasowania zapytań"
- "Charakteryzuje reputację strony na podstawie pierścieni linków. Wartość - Udział linków zewnętrznych, które wchodzą w skład link ringów i wymienników linków.
- "Premia za priorytet, priorytet 7 - priorytet tekstu. Factor jest binarny, ma wartość 0 dla wszystkich zapytań jednowyrazowych, a wartość 1 dla prawie wszystkich zapytań dwu i więcej wyrazowych, z wyjątkiem bardzo małej liczby odpowiedzi, dla których nie ma linków quorum passed i tekst też nie przeszedł quorum."
- "Link factor o obecności wideo na stronie".
- "Udział w sprzedaży linków przychodzących. Wdrożenie algorytmu rozpoznającego linki komercyjne."
- "Współczynnik CommLinksSEOHosts pomnożony przez NonCommercialQuery.
- "Charakteryzuje częstotliwość występowania słów w linkach. Czynnik jest duży, jeśli słowo grane w relewantności linków jest rzadkie w linkach."
- "Wartość słów zapytania, które znajdują się w linkach".
- "Wartość słów zapytania w tekście i linkach
- "Link do dokumentu pornografii tekstowej"
- "Link tekst porn dokument, inna normalizacja"
- "Analogicznie do odpowiednich czynników tekstowych dla linków. BM25 na liczbę linków, w których wystąpiło dopasowanie."
- "Proste BM25 o dokładnej formie w tekstach linków".
- "Liczba par słów w linkach z synonimami".
- "Liczba linków przekroczyła próg"
- "Proste BM25 na linkach z uwzględnieniem synonimów"
- "LR z linków Yandex.Market"
- "Trafność linków z pesymizacją dla wysokiego wieku linków"
- "Czynniki Gospodarza, Określenie stron wyłudzających linki - drugi i trzeci stopień przychodzący."
- "Liczba linków przychodzących bez rosyjskich liter."
- "Czy LinkQuality było liczone dla tej strony (nie jest liczone, jeśli jest mało linków) poprawione"
- "Trafność linków bez rzadkich słów"
- "Liczba różnych linków wewnętrznych na stronę"
- "Częstotliwość linkowania do strony"
- "Liczba linków pojawiająca się okresowo"
- "Zlicza sumę wystąpień o następującej postaci: ciąg słów zapytania o długości większej niż dwa występujący w jednym linku; znormalizowany do liczby linków."
- "Czynnik binarny, każde słowo zapytania jest w tekście lub w linkach".
- "Stosunek liczby linków przychodzących, których tekstem jest adres URL do liczby wszystkich linków przychodzących"
- "BM25 tytułu strony zgodnie z tekstem linku do niej"
- "Liczba linków przychodzących seo-trash pomiędzy stronami internetowymi"
- "Suma maksymalnych wartości SourceRank dla każdego linku przychodzącego, skorygowana o unikalność właściciela.
- "Regionalizowany (brane są tylko linki z kraju zapytania) wariant czynnika XLerfGeoLRlogRelev"
- "Dokument posiada bezpośredni link do pliku".
- "Dokument posiada link do hostingu plików
- "Wariancja liczby słów zapytania w linkach."
- "Hub count strony (do ilu stron linkują jej użytkownicy).
- "Statyczny czynnik URL w logach przeglądarki przez maksymalny okres. Średnia liczba bezpośrednich użytowników ze strony internetowej spędziła na nim więcej niż 90 sekund. Użytkownik jest bezpośredni tylko wtedy, gdy z naszej strony jest link i został on kliknięty."
- "Jakość linków z dobrych stron szacunek"
- "LOGAVG agregacja czynnika internetowego WikiLinkCount z wykorzystaniem losowego logu"
Czynniki związane z treścią:
- "Liczba słów w nagłówku".
- "Średnia długość słowa".
- "Proporcja różnych części mowy w tekście. proporcja liczebników (wśród wszystkich słów z rozpoznaną częścią mowy)"
- "proporcja cząstek"
- "proporcje zaimków przymiotnych"
- "proporcje rzeczowników zaimkowych"
- "proporcje czasowników"
- "Wskazuje, że dokument został przetłumaczony maszynowo.
- "Długi dokument (im dłuższy dokument, tym większa wartość współczynnika)."
- "Duplikacja treści nie jest stosowana. 'dobroć' hosta (od 0 do 1), obliczana na podstawie tego, ile i jakie hosty pożyczają od niego treści."
- "Nie używany Duplikacja treści. 'Złość' hosta (od 0 do 1) jest proporcjonalna do liczby drugorzędnych treści na nim."
- "odsetek słów, które mogą być zarówno rzeczownikami męskimi, jak i żeńskimi, ale nie nijakimi, wśród wszystkich rzeczowników (przykłady: 'koliber' to przykład płci nieokreślonej, którą można określić na dwa sposoby, 'Aleksandra' to homonim)"
- "liczba liter łacińskich w tekście (bez uwzględnienia narzutów), prowadzona w [0,1] według wzoru n/(n+100)".
- "Dokument został zmiękczony przez ograniczenia kreatora składni. Tylko dla dokumentów, które mają znaczenie tekstowe. Dla zapytań jednowyrazowych zawsze 1."
- "BM25 na teksty i linki ze specjalnymi wagami według poziomu dopasowania (forma, lemat, synonim)"
- "Rozmiar minimalnego fragmentu tekstu, który zawiera wszystkie słowa zapytania w dokumencie."
- "Wskazuje, jak nienaturalny jest tekst pod względem języka rosyjskiego. Oszacowanie, jak duża część tekstu może być uznana za wygenerowaną przez synonimizator lub nawet automatyczną."
- "Językowy czynnik odbijający. Typ rozszerzenia: QfufFilteredByXfOneSe (qfuf, filtrowany przez dssm-model XfOneSe). Agregacja po wszystkich rozszerzeniach. Najwyższa wartość współczynnika. Ważona agregacja strumienia Url, Title, Body, CorrectedCtr, LongClick, OneClick, BrowserPageRank, SplitDwellTime, SamplePeriodDayFrc, SimpleClick, YabarVisits, YabarTime. Algorytm agregacji wag słów: Bm15FLog (agregacja Bm15 logarytmów wystąpień słów). Współczynnik normalizacji 0,001."
- "Długość tekstu strony w słowach TLen = Map(ilość słów, 1/400) gdzie Map(x, y) = xy / (1 + xy)"
- "Dokument z sekcji językowej wikipedii odpowiadający regionowi użytkownika".
- "(ścisła fraza) znajduje się w nagłówku (dokładnie w pierwszym zdaniu dokumentu). Ograniczenia kontekstowe i stop words są traktowane dokładnie tak jak w TRp2, czyli factor[8] minors factor[5]"
- "Ranga jakościowa tekstów na hostingu. Im jest ona wyższa, tym większe prawdopodobieństwo, że na hostingu jest pełno artykułów - przepisanych, źle napisanych, zamówionych na giełdach treści.".
- "Długi tekst bez linków".
- "Trafność tekstowa (maxfreq to częstotliwość najczęściej występującego słowa, co ma sens przy długości dokumentu)."
- "Suma liczebności słów zapytania dla modelu językowego web-mt."
- "Indeks nienaturalności tekstu pod względem języka rosyjskiego. Liczba par złych słów w tekście, renormalizowana w przedziale [0,1] według wzoru z/(z+10)".
- "Przebiegły BM25 w oknie przesuwnym. Wielkość okna ustawia się w zdaniach. Używa "jokerów" do nagłówków i początku dokumentu. Pod uwagę brana jest bliskość morfologiczna i struktura tekstu."
- "priorytet frazy dla TR - priorytet tekstu - w dokumencie są wszystkie słowa zapytania w rzędzie".
- "Czynnik tekstu zapytania i tytułu dokumentu, oceniający dopasowanie zakresu liczbowego słów znaczników".
- "Jakość tekstu. Obliczone przy użyciu dość skomplikowanego wzoru".
- "Wskazuje, jak bardzo tekst jest nienaturalny z punktu widzenia języka rosyjskiego. Ocena, czy tekst dokumentu można uznać za wygenerowany przez synonimizator, czy ogólnie za automatyczny."
- "Suma słów zapytania skurcze według modelu językowego 3gramy-yandex-direct."
- "Liczymy frazy tekstowe, zakładając, że tytuł strony jest przypisany do każdego jej zdania, czyli odległość między słowem z tytułu a dowolnym innym słowem wynosi 1 zdanie. Ten to maksymalny stosunek słów zapytania w dowolnym zdaniu tekstowym (o określonym tytule) w stosunku do długości zapytania."
- "Hitweigt jest odmianą trafności tekstowej, w której wagi wszystkich trafień są traktowane jako równe (tzn. nie są brane pod uwagę premie za tytuł i bliskość słów). Odpowiednie trafienia muszą przejść ograniczenia kreatora składni, tzn. można przyjąć, że współczynnik TRhitw wynosi 0 wtedy i tylko wtedy, gdy SoftAndOk wynosi 0".
- "Premia za priorytet, priorytet 7 - priorytet tekstu. Factor jest binarny, ma wartość 0 dla wszystkich zapytań jednowyrazowych, a wartość 1 dla prawie wszystkich zapytań dwu i więcej wyrazowych, z wyjątkiem bardzo małej liczby odpowiedzi, dla których nie ma linków quorum passed i tekst też nie przeszedł quorum."
- "BM25 tytułu strony zgodnie z tekstem linku do niej"
- "Wariancja IDF słów zapytania, jeśli w dokumencie występują trafienia tekstowe (współczynnik mieszany zapytanie-tekst)"
- "Logarytm binarny prawdopodobieństwa wystąpienia zapytania przez model językowy serwisu erraty"
- "Priorytet ścisły dla TR - priorytet tekstowy - gdzieś w dokumencie są wszystkie słowa zapytania (i przechodzą ograniczenia kontekstowe zapytania, np. oba słowa d.w. w tym samym zdaniu)."
- "W relewantności tekstowej wystąpiło dopasowanie tematu".
- "Trafność tekstowa oparta na modelu językowym uwzględniającym pozycję absolutną. Przejdź przez tekst z pudełkiem 20 słów, zbuduj dla każdego pudełka model językowy (tj. Rozkład prawdopodobieństwa na rosyjskich słowach) i oblicz prawdopodobieństwo wygenerowania zapytania. Za oddalanie się od początku dokumentu karać model." - "Liczba słów w tekście (Słowo jest tym, co wybrał lemmer), wyświetlana w [0,1] z wykorzystaniem wzoru x/(x+A)"
- "Miasto jest zdefiniowane dla strony"
- "Liczba przecinków w segmencie Treść"
- "Język dokumentu jest taki sam jak język zapytania.
- "Język dokumentu odpowiada krajowi zapytani
- "dokument posiada wszystkie słowa zapytania (dokładne do synonimu)"
- "dokument posiada wszystkie słowa zapytania (z dokładnością do formy)"
- "Stopień komercyjności tytułu strony."
- "Udział dużych liter w tytule
- "Neuronowy model jakości treści dla tematów"
Czynniki behawioralne:
- "udział ruchu z wyszukiwarek"
- "Ruch regionalny z wyszukiwarek dla określonego zapytania"
- "Udział ruchu przychodzącego z wyszukiwarek wśród całego ruchu przychodzącego
- "Udział bezpośrednich trafień wśród całego ruchu przychodzącego"
- "Statyczny współczynnik URL według logów przeglądarki przez maksymalny okres. Procentowy udział ruchu z sieci społecznościowych w całym ruchu z innych hostów i wyszukiwania."
- "Stosunek ruchu reklam wychodzących do całego ruchu (desktop)"
- "Stosunek mobile do desktop według ruchu z wyszukiwarek."
- "Stosunek ruchu mobilnego do desktopowego dla całego ruchu wychodzącego."
- "Search Engine Traffic - wizyty z wyszukiwarek na stronie"
- "Udział wizyt niepowiązanych (wpisanych lub zakładek)
- "Właściciel posiada LOGI WIZYTOWE".
- "Udział wizyt, dla których czas spędzony na gospodarzu w ciągu dnia wynosi więcej niż 90 sekund"
- "Udział wizyt z czasem na stronie internetowej powyżej 160 sek. dziennie"
- "Udział wizyt bezpośrednich."
- "Jak często ludzie klikają w ten URL dla tego zapytania - CTR pomnożony przez współczynnik korekty"
- "Jak często adresy URL w tym domainId są klikane dla tego zapytania - CTR domainId pomnożony przez współczynnik korygujący"
- "Jak często ten URL jest klikany w tym zapytaniu - CTR pomnożony przez współczynnik korygujący"
- "Jak często ten URL jest klikany dla tego zapytania - CTR pomnożony przez współczynnik korekty, przez małe regiony z relev_regions.web.txt"
- "Jak często ludzie klikają w ten URL w tym zapytaniu - CTR domainId pomnożony przez współczynnik korekty, przez małe regiony z relev_regions.web.txt"
- "poprawiony CTR tego adresu url dla wszystkich podobnych zapytań"
- "poprawiony CTR tego adresu url dla wszystkich podobnych zapytań, wersja krajowa, patrz ((http://wiki.yandex-team.ru/ Development/ Poisk/arcadia/indexregex indexregex))"
- "CTR według danych klikalnych, zapytanie znormalizowane o synsety".
- "Regionalny CTR na danych klikalnych, żądanie znormalizowane przez synset"
- "Statyczny czynnik URL przez sesje wyszukiwania przez 1600 dni. Normalne Ctr."
- "Statyczny czynnik URL na sesjach wyszukiwania przez 1600 dni. Normalne Ctr. Lokalizacja na poziomie krajowym."
- "Średnia wartość współczynnika QueryUrlCorrectedCtrXfactor na zapytanie w ciągu roku. Calculated offline".
- "Model DSSM (Głęboki model podobieństwa semantycznego) wytrenowany na CTR-ach".
- "stosunek liczby kliknięć na ten adres URL do wszystkich kliknięć na żądanie"
- "Stosunek kliknięć na ten domainId do wszystkich kliknięć na żądanie"
- "Jaki ułamek (średnio na sesję) kliknięć dla danego adresu URL z dodanym do niego miastem użytkownika tworzy ten adres url. Obliczane na sesję użytkownika."
- "stosunek liczby kliknięć w ten adres URL do wszystkich kliknięć w zapytanie, według małych regionów z relev_regions.web.txt"
- "stosunek liczby kliknięć w tę domenę do wszystkich kliknięć w zapytanie, według pomniejszych regionów z relev_regions.web.txt"
- "Średni aktywny, nieprzerwany czas przebywania użytkownika (w sek.) na stronach stronę interntetową po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,domAttr)). Według Yandex.Bar/Elements/Browser internal counter".
- "Średnia liczba aktywnych działań (kliknięć, naciśnięć klawiszy) użytkowników w czasie ciągłej obecności użytkownika na stronach stronę interntetową po jego zapytaniu z wyszukiwarki (współczynnik zależy od pary (zapytanie,domAttr)). Według Yandex.Bar/Elements/Browser internal counter".
- "średni aktywny nieprzerwany czas użytkownika (w sek.) na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url)). Według Yandex.Bar/Elements/Browser internal counter".
- "Średnia liczba aktywnych akcji (kliknięć, naciśnięć klawiszy) przez użytkowników na stronie po kliknięciu na zapytanie z wyszukiwarki (współczynnik zależy od pary (zapytanie,url))".
- "średnia liczba aktywnych działań użytkownika (kliknięć, naciśnięć klawiszy) podczas jego ciągłego przebywania (w sek.) na stronach stronę interntetową".
- "Jest to SEA Factor = s4_r/(k_r+10) gdzie s4_r - liczba kliknięć > 180 sek, k_r - całkowita liczba kliknięć."
- "Stopień zróżnicowania zapytań, które zostały kliknięte na ten adres url".
- "Entropia - rozkład kliknięć
- "Entropia - rozkład stosunku kliknięć do wyświetleń"
- "Entropia - rozkład kliknięć. Regionalnie"
- "Entropia - rozkładanie stosunku kliknięć do wyświetleń. Regionalizacja"
- "Wiek szybkiej aktualizacji kliknięć , w sekundach"
- "Świeżość szybkich kliknięć aktualizacja "
- "Udział kliknięć dla zapytań informacyjnych"
- "Wartość URL obliczana w czasie żądania z szybkich kliknięć liczników z rozkładem na 1 dzień"
- "Stopień zróżnicowania zapytań klikniętych na ten adres url jest liczony według regionów"
- "Liczba kliknięć na właściciela i liczba kliknięć na zapytanie większa niż 5"
- "Statyczny współczynnik URL według sesji wyszukiwania za 1600 dni liczony według sesji mobilnych. Prawdopodobieństwo, że kliknięcie adresu URL będzie dłuższe niż 120 sekund"
- "Statyczny URL Factor dla sesji wyszukiwania w ciągu 1600 dni na podstawie sesji mobilnych. Prawdopodobieństwo, że adres URL nie zostanie kliknięty, jeśli co najmniej jeden adres URL zostanie kliknięty poniżej".
- "Udział kliknięć w ten adres URL wśród wszystkich kliknięć dla podobnych zapytań"
- "Wartość URL obliczona w czasie żądania z liczników wyszukiwania szybkich kliknięć z rozkładem na 1 dzień".
- "Wartość URL obliczona w czasie żądania z liczników wyszukiwania szybkich kliknięć z dekadą 30 dni"
- "Kliknięcia na urle pokazywane w wynikach wyszukiwania dla innych zapytań w wyszukiwarce."
- "Udział kliknięć w ten adres url wśród wszystkich kliknięć dla podobnych zapytań, wersja krajowa, patrz ((http://wiki.yandex-team.ru/ Development/Poisk/ arcadia/indexregex indexregex))"
- "Wartość URL obliczana w czasie żądania z liczników wyszukiwania szybkich kliknięć z rozkładem 3 dni"
- "Wartość URL obliczana na podstawie szybkich kliknięć w wyszukiwaniu zamrożone liczniki z rozkładem 1 dzień"
- "Udział kliknięć dla tego adresu URL wśród wszystkich kliknięć dla podobnych wyszukiwań, obliczony przez wyszukiwarkę".
- "Średnie według słów zapytania prawdopodobieństwo pobrania pliku ze strony interntetowej po kliknięciu."
- "Prawdopodobieństwo pobrania z strony interntetowej po kliknięciu."
- "Wartość URL obliczana na podstawie szybkich kliknięć w wyszukiwarce zamrożonych liczników z rozkładem 30 dni"
- "Wartość URL obliczana na podstawie szybkich kliknięć w wyszukiwarce zamrożonych liczników z rozkładem 3 dni"
- "Jaką część (średnio na sesję) klikniętych adresów URL stanowi ten adres. Obliczone na podstawie sesji użytkowników."
- "Średnia liczba wyświetleń na pierwszej stronie; liczba kliknięć 1, liczba niekliknięć wg tabeli SBM_GAMMAS"
- "Średnia liczba impresji na pierwszej stronie, liczba kliknięć 1 i liczba niekliknięć wg tabeli SBM_GAMMAS. Wersja regionalna"
- "Wartość strony interntetowej obliczana w czasie żądania z szybkich kliknięć liczników z rozkładem 3 dni"
- "Wartość strony interntetowej obliczana w czasie żądania z szybkich kliknięć liczników z rozkładem 14 dni"
- "Znormalizowany poprawiony licznik kliknięć według zapytania z miastem użytkownika wymieniony"
- "Znormalizowany poprawiony współczynnik kliknięć maksymalnych przez zapytanie z miastem użytkownika wymienione"
- "Znormalizowany poprawiony współczynnik kliknięć maksymalnych przez zapytanie z nie wymienionym miastem użytkownika"
- "Udział adresów url w całkowitej liczbie klikniętych adresów url na sesję według zapytań."
- "Średni udział kliknięć na ten url dla tego zapytania wśród wszystkich kliknięć na to zapytanie w ciągu dnia."
- "Znormalizowany poprawiony współczynnik maksymalnych kliknięć przez zapytanie z miastem użytkownika wymienionym równomiernie przez region"
- "Znormalizowany poprawiony współczynnik maksymalnych kliknięć przez zapytanie z miastem użytkownika wymienionym na równi z regionem użytkownika"
- "Statyczny URL Factor według sesji wyszukiwania na 1600 dni. Prawdopodobieństwo, że kliknięcie w adres URL będzie trwało dłużej niż 120 sekund"
- "Statyczny URL Factor według sesji wyszukiwania na 1600 dni. Prawdopodobieństwo, że na URL zostanie kliknięty, jeśli nie zostanie kliknięty przynajmniej na jeden URL jest wyższe."
- "Statyczny czynnik URL przez sesje wyszukiwania przez 1600 dni. Prawdopodobieństwo, że URL nie zostanie kliknięty, jeśli przynajmniej jeden URL poniżej nie zostanie kliknięty."
- "Statyczny czynnik URL przez sesje wyszukiwania przez 1600 dni. Prawdopodobieństwo, że kliknięcie w adres URL będzie trwało dłużej niż 120 sekund. Localization to country level."
- "Model DSSM (Głęboki model podobieństwa semantycznego) (Głęboki model podobieństwa semantycznego) wytrenowany na kliknięciach. Uwzględnia bigramy".
- "Model DSSM (Głęboki model podobieństwa semantycznego) opiera się na kliknięciach. Uwzględnia bigramy. Embeddingi dla dokumentów są obliczane offline."
- "Średnia ważona kliknięć IsMainPage na zapytanie w ciągu roku. Calculated offline".
- "Średnia ważona kliknięciami wartości YabarUrlAvgTime na zapytanie w ciągu roku. Calculated offline".
- "Średnia ważona kliknięciami DifferentInternalLinks według zapytań na rok. Calculated offline".
- "Model DSSM (Głęboki model podobieństwa semantycznego) wytrenowany na puli personalizacji kliknięć"
- "Przewidywane na podstawie zapytania i kraju, przy użyciu DSSM (Głęboki model podobieństwa semantycznego) -model dla długości kliknięcia z danego kraju.
- "Przewidywana przez sieć neuronową średnia wartość IsMainPage ważona kliknięciami dla zapytania w skali roku."
- "Przewidywana przez sieć neuronową średnia ważona kliknięciami YabarUrlAvgTime dla zapytania na rok.
- "Przewidywana przez sieć neuronową średnia ważona kliknięciami DifferentInternalLinks według zapytania na dany rok.
- "Klasyfikator hostów dla pornografii, zapytanie o frazy pornograficzne, dla których pokazano i kliknięto stronę interntetową"
- "Liczba trafień żądania z więcej niż jednym kliknięciem w całej historii. Zapytanie jest znormalizowane dla doppelgangerów"
- "Udział trafień z zapytaniem o więcej niż jedno kliknięcie w stosunku do wszystkich trafień w całej historii. Zapytanie jest normalizowane przez doppelgangerów".
- "Model DSSM (Głęboki model podobieństwa semantycznego) przewidujący logarytm najdłuższego kliknięcia na wynik wyszukiwania. Jako przykłady negatywne wybieramy url z przeszłych zapytań tego samego użytkownika, przy czym maksymalny czas pomiędzy zapytaniami nie był dłuższy niż 7 minut."
- "Model DSSM (Głęboki model podobieństwa semantycznego) z wczesnym wiązaniem, wytrenowany, który przewiduje logarytm najdłuższego kliknięcia na wynik wyszukiwania."
Czynniki "techniczne":
- "Czy właściciel ma metrykę czy nie"
- "Dokument posiada stronę turbo dla platformy mobilnej."
- "Dokument posiada protokół https"
- "Dokument posiada stronę turbo dla platformy desktop. Aktualizacje na górze bazy są dostarczane przez saas."
- "Dokument posiada stronę turbo dla platformy mobilnej. Aktualizacje na górze bazy są dostarczane przez saas."
- "Ten dokument posiada stronę turbo dla platformy desktop. Aktualizacje na górze bazy są dostarczane przez saas."
- "Współczynnik binarny dotyczący możliwości dostosowania dokumentu do urządzeń mobilnych."
- "Dokument posiada stronę turbo. Zależne od platformy"
Wiek treści, świeżość:
- "Różnica pomiędzy datą bieżącą a datą określoną przez dater, 1 - data dokumentu jest aktualna, 0 - dokument ma 10 lat lub więcej, Jeśli nie podano daty, to wynosi 0. Warning((1 - DaterAge)*60)^2 = wiek strony w dniach."
- "Średnia arytmetyczna pozycji daty w dokumencie. Tymczasowo wyłączony"
- "Obliczany jako (10-x) gdzie x to wiek dokumentu w dniach (ciągły) w stosunku do czasu ważności dokumentu w behemocie"
- "Liczy się jako (80 - x) / 80, gdzie x to wiek dokumentu w godzinach. Czynniki mają sens tylko dla bazy quickbota (ostatnie 80 godzin). Nie są one wykorzystywane w rankingu. Wykorzystywane w re-rankingach".
- "Obsługiwany jako (10-x) gdzie x to wiek dokumentu w dniach (ciągły). Wykorzystuje dane RobotAddTime datetime".
- "Średnia nadwyżka świeżości strony internetowej w ciągu 30 dni".
- "Udział dokumentów z pozytywną nadwyżką świeżości ze strony interntowej w ciągu 30 dni".
- "Wartość detektora świeżości. Zawsze 0, gdy wartość czujki jest mniejsza od progu."
Czynniki zewnętrzne, na podstawie danych uczestników programu Toloka Tam:
- "Maksymalna wartość danych domeny (na podstawie Toloka)"
- "Średnia wartość danych domeny (na podstawie Toloka)"
- "Mediana wartości danych domeny (na podstawie Toloka)"
- "Minimalna wartość danych domeny (na podstawie Toloka)"
- "Rozkład wartości danych rozproszenia domeny (na podstawie Toloka)"
- "Znormalizowana wartość klasyfikatora zapytań o tekst porno oszacowana na podstawie Toloka"
Myślę, że jest to świetna inspiracja do własnych testów algorytmu wyszukiwarki Yandex lub nawet Google 🙂