Google

Robot Google indeksuje i czyta tylko 15 MB dokumentu HTML

Google+ Pinterest LinkedIn Tumblr

W ostatnim czasie na pozycjonerów znowu spadła zła informacja. Google zaktualizowało dokumentację na temat sposobu działania swoich crawlerów. Firma oficjalnie przyznała, że ich systemy będą czytać i indeksować maksymalnie 15 MB danych w dokumentach HTML.

Oznacza to tyle, że po przekroczeniu tego limitu Google nie będzie indeksowało treści.

Wszystko rozchodzi się o ten zapis ze strony o Googlebocie:

Googlebot może zindeksować pierwsze 15 MB pliku HTML lub obsługiwanego pliku tekstowego. Wszystkie zasoby wymienione w kodzie HTML, takie jak obrazy, filmy, pliki CSS i JavaScript, są pobierane oddzielnie. Po przeskanowaniu pierwszych 15 MB pliku Googlebot zatrzymuje się i podczas indeksowania uwzględnia tylko te 15 MB. Limit rozmiaru pliku jest stosowany do danych nieskompresowanych. Inne roboty mogą mieć inne limity.

Co to tak na prawdę oznacza dla właścicieli stron? W sumie to nic. Chyba, że…

Wbrew pozorom, to wspomniane 15 MB to baaardzo dużo. W 99% przypadków nawet nie zbliżycie się do tego limitu. Według serwisu httparchive.org średni rozmiar dokumentów HTML jest 500 razy mniejszy. Liczby prezentują się następująco:

  • desktop: 31,1 KB
  • mobile: 29,6 KB

Średni rozmiar pojedynczego wpisu na highlab.pl wynosi około 15 KB.

Co wchodzi w skład dokumentu HTML?

Wszystko to co znajduje się w jego źródle. Czyli są to wszystkie tagi HTML. Zawartość plików CSS, JS czy obrazki nie są uwzględniane do temu limitu.

Chyba, że…

…w ramach podkręcania wyników Web Core Vitals wrzucasz zawartość plików JS, CSS do kodu HTML. Dodatkowo jeżeli umieszczasz pliki graficzne w postaci data-uri, to też zwiększasz wagę swojego dokumentu.

Prawda jest taka, że nawet pomimo dołączania źródeł takich plików, to szansa na przekroczenie wspomnianego limitu jest mała.

Jak sprawdzić wielkość mojego dokumentu HTML?

Safari - podgląd wielkości dokumentu HTML mojego bloga
Safari – podgląd wielkości (20KB) dokumentu HTML mojego bloga

Możesz to zrobić np. w przeglądarce Chrome otwierając zakładkę „Network” w Narzędziach Developerskich. To co potrzebujemy sprawdzić, to kolumna „Size” dla dokumentu. Jak wspomniałem wcześniej, średnia wielkość dokumentu mojego blogu wynosi 15 KB.

Uwielbiam nowe technologie oraz wszelkiego rodzaju gadżety (ale tylko te użyteczne). Pochłaniam nowości i ciekawostki związane z technologią. Uważam, że technologia może nam bardzo pomóc (o ile będzie używana z rozwagą). Z zawodu jestem programistą JavaScript.

1 komentarz

  1. Szczerze, nie sądzę, żeby to miało aż taki wpływ na indeksowanie stron. Tak jak wspomnieliście we wpisie – ciężko jest przekroczyć 15 MB przy jednym pliku HTML. Moim zdaniem to nawet graniczy z byciem niemożliwym. Strony internetowe tworzy się z wielu małych plików i raczej w obecnych czasach nie robi się wielkich molochowych stron złożonych z jednego pliku.

Skomentuj