Crawl Budget Optimalizálás - Google Crawlolás Hatékonyabbá Tétele

Q: Mi az a crawl budget?

A crawl budget az az URL mennyiség, amelyet a Googlebot egy adott időszak alatt (jellemzően naponta) crawlol egy weboldalon. Ez két tényezőből áll: (1) Crawl capacity limit - Mennyi URL-t tud technikai szempontból crawlolni anélkül, hogy túlterhelné a szervert, (2) Crawl demand - Mennyire szeretné a Google crawlolni az oldalt (népszerűség, frissítési gyakoriság alapján). A kettő metszete adja a crawl budget-et.

Q: Kinek fontos a crawl budget optimalizálás?

A crawl budget optimalizálás különösen fontos: (1) Nagy weboldalaknál (10,000+ URL), (2) E-commerce oldalaknál (sok termék, gyakori változás), (3) Hírportáloknál (napi új tartalom), (4) Gyakran változó tartalmú oldalaknál. Kis weboldalaknál (<1000 URL) a crawl budget általában NEM probléma - a Google könnyedén crawlolja az összes oldalt. Ha GSC-ben látod, hogy vannak nem-crawlolt URL-ek → akkor foglalkozz a crawl budget-tel.

Q: Mi a különbség a crawl budget és az index budget között?

Crawl budget: Mennyi URL-t crawlol a Google (letöltés, feldolgozás). Index budget: Mennyi URL-t indexel a Google (megjelenik a keresési eredményekben). Nem minden crawlolt URL indexelődik! Google crawlolhat 100,000 URL-t, de csak 50,000-et indexel (alacsony minőség, duplicate content, noindex miatt). Optimalizáld mindkettőt: crawl budget → több fontos oldal crawlolva, index budget → több értékes oldal indexelve.

Q: Hogyan növelhetem a crawl budget-et?

Crawl budget növelése: (1) Javítsd a szerver válaszidőt (gyorsabb host, CDN, cache), (2) Blokkold felesleges URL-eket robots.txt-ben (admin, search, filter), (3) Javítsd az oldal sebességét (Core Web Vitals), (4) Távolíts el duplicate content-et (canonical tag-ek), (5) Fixáld a soft 404-eket és törött linkeket, (6) XML sitemap optimalizálás (csak fontos URL-ek), (7) Növeld a tartalom minőségét (Google gyakrabban crawlolja az értékes oldalakat), (8) Internal linking javítása (mélyebb oldalak elérhetősége).

Q: Mi az a crawl rate és hogyan állíthatom be?

A crawl rate az a sebesség, amivel a Googlebot crawlolja az oldaladat (kérések/másodperc). Google Search Console-ban állítható (Settings → Crawl rate), de CSAK csökkenteni tudod (ha szerver túlterhelt), növelni NEM. A Google automatikusan optimalizálja a crawl rate-et: (1) Szerver sebesség alapján (gyors szerver = magasabb rate), (2) Crawl errors alapján (sok 503 hiba = csökkentett rate), (3) Site authority alapján (magas DA = gyakoribb crawl). Általában NE korlátozd a crawl rate-et, hacsak nincs szerver probléma.

Q: Hogyan látom a crawl stats-okat?

Google Search Console → Settings → Crawl stats report. Láthatod: (1) Total crawl requests (napi crawlolt URL-ek száma), (2) Total download size (KB letöltött adat), (3) Average response time (szerver válaszidő ms-ben), (4) Host status (200, 404, 500 státusz kódok eloszlása), (5) File type (HTML, JavaScript, CSS, képek aránya), (6) Googlebot type (Desktop vs Mobile, különböző bot-ok). Figyelj a trendekre: hirtelen csökkenés a crawl requests-ben = probléma (robots.txt blokk, szerver lassulás, büntetés).

Crawl Budget tölcsér: összes oldal → engedélyezett → crawlolt → indexelt

Mi az a Crawl Budget?

A crawl budget az az URL mennyiség, amelyet a Googlebot egy adott időszak alatt (jellemzően naponta) crawlol egy weboldalon. Ez azt határozza meg, hogy a Google mennyire “mélyrehatóan” tudja felfedezni és indexelni az oldaladat.

Két fő komponens:

1. Crawl Capacity Limit (Kapacitás limit)

Mi ez?

A maximális crawlolási sebesség, amit a Google használhat anélkül, hogy túlterhelné a szervert.

Tényezők:

Szerver sebesség - Gyors válaszidő = magasabb limit
Crawl health - Kevés hiba (503, timeout) = magasabb limit
Site authority - Magas DA/PageRank = magasabb limit

Példa:

Lassú szerver (500ms válaszidő) → 100 URL/nap
Gyors szerver (50ms válaszidő) → 10,000 URL/nap

2. Crawl Demand (Igény)

Mi ez?

Mennyire szeretné a Google crawlolni az oldaladat - népszerűség és frissítés alapján.

Tényezők:

Népszerűség - Sok forgalom, backlink → magasabb demand
Frissítési gyakoriság - Napi új tartalom → gyakoribb crawl
URL felfedezés - Új URL-ek (sitemap, linkek) → több crawl

Példa:

Híroldalak (napi új cikkek) → magas demand
Statikus portfolio (ritkán frissül) → alacsony demand

A Crawl Budget Képlet

Crawl Budget = MIN(Crawl Capacity Limit, Crawl Demand)

Példák:

Eset 1: Gyors szerver, de alacsony demand

Capacity: 10,000 URL/nap
Demand: 500 URL/nap
Crawl Budget: 500 URL/nap (demand határ)

Eset 2: Lassú szerver, magas demand

Capacity: 200 URL/nap
Demand: 5,000 URL/nap
Crawl Budget: 200 URL/nap (capacity határ)

Eset 3: Kiegyensúlyozott

Capacity: 5,000 URL/nap
Demand: 4,800 URL/nap
Crawl Budget: 4,800 URL/nap (optimális)

Kinek fontos a Crawl Budget?

Crawl budget FONTOS, ha:

✅ 10,000+ URL van az oldalon
✅ E-commerce (gyakori termékváltozás, sok URL)
✅ Hírportál (napi új tartalom)
✅ UGC oldal (user-generated content, fórum, közösségi)
✅ Faceted navigation (sok filter kombináció)

Crawl budget NEM KRITIKUS, ha:

❌ Kis oldal (<1,000 URL)
❌ Statikus tartalom (ritkán frissül)
❌ Minden oldal indexelve (GSC szerint)

Google hivatalos álláspont:

"Crawl budget is not something most publishers have to worry about. If new pages on your site tend to be crawled the same day they're published, crawl budget is not something you need to focus on."
— Gary Illyes, Google

Hogyan ellenőrzöd?

Google Search Console → Sitemaps
- Submitted vs Indexed URL-ek
- Ha Submitted >> Indexed → lehet crawl budget probléma
Google Search Console → Settings → Crawl stats
- Napi crawlolt URL-ek száma
- Ha csökkenő trend → gond van

Crawl Budget Problémák Azonosítása

1. Google Search Console - Crawl Stats

Hol találod:

Google Search Console → Settings → Crawl stats

Mit néz:

A) Total crawl requests (Napi crawlolt URL-ek)

Grafikon: Utolsó 90 nap
- Dec 1: 2,500 URL
- Dec 15: 2,400 URL
- Jan 1: 2,300 URL
- Jan 15: 2,200 URL (csökkenő trend ❌)

Jó: Stabil vagy növekvő
Rossz: Csökkenő trend → Vizsgáld meg az okokat

B) Average response time (Átlagos válaszidő)

Optimális: <100ms
Elfogadható: 100-300ms
Lassú: 300-500ms
Kritikus: >500ms ❌

Ha >500ms:

Lassú host → Válts jobb hosting-ra
Nincs cache → Implementálj cache-t
Lassú adatbázis → Optimalizáld query-ket

C) Host status (HTTP státusz kódok)

Ideális eloszlás:
- 200 OK: 95%+
- 301/302 Redirect: <3%
- 404 Not Found: <1%
- 503 Server Error: 0%

Ha sok 503 hiba:

Google automatikusan csökkenti a crawl rate-et
Fix: Szerver upgrade, cache, CDN

D) File type (Crawlolt fájltípusok)

Tipikus eloszlás:
- HTML: 40-60%
- JavaScript: 20-30%
- CSS: 10-15%
- Képek: 10-20%
- Egyéb: <5%

Ha JavaScript/CSS túl magas:

Lehet, hogy felesleges fájlokat crawlol
Optimalizáld robots.txt-et

2. Google Search Console - Index Coverage

Hol találod:

Google Search Console → Index → Coverage

Figyelj ezekre:

A) Discovered - currently not indexed

URL-ek, amelyeket a Google felfedezett, de nem indexelt.

Okok:

Alacsony minőség (vékony tartalom)
Duplicate content
Crawl budget kimerült (nem jutott el ide)

Megoldás:

Javítsd a tartalom minőségét
Canonical tag-ek (duplicate content)
Internal linking (mélyebb oldalak crawlolhatósága)

B) Crawled - currently not indexed

URL-ek, amelyeket a Google crawlolt, de nem indexelt.

Okok:

Alacsony minőség
Soft 404
Noindex tag

Megoldás:

Ellenőrizd az oldal minőségét
Távolítsd el a noindex tag-et (ha van)
Javítsd a tartalmat

3. Log File Analysis

Mi ez?

A szerver access log fájljainak elemzése - látod pontosan mit crawlolt a Googlebot.

Példa log sor:

66.249.66.1 - - [20/Jan/2026:10:30:45] "GET /blog/page/5/ HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Mit néz:

Crawlolt URL-ek - Mik a leggyakrabban crawlolt oldalak?
Nem crawlolt URL-ek - Fontos oldalak hiányoznak?
Felesleges URL-ek - Admin, search, filter page-ek crawlolva?
Crawl frequency - Milyen gyakran crawlol (naponta, hetente)?

Eszközök log elemzéshez:

Screaming Frog Log File Analyzer
Oncrawl
Botify
Saját script (Python, AWK)

Példa Python script:

import re
from collections import Counter

googlebot_pattern = r'Googlebot'
url_pattern = r'"GET (.*?) HTTP'

crawled_urls = []

with open('access.log', 'r') as f:
    for line in f:
        if re.search(googlebot_pattern, line):
            match = re.search(url_pattern, line)
            if match:
                crawled_urls.append(match.group(1))

# Top 10 leggyakrabban crawlolt URL
top_urls = Counter(crawled_urls).most_common(10)
for url, count in top_urls:
    print(f"{count} - {url}")

Crawl Budget Optimalizálási Stratégiák

1. Szerver Válaszidő Csökkentése

Miért fontos:

Gyors szerver → Google több oldalt tud crawlolni ugyanannyi idő alatt.

Optimalizálási lépések:

A) Hosting upgrade

Shared hosting (300-500ms) → VPS/Cloud (50-150ms)

B) CDN használata

<!-- Statikus fájlok (CSS, JS, képek) CDN-ről -->
<link rel="stylesheet" href="https://cdn.example.com/styles.css">
<script src="https://cdn.example.com/app.js"></script>
<img src="https://cdn.example.com/hero.jpg" alt="Hero">

Előnyök:

✅ Képek, CSS, JS gyorsabb betöltés
✅ Szerver terhelés csökken
✅ Googlebot gyorsabban crawlol

C) Server-side cache

WordPress példa (WP Rocket):

// wp-config.php
define('WP_CACHE', true);

Apache .htaccess cache:

<IfModule mod_expires.c>
  ExpiresActive On
  ExpiresByType image/jpg "access plus 1 year"
  ExpiresByType image/jpeg "access plus 1 year"
  ExpiresByType image/png "access plus 1 year"
  ExpiresByType text/css "access plus 1 month"
  ExpiresByType application/javascript "access plus 1 month"
</IfModule>

D) Adatbázis optimalizálás

-- MySQL index hozzáadása (gyorsabb query-k)
ALTER TABLE posts ADD INDEX idx_post_date (post_date);
ALTER TABLE posts ADD INDEX idx_post_status (post_status);

-- Lassú query-k azonosítása
SHOW PROCESSLIST;

E) GZIP kompresszió

Apache .htaccess:

<IfModule mod_deflate.c>
  AddOutputFilterByType DEFLATE text/html text/plain text/xml text/css application/javascript
</IfModule>

Nginx:

gzip on;
gzip_types text/plain text/css application/json application/javascript text/xml;

2. Felesleges URL-ek Blokkolása (robots.txt)

Miért fontos:

Ha a Google felesleges URL-eket crawlol (admin, search, filter) → crawl budget pazarlás.

Mit blokkoljunk:

A. Admin/Login oldalak

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /wp-admin/
Disallow: /user/

B. Keresési eredmények

Disallow: /search/
Disallow: /?s=
Disallow: /*?q=

C. Szűrő/Faceted navigation URL-ek

Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?color=
Disallow: /*?price=

D. Tracking/Session paraméterek

Disallow: /*?sessionid=
Disallow: /*?sid=
Disallow: /*?utm_source=

E. PDF/Doc fájlok (ha nem fontosak)

Disallow: /*.pdf$
Disallow: /*.doc$

⚠️ FONTOS:

NE blokkold:

CSS/JavaScript (Google rendereléshez szükséges)
Fontos kategória oldalak
Termék oldalak

Tesztelés:

Google Search Console → robots.txt Tester

3. Duplicate Content Megszüntetése

Miért probléma:

Ha ugyanaz a tartalom több URL-en elérhető → Google crawlolja mindegyiket → crawl budget pazarlás.

Példák:

http://example.com/product/
https://example.com/product/
http://www.example.com/product/
https://www.example.com/product/

/product/
/product
/product/index.html

/category/?page=1
/category/

Megoldás A - Canonical tag:

<!-- Minden URL ugyanarra a canonical-ra mutat -->
<link rel="canonical" href="https://www.example.com/product/" />

Megoldás B - 301 Redirect:

# Apache .htaccess
# HTTP → HTTPS
RewriteCond %{HTTPS} off
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1 [L,R=301]

# Non-WWW → WWW
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteRule ^(.*)$ https://www.%{HTTP_HOST}/$1 [L,R=301]

# Trailing slash hozzáadása
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1/ [L,R=301]

Megoldás C - URL Parameters (Google Search Console):

Google Search Console → Settings → URL Parameters

Parameter: sessionid
Purpose: Session tracking
Crawl: No URLs

4. Soft 404-ek Javítása

Mi az a soft 404?

Olyan oldal, amely 200 OK státuszt ad vissza, de üres vagy hiba tartalommal.

Példa:

<!-- 200 OK státusz, de tartalom üres -->
<html>
<body>
  <h1>Nincs találat</h1>
  <p>A keresett termék nem található.</p>
</body>
</html>

Miért rossz:

Google crawlolja, de nincs értelme
Crawl budget pazarlás

Hogyan azonosítod:

Google Search Console → Index → Coverage → Soft 404

Megoldás:

// PHP példa - helyes 404 státusz
header("HTTP/1.1 404 Not Found");
echo "<h1>404 - Oldal nem található</h1>";
exit();

5. XML Sitemap Optimalizálás

Miért fontos:

Az XML sitemap jelzi a Google-nek, hogy melyek a fontos URL-ek.

Best practices:

A) Csak fontos URL-ek a sitemap-ben

<!-- ✅ JÓ - Fontos oldalak -->
<url>
  <loc>https://example.com/blog/seo-guide/</loc>
  <lastmod>2026-01-20</lastmod>
  <priority>0.8</priority>
</url>

<!-- ❌ ROSSZ - Admin oldal -->
<url>
  <loc>https://example.com/admin/</loc>
</url>

B) Lastmod pontos dátumokkal

<lastmod>2026-01-20T10:30:00+00:00</lastmod>

C) Priority használata

<priority>1.0</priority> <!-- Főoldal -->
<priority>0.8</priority> <!-- Fontos kategóriák -->
<priority>0.6</priority> <!-- Blogok, termékek -->
<priority>0.4</priority> <!-- Kevésbé fontos -->

D) Sitemap felosztása (50,000+ URL)

<!-- sitemap_index.xml -->
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap_pages.xml</loc>
    <lastmod>2026-01-20</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap_blog.xml</loc>
    <lastmod>2026-01-20</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap_products.xml</loc>
    <lastmod>2026-01-20</lastmod>
  </sitemap>
</sitemapindex>

E) Dinamikus sitemap (WordPress):

// sitemap.php
header('Content-Type: application/xml');
echo '<?xml version="1.0" encoding="UTF-8"?>';
echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">';

$posts = get_posts(array('numberposts' => -1));
foreach ($posts as $post) {
    echo '<url>';
    echo '<loc>' . get_permalink($post->ID) . '</loc>';
    echo '<lastmod>' . get_the_modified_date('c', $post->ID) . '</lastmod>';
    echo '<priority>0.8</priority>';
    echo '</url>';
}

echo '</urlset>';

6. Internal Linking Javítása

Miért fontos:

Jó internal linking → Googlebot könnyebben felfedezi a mélyebb oldalakat.

Stratégiák:

A) Shallow site structure (lapos struktúra)

❌ ROSSZ - Mély struktúra (4+ kattintás):
Home → Kategória → Alkategória → Sub-alkategória → Termék

✅ JÓ - Lapos struktúra (2-3 kattintás):
Home → Kategória → Termék

B) Főoldalról linkek fontos oldalakra

<!-- Főoldal -->
<nav>
  <a href="/blog/">Blog</a>
  <a href="/termekek/">Termékek</a>
  <a href="/rolunk/">Rólunk</a>
</nav>

<section class="featured-posts">
  <a href="/blog/seo-guide/">SEO Útmutató</a>
  <a href="/blog/link-building/">Link Building</a>
</section>

C) Breadcrumb minden oldalon

<nav aria-label="breadcrumb">
  <ol>
    <li><a href="/">Főoldal</a></li>
    <li><a href="/kategoria/">Kategória</a></li>
    <li>Termék</li>
  </ol>
</nav>

D) Kapcsolódó cikkek (blog)

<aside class="related-posts">
  <h3>Kapcsolódó cikkek</h3>
  <ul>
    <li><a href="/blog/on-page-seo/">On-Page SEO</a></li>
    <li><a href="/blog/link-building/">Link Building</a></li>
  </ul>
</aside>

E) HTML sitemap (felhasználóknak és bot-oknak)

<!-- /sitemap.html -->
<h1>Oldaltérkép</h1>

<h2>Blog</h2>
<ul>
  <li><a href="/blog/seo-guide/">SEO Guide</a></li>
  <li><a href="/blog/link-building/">Link Building</a></li>
  <!-- ... -->
</ul>

<h2>Termékek</h2>
<ul>
  <li><a href="/termekek/ferfi-cipok/">Férfi Cipők</a></li>
  <!-- ... -->
</ul>

7. JavaScript Renderelés Optimalizálása

Probléma:

JavaScript-heavy oldalak (React, Vue, Angular) lassabbak crawlolni → több crawl budget szükséges.

Megoldás - Server-Side Rendering (SSR):

// Next.js SSR példa
export async function getServerSideProps() {
  const products = await fetchProducts();
  
  return {
    props: { products }
  };
}

export default function ProductList({ products }) {
  return (
    <div>
      {products.map(p => <ProductCard key={p.id} product={p} />)}
    </div>
  );
}

Előny:

✅ Kész HTML Googlebot-nak (nincs JS renderelés szükséges)
✅ Gyorsabb crawlolás

Lásd részletesebben: JavaScript SEO cikk

8. Hreflang Tag-ek Optimalizálása

Probléma:

Sok hreflang tag → sok URL crawlolva.

Megoldás:

Csak releváns nyelvekre/régiókra adj hreflang-ot.

<!-- ✅ JÓ - Csak létező verziók -->
<link rel="alternate" hreflang="hu" href="https://example.com/hu/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/" />
<link rel="alternate" hreflang="de" href="https://example.com/de/" />

<!-- ❌ ROSSZ - 20+ hreflang minden oldalon -->
<link rel="alternate" hreflang="hu" href="..." />
<link rel="alternate" hreflang="en" href="..." />
<link rel="alternate" hreflang="de" href="..." />
<link rel="alternate" hreflang="fr" href="..." />
<!-- ... 16 további hreflang -->

Crawl Rate Beállítása

Mi az a crawl rate?

A crawl rate az a sebesség, amivel a Googlebot crawlolja az oldaladat (kérések/másodperc).

Hol állítható be:

Google Search Console → Settings → Crawl rate

Opciók:

Default (ajánlott) - Google automatikusan optimalizálja
Limit crawl rate - Csökkented a crawl rate-et (ha szerver túlterhelt)

⚠️ FONTOS:

Csak CSÖKKENTENI tudod a crawl rate-et
NÖVELNI NEM tudod (Google automatikusan teszi)

Mikor csökkentsd:

Sok 503 Server Error a logokban
Szerver CPU 90%+ terhelés crawloláskor
Host provider figyelmeztetés (túlterhelés)

Általában NE állítsd:

Hadd optimalizálja a Google automatikusan
Ha csökkented → kevesebb oldal crawlolva

Crawl Budget Monitoring

1. Google Search Console Alerts

Beállítás:

Google Search Console → Settings → Email preferences

Figyelj ezekre:

Crawl errors spike - Hirtelen sok hiba
Index coverage issues - Új indexelési problémák
Security issues - Malware, hacked content

2. Heti/Havi Crawl Stats Elemzés

Checklist:

Crawl requests trend (növekvő/stabil?)
Average response time (<300ms?)
503 errors (0 vagy közel 0?)
Crawl rate limit beállítva? (NE legyen!)

3. Index Coverage Report

Checklist:

Submitted URLs indexelve? (sitemap)
“Discovered - currently not indexed” csökken?
Új oldalak indexelődnek naponta?

Crawl Budget Checklist

Szerver Optimalizálás

Hosting - Gyors host (VPS/Cloud, nem shared)
Server response time - <100ms (ideális), <300ms (elfogadható)
CDN - Statikus fájlok (képek, CSS, JS)
Cache - Server-side cache (Redis, Varnish)
GZIP - Kompresszió engedélyezve
HTTP/2 - Engedélyezve (gyorsabb multiplexing)

URL Menedzsment

Robots.txt - Felesleges URL-ek blokkolva (admin, search, filter)
Canonical tag-ek - Duplicate content kezelve
301 redirects - HTTPS, WWW, trailing slash
Soft 404 - Javítva (helyes 404 státusz)
URL Parameters - GSC-ben beállítva (tracking paraméterek)

Sitemap

XML sitemap - Létezik és naprakész
Csak fontos URL-ek - Admin, search, filter kihagyva
Lastmod - Pontos dátumok
Priority - Logikusan beállítva
Sitemap felosztás - Ha 50,000+ URL

Internal Linking

Lapos struktúra - Max 3 kattintás fontos oldalakhoz
Breadcrumb - Minden oldalon
Kapcsolódó tartalmak - Internal linkek
HTML sitemap - /sitemap.html oldal

Monitoring

GSC Crawl Stats - Heti ellenőrzés
Index Coverage - Új problémák figyelése
Log file analysis - Havi elemzés (opcionális)
Alerts - Email értesítések engedélyezve

Következő lépések

Most, hogy megértetted a crawl budget optimalizálást:

Ellenőrizd a GSC Crawl Stats report-ot
Javítsd a szerver válaszidőt (<300ms)
Optimalizáld a robots.txt-et (blokkold felesleges URL-eket)
Fixáld a duplicate content-et (canonical tag-ek)
Javítsd a soft 404-eket
Optimalizáld az XML sitemap-et
Olvasd el a Pagination SEO cikket
Nézd meg az Internal Linking útmutatót

Források

Gyakran Ismételt Kérdések

Mi az a crawl budget?

A crawl budget az az URL mennyiség, amelyet a Googlebot egy adott időszak alatt (jellemzően naponta) crawlol egy weboldalon. Ez két tényezőből áll: (1) Crawl capacity limit - Mennyi URL-t tud technikai szempontból crawlolni anélkül, hogy túlterhelné a szervert, (2) Crawl demand - Mennyire szeretné a Google crawlolni az oldalt (népszerűség, frissítési gyakoriság alapján). A kettő metszete adja a crawl budget-et.

Kinek fontos a crawl budget optimalizálás?

A crawl budget optimalizálás különösen fontos: (1) Nagy weboldalaknál (10,000+ URL), (2) E-commerce oldalaknál (sok termék, gyakori változás), (3) Hírportáloknál (napi új tartalom), (4) Gyakran változó tartalmú oldalaknál. Kis weboldalaknál (<1000 URL) a crawl budget általában NEM probléma - a Google könnyedén crawlolja az összes oldalt. Ha GSC-ben látod, hogy vannak nem-crawlolt URL-ek → akkor foglalkozz a crawl budget-tel.

Mi a különbség a crawl budget és az index budget között?

Crawl budget: Mennyi URL-t crawlol a Google (letöltés, feldolgozás). Index budget: Mennyi URL-t indexel a Google (megjelenik a keresési eredményekben). Nem minden crawlolt URL indexelődik! Google crawlolhat 100,000 URL-t, de csak 50,000-et indexel (alacsony minőség, duplicate content, noindex miatt). Optimalizáld mindkettőt: crawl budget → több fontos oldal crawlolva, index budget → több értékes oldal indexelve.

Hogyan növelhetem a crawl budget-et?

Crawl budget növelése: (1) Javítsd a szerver válaszidőt (gyorsabb host, CDN, cache), (2) Blokkold felesleges URL-eket robots.txt-ben (admin, search, filter), (3) Javítsd az oldal sebességét (Core Web Vitals), (4) Távolíts el duplicate content-et (canonical tag-ek), (5) Fixáld a soft 404-eket és törött linkeket, (6) XML sitemap optimalizálás (csak fontos URL-ek), (7) Növeld a tartalom minőségét (Google gyakrabban crawlolja az értékes oldalakat), (8) Internal linking javítása (mélyebb oldalak elérhetősége).

Mi az a crawl rate és hogyan állíthatom be?

A crawl rate az a sebesség, amivel a Googlebot crawlolja az oldaladat (kérések/másodperc). Google Search Console-ban állítható (Settings → Crawl rate), de CSAK csökkenteni tudod (ha szerver túlterhelt), növelni NEM. A Google automatikusan optimalizálja a crawl rate-et: (1) Szerver sebesség alapján (gyors szerver = magasabb rate), (2) Crawl errors alapján (sok 503 hiba = csökkentett rate), (3) Site authority alapján (magas DA = gyakoribb crawl). Általában NE korlátozd a crawl rate-et, hacsak nincs szerver probléma.

Hogyan látom a crawl stats-okat?

Google Search Console → Settings → Crawl stats report. Láthatod: (1) Total crawl requests (napi crawlolt URL-ek száma), (2) Total download size (KB letöltött adat), (3) Average response time (szerver válaszidő ms-ben), (4) Host status (200, 404, 500 státusz kódok eloszlása), (5) File type (HTML, JavaScript, CSS, képek aránya), (6) Googlebot type (Desktop vs Mobile, különböző bot-ok). Figyelj a trendekre: hirtelen csökkenés a crawl requests-ben = probléma (robots.txt blokk, szerver lassulás, büntetés).