Crawl Budget Optimalizálás
Mi az a Crawl Budget?
A crawl budget az az URL mennyiség, amelyet a Googlebot egy adott időszak alatt (jellemzően naponta) crawlol egy weboldalon. Ez azt határozza meg, hogy a Google mennyire “mélyrehatóan” tudja felfedezni és indexelni az oldaladat.
Két fő komponens:
1. Crawl Capacity Limit (Kapacitás limit)
Mi ez?
A maximális crawlolási sebesség, amit a Google használhat anélkül, hogy túlterhelné a szervert.
Tényezők:
- Szerver sebesség - Gyors válaszidő = magasabb limit
- Crawl health - Kevés hiba (503, timeout) = magasabb limit
- Site authority - Magas DA/PageRank = magasabb limit
Példa:
- Lassú szerver (500ms válaszidő) → 100 URL/nap
- Gyors szerver (50ms válaszidő) → 10,000 URL/nap
2. Crawl Demand (Igény)
Mi ez?
Mennyire szeretné a Google crawlolni az oldaladat - népszerűség és frissítés alapján.
Tényezők:
- Népszerűség - Sok forgalom, backlink → magasabb demand
- Frissítési gyakoriság - Napi új tartalom → gyakoribb crawl
- URL felfedezés - Új URL-ek (sitemap, linkek) → több crawl
Példa:
- Híroldalak (napi új cikkek) → magas demand
- Statikus portfolio (ritkán frissül) → alacsony demand
A Crawl Budget Képlet
Crawl Budget = MIN(Crawl Capacity Limit, Crawl Demand)Példák:
Eset 1: Gyors szerver, de alacsony demand
- Capacity: 10,000 URL/nap
- Demand: 500 URL/nap
- Crawl Budget: 500 URL/nap (demand határ)
Eset 2: Lassú szerver, magas demand
- Capacity: 200 URL/nap
- Demand: 5,000 URL/nap
- Crawl Budget: 200 URL/nap (capacity határ)
Eset 3: Kiegyensúlyozott
- Capacity: 5,000 URL/nap
- Demand: 4,800 URL/nap
- Crawl Budget: 4,800 URL/nap (optimális)
Kinek fontos a Crawl Budget?
Crawl budget FONTOS, ha:
✅ 10,000+ URL van az oldalon
✅ E-commerce (gyakori termékváltozás, sok URL)
✅ Hírportál (napi új tartalom)
✅ UGC oldal (user-generated content, fórum, közösségi)
✅ Faceted navigation (sok filter kombináció)
Crawl budget NEM KRITIKUS, ha:
❌ Kis oldal (<1,000 URL)
❌ Statikus tartalom (ritkán frissül)
❌ Minden oldal indexelve (GSC szerint)
Google hivatalos álláspont:
"Crawl budget is not something most publishers have to worry about. If new pages on your site tend to be crawled the same day they're published, crawl budget is not something you need to focus on."
— Gary Illyes, Google
Hogyan ellenőrzöd?
Google Search Console → Sitemaps
- Submitted vs Indexed URL-ek
- Ha Submitted >> Indexed → lehet crawl budget probléma
Google Search Console → Settings → Crawl stats
- Napi crawlolt URL-ek száma
- Ha csökkenő trend → gond van
Crawl Budget Problémák Azonosítása
1. Google Search Console - Crawl Stats
Hol találod:
Google Search Console → Settings → Crawl stats
Mit néz:
A) Total crawl requests (Napi crawlolt URL-ek)
Grafikon: Utolsó 90 nap
- Dec 1: 2,500 URL
- Dec 15: 2,400 URL
- Jan 1: 2,300 URL
- Jan 15: 2,200 URL (csökkenő trend ❌)Jó: Stabil vagy növekvő
Rossz: Csökkenő trend → Vizsgáld meg az okokat
B) Average response time (Átlagos válaszidő)
Optimális: <100ms
Elfogadható: 100-300ms
Lassú: 300-500ms
Kritikus: >500ms ❌Ha >500ms:
- Lassú host → Válts jobb hosting-ra
- Nincs cache → Implementálj cache-t
- Lassú adatbázis → Optimalizáld query-ket
C) Host status (HTTP státusz kódok)
Ideális eloszlás:
- 200 OK: 95%+
- 301/302 Redirect: <3%
- 404 Not Found: <1%
- 503 Server Error: 0%Ha sok 503 hiba:
- Google automatikusan csökkenti a crawl rate-et
- Fix: Szerver upgrade, cache, CDN
D) File type (Crawlolt fájltípusok)
Tipikus eloszlás:
- HTML: 40-60%
- JavaScript: 20-30%
- CSS: 10-15%
- Képek: 10-20%
- Egyéb: <5%Ha JavaScript/CSS túl magas:
- Lehet, hogy felesleges fájlokat crawlol
- Optimalizáld robots.txt-et
2. Google Search Console - Index Coverage
Hol találod:
Google Search Console → Index → Coverage
Figyelj ezekre:
A) Discovered - currently not indexed
URL-ek, amelyeket a Google felfedezett, de nem indexelt.
Okok:
- Alacsony minőség (vékony tartalom)
- Duplicate content
- Crawl budget kimerült (nem jutott el ide)
Megoldás:
- Javítsd a tartalom minőségét
- Canonical tag-ek (duplicate content)
- Internal linking (mélyebb oldalak crawlolhatósága)
B) Crawled - currently not indexed
URL-ek, amelyeket a Google crawlolt, de nem indexelt.
Okok:
- Alacsony minőség
- Soft 404
- Noindex tag
Megoldás:
- Ellenőrizd az oldal minőségét
- Távolítsd el a noindex tag-et (ha van)
- Javítsd a tartalmat
3. Log File Analysis
Mi ez?
A szerver access log fájljainak elemzése - látod pontosan mit crawlolt a Googlebot.
Példa log sor:
66.249.66.1 - - [20/Jan/2026:10:30:45] "GET /blog/page/5/ HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"Mit néz:
- Crawlolt URL-ek - Mik a leggyakrabban crawlolt oldalak?
- Nem crawlolt URL-ek - Fontos oldalak hiányoznak?
- Felesleges URL-ek - Admin, search, filter page-ek crawlolva?
- Crawl frequency - Milyen gyakran crawlol (naponta, hetente)?
Eszközök log elemzéshez:
- Screaming Frog Log File Analyzer
- Oncrawl
- Botify
- Saját script (Python, AWK)
Példa Python script:
import re
from collections import Counter
googlebot_pattern = r'Googlebot'
url_pattern = r'"GET (.*?) HTTP'
crawled_urls = []
with open('access.log', 'r') as f:
for line in f:
if re.search(googlebot_pattern, line):
match = re.search(url_pattern, line)
if match:
crawled_urls.append(match.group(1))
# Top 10 leggyakrabban crawlolt URL
top_urls = Counter(crawled_urls).most_common(10)
for url, count in top_urls:
print(f"{count} - {url}")Crawl Budget Optimalizálási Stratégiák
1. Szerver Válaszidő Csökkentése
Miért fontos:
Gyors szerver → Google több oldalt tud crawlolni ugyanannyi idő alatt.
Optimalizálási lépések:
A) Hosting upgrade
Shared hosting (300-500ms) → VPS/Cloud (50-150ms)B) CDN használata
<!-- Statikus fájlok (CSS, JS, képek) CDN-ről -->
<link rel="stylesheet" href="https://cdn.example.com/styles.css">
<script src="https://cdn.example.com/app.js"></script>
<img src="https://cdn.example.com/hero.jpg" alt="Hero">Előnyök:
- ✅ Képek, CSS, JS gyorsabb betöltés
- ✅ Szerver terhelés csökken
- ✅ Googlebot gyorsabban crawlol
C) Server-side cache
WordPress példa (WP Rocket):
// wp-config.php
define('WP_CACHE', true);Apache .htaccess cache:
<IfModule mod_expires.c>
ExpiresActive On
ExpiresByType image/jpg "access plus 1 year"
ExpiresByType image/jpeg "access plus 1 year"
ExpiresByType image/png "access plus 1 year"
ExpiresByType text/css "access plus 1 month"
ExpiresByType application/javascript "access plus 1 month"
</IfModule>D) Adatbázis optimalizálás
-- MySQL index hozzáadása (gyorsabb query-k)
ALTER TABLE posts ADD INDEX idx_post_date (post_date);
ALTER TABLE posts ADD INDEX idx_post_status (post_status);
-- Lassú query-k azonosítása
SHOW PROCESSLIST;E) GZIP kompresszió
Apache .htaccess:
<IfModule mod_deflate.c>
AddOutputFilterByType DEFLATE text/html text/plain text/xml text/css application/javascript
</IfModule>Nginx:
gzip on;
gzip_types text/plain text/css application/json application/javascript text/xml;2. Felesleges URL-ek Blokkolása (robots.txt)
Miért fontos:
Ha a Google felesleges URL-eket crawlol (admin, search, filter) → crawl budget pazarlás.
Mit blokkoljunk:
A. Admin/Login oldalak
User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /wp-admin/
Disallow: /user/B. Keresési eredmények
Disallow: /search/
Disallow: /?s=
Disallow: /*?q=C. Szűrő/Faceted navigation URL-ek
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?color=
Disallow: /*?price=D. Tracking/Session paraméterek
Disallow: /*?sessionid=
Disallow: /*?sid=
Disallow: /*?utm_source=E. PDF/Doc fájlok (ha nem fontosak)
Disallow: /*.pdf$
Disallow: /*.doc$⚠️ FONTOS:
NE blokkold:
- CSS/JavaScript (Google rendereléshez szükséges)
- Fontos kategória oldalak
- Termék oldalak
Tesztelés:
Google Search Console → robots.txt Tester
3. Duplicate Content Megszüntetése
Miért probléma:
Ha ugyanaz a tartalom több URL-en elérhető → Google crawlolja mindegyiket → crawl budget pazarlás.
Példák:
http://example.com/product/
https://example.com/product/
http://www.example.com/product/
https://www.example.com/product/
/product/
/product
/product/index.html
/category/?page=1
/category/Megoldás A - Canonical tag:
<!-- Minden URL ugyanarra a canonical-ra mutat -->
<link rel="canonical" href="https://www.example.com/product/" />Megoldás B - 301 Redirect:
# Apache .htaccess
# HTTP → HTTPS
RewriteCond %{HTTPS} off
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1 [L,R=301]
# Non-WWW → WWW
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteRule ^(.*)$ https://www.%{HTTP_HOST}/$1 [L,R=301]
# Trailing slash hozzáadása
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_URI} !(.*)/$
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1/ [L,R=301]Megoldás C - URL Parameters (Google Search Console):
Google Search Console → Settings → URL Parameters
Parameter: sessionid
Purpose: Session tracking
Crawl: No URLs4. Soft 404-ek Javítása
Mi az a soft 404?
Olyan oldal, amely 200 OK státuszt ad vissza, de üres vagy hiba tartalommal.
Példa:
<!-- 200 OK státusz, de tartalom üres -->
<html>
<body>
<h1>Nincs találat</h1>
<p>A keresett termék nem található.</p>
</body>
</html>Miért rossz:
- Google crawlolja, de nincs értelme
- Crawl budget pazarlás
Hogyan azonosítod:
Google Search Console → Index → Coverage → Soft 404
Megoldás:
// PHP példa - helyes 404 státusz
header("HTTP/1.1 404 Not Found");
echo "<h1>404 - Oldal nem található</h1>";
exit();5. XML Sitemap Optimalizálás
Miért fontos:
Az XML sitemap jelzi a Google-nek, hogy melyek a fontos URL-ek.
Best practices:
A) Csak fontos URL-ek a sitemap-ben
<!-- ✅ JÓ - Fontos oldalak -->
<url>
<loc>https://example.com/blog/seo-guide/</loc>
<lastmod>2026-01-20</lastmod>
<priority>0.8</priority>
</url>
<!-- ❌ ROSSZ - Admin oldal -->
<url>
<loc>https://example.com/admin/</loc>
</url>B) Lastmod pontos dátumokkal
<lastmod>2026-01-20T10:30:00+00:00</lastmod>C) Priority használata
<priority>1.0</priority> <!-- Főoldal -->
<priority>0.8</priority> <!-- Fontos kategóriák -->
<priority>0.6</priority> <!-- Blogok, termékek -->
<priority>0.4</priority> <!-- Kevésbé fontos -->D) Sitemap felosztása (50,000+ URL)
<!-- sitemap_index.xml -->
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://example.com/sitemap_pages.xml</loc>
<lastmod>2026-01-20</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/sitemap_blog.xml</loc>
<lastmod>2026-01-20</lastmod>
</sitemap>
<sitemap>
<loc>https://example.com/sitemap_products.xml</loc>
<lastmod>2026-01-20</lastmod>
</sitemap>
</sitemapindex>E) Dinamikus sitemap (WordPress):
// sitemap.php
header('Content-Type: application/xml');
echo '<?xml version="1.0" encoding="UTF-8"?>';
echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">';
$posts = get_posts(array('numberposts' => -1));
foreach ($posts as $post) {
echo '<url>';
echo '<loc>' . get_permalink($post->ID) . '</loc>';
echo '<lastmod>' . get_the_modified_date('c', $post->ID) . '</lastmod>';
echo '<priority>0.8</priority>';
echo '</url>';
}
echo '</urlset>';6. Internal Linking Javítása
Miért fontos:
Jó internal linking → Googlebot könnyebben felfedezi a mélyebb oldalakat.
Stratégiák:
A) Shallow site structure (lapos struktúra)
❌ ROSSZ - Mély struktúra (4+ kattintás):
Home → Kategória → Alkategória → Sub-alkategória → Termék
✅ JÓ - Lapos struktúra (2-3 kattintás):
Home → Kategória → TermékB) Főoldalról linkek fontos oldalakra
<!-- Főoldal -->
<nav>
<a href="/blog/">Blog</a>
<a href="/termekek/">Termékek</a>
<a href="/rolunk/">Rólunk</a>
</nav>
<section class="featured-posts">
<a href="/blog/seo-guide/">SEO Útmutató</a>
<a href="/blog/link-building/">Link Building</a>
</section>C) Breadcrumb minden oldalon
<nav aria-label="breadcrumb">
<ol>
<li><a href="/">Főoldal</a></li>
<li><a href="/kategoria/">Kategória</a></li>
<li>Termék</li>
</ol>
</nav>D) Kapcsolódó cikkek (blog)
<aside class="related-posts">
<h3>Kapcsolódó cikkek</h3>
<ul>
<li><a href="/blog/on-page-seo/">On-Page SEO</a></li>
<li><a href="/blog/link-building/">Link Building</a></li>
</ul>
</aside>E) HTML sitemap (felhasználóknak és bot-oknak)
<!-- /sitemap.html -->
<h1>Oldaltérkép</h1>
<h2>Blog</h2>
<ul>
<li><a href="/blog/seo-guide/">SEO Guide</a></li>
<li><a href="/blog/link-building/">Link Building</a></li>
<!-- ... -->
</ul>
<h2>Termékek</h2>
<ul>
<li><a href="/termekek/ferfi-cipok/">Férfi Cipők</a></li>
<!-- ... -->
</ul>7. JavaScript Renderelés Optimalizálása
Probléma:
JavaScript-heavy oldalak (React, Vue, Angular) lassabbak crawlolni → több crawl budget szükséges.
Megoldás - Server-Side Rendering (SSR):
// Next.js SSR példa
export async function getServerSideProps() {
const products = await fetchProducts();
return {
props: { products }
};
}
export default function ProductList({ products }) {
return (
<div>
{products.map(p => <ProductCard key={p.id} product={p} />)}
</div>
);
}Előny:
- ✅ Kész HTML Googlebot-nak (nincs JS renderelés szükséges)
- ✅ Gyorsabb crawlolás
Lásd részletesebben: JavaScript SEO cikk
8. Hreflang Tag-ek Optimalizálása
Probléma:
Sok hreflang tag → sok URL crawlolva.
Megoldás:
Csak releváns nyelvekre/régiókra adj hreflang-ot.
<!-- ✅ JÓ - Csak létező verziók -->
<link rel="alternate" hreflang="hu" href="https://example.com/hu/" />
<link rel="alternate" hreflang="en" href="https://example.com/en/" />
<link rel="alternate" hreflang="de" href="https://example.com/de/" />
<!-- ❌ ROSSZ - 20+ hreflang minden oldalon -->
<link rel="alternate" hreflang="hu" href="..." />
<link rel="alternate" hreflang="en" href="..." />
<link rel="alternate" hreflang="de" href="..." />
<link rel="alternate" hreflang="fr" href="..." />
<!-- ... 16 további hreflang -->Crawl Rate Beállítása
Mi az a crawl rate?
A crawl rate az a sebesség, amivel a Googlebot crawlolja az oldaladat (kérések/másodperc).
Hol állítható be:
Google Search Console → Settings → Crawl rate
Opciók:
- Default (ajánlott) - Google automatikusan optimalizálja
- Limit crawl rate - Csökkented a crawl rate-et (ha szerver túlterhelt)
⚠️ FONTOS:
- Csak CSÖKKENTENI tudod a crawl rate-et
- NÖVELNI NEM tudod (Google automatikusan teszi)
Mikor csökkentsd:
- Sok 503 Server Error a logokban
- Szerver CPU 90%+ terhelés crawloláskor
- Host provider figyelmeztetés (túlterhelés)
Általában NE állítsd:
- Hadd optimalizálja a Google automatikusan
- Ha csökkented → kevesebb oldal crawlolva
Crawl Budget Monitoring
1. Google Search Console Alerts
Beállítás:
Google Search Console → Settings → Email preferences
Figyelj ezekre:
- Crawl errors spike - Hirtelen sok hiba
- Index coverage issues - Új indexelési problémák
- Security issues - Malware, hacked content
2. Heti/Havi Crawl Stats Elemzés
Checklist:
- Crawl requests trend (növekvő/stabil?)
- Average response time (<300ms?)
- 503 errors (0 vagy közel 0?)
- Crawl rate limit beállítva? (NE legyen!)
3. Index Coverage Report
Checklist:
- Submitted URLs indexelve? (sitemap)
- “Discovered - currently not indexed” csökken?
- Új oldalak indexelődnek naponta?
Crawl Budget Checklist
Szerver Optimalizálás
- Hosting - Gyors host (VPS/Cloud, nem shared)
- Server response time - <100ms (ideális), <300ms (elfogadható)
- CDN - Statikus fájlok (képek, CSS, JS)
- Cache - Server-side cache (Redis, Varnish)
- GZIP - Kompresszió engedélyezve
- HTTP/2 - Engedélyezve (gyorsabb multiplexing)
URL Menedzsment
- Robots.txt - Felesleges URL-ek blokkolva (admin, search, filter)
- Canonical tag-ek - Duplicate content kezelve
- 301 redirects - HTTPS, WWW, trailing slash
- Soft 404 - Javítva (helyes 404 státusz)
- URL Parameters - GSC-ben beállítva (tracking paraméterek)
Sitemap
- XML sitemap - Létezik és naprakész
- Csak fontos URL-ek - Admin, search, filter kihagyva
- Lastmod - Pontos dátumok
- Priority - Logikusan beállítva
- Sitemap felosztás - Ha 50,000+ URL
Internal Linking
- Lapos struktúra - Max 3 kattintás fontos oldalakhoz
- Breadcrumb - Minden oldalon
- Kapcsolódó tartalmak - Internal linkek
- HTML sitemap - /sitemap.html oldal
Monitoring
- GSC Crawl Stats - Heti ellenőrzés
- Index Coverage - Új problémák figyelése
- Log file analysis - Havi elemzés (opcionális)
- Alerts - Email értesítések engedélyezve
Következő lépések
Most, hogy megértetted a crawl budget optimalizálást:
- Ellenőrizd a GSC Crawl Stats report-ot
- Javítsd a szerver válaszidőt (<300ms)
- Optimalizáld a robots.txt-et (blokkold felesleges URL-eket)
- Fixáld a duplicate content-et (canonical tag-ek)
- Javítsd a soft 404-eket
- Optimalizáld az XML sitemap-et
- Olvasd el a Pagination SEO cikket
- Nézd meg az Internal Linking útmutatót
Források
- Google Search Central: Crawl Budget Management
- Google: Large Site Owner’s Guide to Managing Crawl Budget
- Google Search Console: Crawl Stats Report
Gyakran Ismételt Kérdések
Mi az a crawl budget?
A crawl budget az az URL mennyiség, amelyet a Googlebot egy adott időszak alatt (jellemzően naponta) crawlol egy weboldalon. Ez két tényezőből áll: (1) Crawl capacity limit - Mennyi URL-t tud technikai szempontból crawlolni anélkül, hogy túlterhelné a szervert, (2) Crawl demand - Mennyire szeretné a Google crawlolni az oldalt (népszerűség, frissítési gyakoriság alapján). A kettő metszete adja a crawl budget-et.
Kinek fontos a crawl budget optimalizálás?
A crawl budget optimalizálás különösen fontos: (1) Nagy weboldalaknál (10,000+ URL), (2) E-commerce oldalaknál (sok termék, gyakori változás), (3) Hírportáloknál (napi új tartalom), (4) Gyakran változó tartalmú oldalaknál. Kis weboldalaknál (<1000 URL) a crawl budget általában NEM probléma - a Google könnyedén crawlolja az összes oldalt. Ha GSC-ben látod, hogy vannak nem-crawlolt URL-ek → akkor foglalkozz a crawl budget-tel.
Mi a különbség a crawl budget és az index budget között?
Crawl budget: Mennyi URL-t crawlol a Google (letöltés, feldolgozás). Index budget: Mennyi URL-t indexel a Google (megjelenik a keresési eredményekben). Nem minden crawlolt URL indexelődik! Google crawlolhat 100,000 URL-t, de csak 50,000-et indexel (alacsony minőség, duplicate content, noindex miatt). Optimalizáld mindkettőt: crawl budget → több fontos oldal crawlolva, index budget → több értékes oldal indexelve.
Hogyan növelhetem a crawl budget-et?
Crawl budget növelése: (1) Javítsd a szerver válaszidőt (gyorsabb host, CDN, cache), (2) Blokkold felesleges URL-eket robots.txt-ben (admin, search, filter), (3) Javítsd az oldal sebességét (Core Web Vitals), (4) Távolíts el duplicate content-et (canonical tag-ek), (5) Fixáld a soft 404-eket és törött linkeket, (6) XML sitemap optimalizálás (csak fontos URL-ek), (7) Növeld a tartalom minőségét (Google gyakrabban crawlolja az értékes oldalakat), (8) Internal linking javítása (mélyebb oldalak elérhetősége).
Mi az a crawl rate és hogyan állíthatom be?
A crawl rate az a sebesség, amivel a Googlebot crawlolja az oldaladat (kérések/másodperc). Google Search Console-ban állítható (Settings → Crawl rate), de CSAK csökkenteni tudod (ha szerver túlterhelt), növelni NEM. A Google automatikusan optimalizálja a crawl rate-et: (1) Szerver sebesség alapján (gyors szerver = magasabb rate), (2) Crawl errors alapján (sok 503 hiba = csökkentett rate), (3) Site authority alapján (magas DA = gyakoribb crawl). Általában NE korlátozd a crawl rate-et, hacsak nincs szerver probléma.
Hogyan látom a crawl stats-okat?
Google Search Console → Settings → Crawl stats report. Láthatod: (1) Total crawl requests (napi crawlolt URL-ek száma), (2) Total download size (KB letöltött adat), (3) Average response time (szerver válaszidő ms-ben), (4) Host status (200, 404, 500 státusz kódok eloszlása), (5) File type (HTML, JavaScript, CSS, képek aránya), (6) Googlebot type (Desktop vs Mobile, különböző bot-ok). Figyelj a trendekre: hirtelen csökkenés a crawl requests-ben = probléma (robots.txt blokk, szerver lassulás, büntetés).