आपके खोजने से पहले, वेब क्रॉलर सैकड़ों अरबों वेबपेजों से जानकारी जुटा कर उसे सर्च इंडेक्स में व्यवस्थित करते हैं.

सर्च की बुनियादी बातें

क्रॉल करने की प्रक्रिया की शुरुआत पहले से क्रॉल की जा चुकीं वेबसाइट और वेबसाइट मालिकों की ओर से दिए गए साइटमैप देखने से होती है. इन वेबसाइट पर जाने के बाद, हमारे क्रॉलर इन पर मौजूद लिंक के ज़रिए और पेज खोजते हैं. यह सॉफ़्टवेयर नई साइट, मौजूदा साइट में हुए बदलाव और बेकार पड़े लिंक पर खास ध्यान देता है. कंप्यूटर प्रोग्राम यह तय करते हैं कि किन साइट को क्रॉल करना है, कितनी बार क्रॉल करना है और हर साइट से कितने पेज लाने हैं.

हम Search Console की सुविधा देते हैं, ताकि साइट के मालिकों को इस बारे में चुनने के विकल्प दे पाएं कि Google उनकी साइट को कैसे क्रॉल करे: वे इस बारे में ज़्यादा जानकारी वाले निर्देश दे सकते हैं कि उनकी साइट के पेज कैसे प्रोसेस किए जाएं.request a recrawl साथ ही, वे “robots.txt” फ़ाइल का इस्तेमाल करके साइट क्रॉल होने की प्रक्रिया से पूरी तरह ऑप्ट-आउट भी कर सकते हैं. Google कभी भी किसी साइट को ज़्यादा क्रॉल करने के लिए, पैसे नहीं लेता — हम सभी वेबसाइटों को एक तरह के ही टूल उपलब्ध करवाते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे बेहतर नतीजे मिल सकें.

क्रॉल करके जानकारी पाना

वेब, लगातार बढ़ रही अरबों किताबों की एक ऐसी लाइब्रेरी है, जिसे प्रबंधित करने का कोई फ़ाइलिंग सिस्टम नहीं है. वेब क्रॉलर नाम के सॉफ़्टवेयर का इस्तेमाल करके हम सार्वजनिक रूप से उपलब्ध वेबपेजों को खोजते हैं. क्रॉलर वेबपेजों को देखते हैं और उन पेजों पर मौजूद लिंक को फ़ॉलो करते हैं, ठीक वैसे ही, जैसे आप वेब पर सामग्री ब्राउज़ करते हैं. वे एक लिंक से दूसरे लिंक पर जाते हैं और उन वेबपेजों का डेटा Google के सर्वर पर वापस लाते हैं.

इंडेक्स करके जानकारी व्यवस्थित करना

जब क्रॉलर को कोई वेबपेज मिलता है, तो हमारे सिस्टम उस पेज की सामग्री ठीक उस तरह से पेश करते हैं जैसे कि एक ब्राउज़र करता है. हम खास संकेतों पर ध्यान देते हैं — कीवर्ड से लेकर वेबसाइट पर मौजूद ताज़ा जानकारी तक — और हम सर्च इंडेक्स में इस सब पर नज़र रखते हैं.

'Google सर्च' इंडेक्स में अरबों वेबपेज हैं और इसका आकार 100,000,000 गीगाबाइट से भी ज़्यादा है. यह किसी किताब के पीछे दिए गए इंडेक्स की तरह है, जिसमें हमारे इंडेक्स किए गए हर वेबपेज में शामिल हर शब्द के लिए एक एंट्री होती है. जब हम किसी वेबपेज को इंडेक्स में शामिल करते हैं, तो हम पेज को इंडेक्स में मौजूद सभी शब्दों की एंट्री में जोड़ देते हैं.

 

 

नॉलेज ग्राफ़ के ज़रिए हम आपके लिए ज़रूरी लोगों, स्थानों और चीजें को बेहतर तरीके से समझने के अपने दायरे को लगातार बढ़ाने की कोशिश कर रहे हैं. अब हम सिर्फ़ कीवर्ड मिलान तक ही सीमित नहीं हैं. ऐसा करने के लिए हम सिर्फ़ वेबपेज के बारे में जानकारी ही नहीं, बल्कि और तरह की जानकारी को भी व्यवस्थित करते हैं. अब Google सर्च की मदद से आप दुनिया की प्रमुख लाइब्रेरी में मौजूद लाखों किताबों में से कोई लेख ढूंढ सकते हैं, अपनी स्थानीय सार्वजनिक परिवहन एजेंसी से गाड़ियों का समय जान सकते हैं. आप वर्ल्ड बैंक जैसी सार्वजनिक संस्थाओं के आंकड़े भी देख सकते हैं.