सर्च एल्गोरिदम कैसे काम करते हैं

वेब पर मौजूद असीमित सामग्री को देखते हुए, उसे सिलसिलेवार मुहैया कराने में किसी तरह की मदद के बिना अपनी ज़रूरत की चीज़ खोज पाना करीब-करीब नामुमकिन है. Google रैंकिंग सिस्टम ठीक यही काम करने के लिए बनाए गए हैं: ये सिस्टम हमारी सर्च इंडेक्स में सैकड़ों अरबों वेबपेजों को क्रम से लगाते हैं, ताकि आपको काम के और फ़ायदेमंद नतीजे झटपट मिल सकें. साथ ही, इन पेजों को इस तरह दिखाया जाता है कि आपको खोजी जा रही चीज़ पाने में देर न लगे.

इन रैंकिंग सिस्टम में एक नहीं, बल्कि एल्गोरिद्म की पूरी सीरीज़ होती है. सबसे ज़्यादा काम की जानकारी मुहैया कराने के लिए खोज एल्गोरिद्म कई चीज़ों पर नज़र डालते हैं. इनमें आपकी क्वेरी के शब्द, पेजों की उपयोगिता और ज़रूरत के मुताबिक होना, स्रोतों की विशेषज्ञता के साथ ही आपकी जगह की जानकारी और सेटिंग शामिल हैं. हर चीज़ पर लागू होने वाली विशेषता में आपकी क्वेरी के हिसाब से फ़र्क़ होता है—जैसे कि शब्दकोश परिभाषाओं की क्वेरी के मुकाबले ताज़ा खबरों की क्वेरी का जवाब देते समय सामग्री कितनी नई है इसकी अहम भूमिका होती है.

जाँच करने की हमारी एक मुश्किल प्रक्रिया है जिसमें लाइव टेस्ट करने वाले और सर्च क्वालिटी आंकने वाले दुनिया भर के हजारों बाहरी प्रशिक्षित लोग दोनों ही शामिल होते हैं. इसकी मदद से हम सर्च एल्गोरिद्म को ज़रूरत के मुताबिक होने और क्वालिटी के ऊंचे मानकों की शर्त पूरी करने वाले बना पाते हैं. क्वालिटी आंकने वाले ये लोग 'सर्च' एल्गोरिद्म के लिए हमारे लक्ष्य तय करने वाले सख्‍त दिशानिर्देशों का पालन करते हैं और इन्हें हर कोई देख सकता है.

उन खास बातों के बारे में ज़्यादा जानें जो आपकी क्वेरी के लिए मिलने वाले नतीजों को तय करती हैं:

  • आपके शब्दों का विश्लेषण करना

    आपके शब्दों का विश्लेषण करना

    अच्छे जवाब दिखाने के लिए, आपकी खोज का मतलब समझना बहुत ज़रूरी है. इसलिए, आपकी खोज से जुड़ी जानकारी वाले पेज ढूंढने के लिए, हमारा पहला कदम होता है आपकी सर्च क्वेरी की जांच करके उसके शब्दों का मतलब समझना. हम भाषा के मॉडल बनाकर यह समझने की कोशिश करते हैं कि इंडेक्स में किस तरह के शब्दों के समूह ढूंढने चाहिए.

    इसमें कई ऐसे साधारण दिखने वाले कदम भी शामिल हैं, जैसे किसी शब्द को लिखने में हुई गलती (वर्तनी की गलती) . इसके साथ ही इसका दायरा बढ़ाकर यह समझना भी शामिल है कि आपने किस तरह की क्वेरी दर्ज की है. इसके लिए हम मूल निवासियों की भाषा को समझने के लिए बनाई गई अपनी नई तकनीक का इस्तेमाल करते हैं. उदाहरण के लिए, हमारे समानार्थी शब्द सिस्टम की मदद से सर्च को आपके लिखे शब्द समझना आसान हो जाता है, भले ही किसी शब्द के कई मतलब हों. इस सिस्टम को बनाने में पांच साल से ज़्यादा समय लगा और यह कई भाषाओं में की गईं 30% से ज़्यादा खोज के नतीजों को काफ़ी सुधार देता है.

    हम यह भी समझने की कोशिश करते हैं कि आप किस तरह की जानकारी खोज रहे हैं. क्या यह किसी बहुत खास जानकारी से जुड़ी खोज है या एक व्यापक क्वेरी है? क्या इसमें 'समीक्षा', 'तस्वीरें' या 'खुले रहने का समय' जैसे शब्द हैं, जो जानकारी खोजने के पीछे एक खास वजह थी? क्या आप 'चर्चा में' चल रहे कीवर्ड को खोज रहे हैं जिसका यह मतलब है कि आप उस दिन किसी सामग्री को प्रकाशित करना चाहते हैं? या आप अपने आस-पास होने वाले कारोबार के बारे में खोज रहे हैं और उसी जगह से जुड़ी जानकारी पाना चाहते हैं?

    क्वेरी को इस तरह बांटने का खास तौर पर अहम पहलू हमारा यह विश्लेषण है कि आपकी क्वेरी में नई सामग्री मांगी जा रही है या नहीं. अगर आप ऐसे कीवर्ड खोजते हैं जो रुझान में हैं, तो हमारे ताज़ा जानकारी देने वाले एल्गोरिदम, इसका मतलब ऐसे संकेत के रूप में निकालेंगे कि पुराने पेजों के मुकाबले अप-टू-डेट जानकारी फायदेमंद हो सकती है. इसका मतलब है कि जब आप नए “एनएफ़एल स्कोर”, “डांसिंग विद द स्टार्स” के नतीजे या “एक्सॉन की कमाई” खोजते हैं, तो आपको नई जानकारी दिखाई देगी.

  • आपकी खोज से मिलान करना

    आपकी खोज से मिलान करना

    फिर, हम उन वेबपेज को ढूंढते हैं, जिन पर आपकी क्वेरी से मिलती-जुलती जानकारी होती है. जब आप कुछ खोजते हैं, तो सबसे बुनियादी स्तर पर हमारे एल्गोरिदम आपके सर्च के लिए शब्द को इंडेक्स में ढूंढते हैं. इंडेक्स के ज़रिए सही वेबपेज ढूंढे जाते हैं. वे जांचते हैं कि वे कीवर्ड, पेज पर कितनी बार और कहां दिखाई दे रहे हैं. जैसे, क्या कीवर्ड मुख्य शीर्षक में, शीर्षकों में या फिर लेख के बीच में कहीं दिख रहे हैं.

    जानकारी काम की है, इसका सबसे बड़ा संकेत यह है कि वेबपेज में वही कीवर्ड दिए गए हों जो आपकी सर्च क्वेरी में हैं. अगर कीवर्ड, पेज पर दिखाई देते हैं या हेडिंग या टेक्स्ट के रूप में दिखाई देते हैं, तो जानकारी काम की हो सकती है. सर्च किए गए नतीजे क्वेरी के समान हैं या नहीं, यह पता लगाने के लिए कीवर्ड का मिलान करने के बजाय, हम इकट्ठा और अनियमित किए गए इंटरैक्शन डेटा का इस्तेमाल करते हैं. हमें उस डेटा से ऐसे संकेत मिलते हैं जिनकी मदद से हमारे मशीन से सीखने वाले सिस्टम काम की जानकारी का बेहतर अनुमान लगा पाते हैं.

    कीवर्ड मिलाने के साथ, एल्गोरिदम इस बात की जांच करने के लिए संकेत ढूंढते हैं कि जो सर्च नतीजे दिखाई दे सकते हैं, वे किस हद तक इस्तेमाल करने वालों को वही दिखाएंगे, जिसे वे खोज रहे हैं. जब आप 'कुत्तों' के बारे में खोज रहे हैं, तो शायद आप कोई ऐसा पेज नहीं देखना चाहेंगे जिस पर सैंकड़ों बार 'कुत्ता' शब्द लिखा हो. हम यह समझने की कोशिश करते हैं कि क्या पेज पर आपकी क्वेरी का जवाब है या वहां पर क्या सिर्फ़ आपकी क्वेरी ही तो नहीं दोहरा दी गई है. तो, सर्च एल्गोरिदम यह जांचते हैं कि क्या पेजों पर आपकी क्वेरी से जुड़ी सामग्री है — जैसे, कुत्तों की तस्वीरें, वीडियो या फिर यहां तक कि उनकी किस्मों की सूची. आखिर में, हम यह जांचते हैं कि पेज उसी भाषा में हो, जिस भाषा में आपका सवाल है. इस तरह हम आपकी पसंदीदा भाषा में लिखे पेजों को आपको पहले दिखाते हैं.

    यह ध्यान में रखना जरूरी है कि भले ही हमारा सिस्टम जानकारी का पता लगाने के लिए इस तरह के आकलन किए जा सकने वाले संकेतों का पता लगाता है, लेकिन उन्हें विषय से जुड़े सिद्धांतों जैसे पेज की सामग्री का नज़रिया या राजनीतिक झुकाव का विश्लेषण करने के लिए डिज़ाइन नहीं किया गया है.

  • उपयोगी पेजों की रैंकिंग करना

    उपयोगी पेजों की रैंकिंग करना

    किसी भी क्वेरी के लिए ऐसे हज़ारों या लाखों वेबपेज होते हैं, जिन पर दी गई जानकारी क्वेरी से जुड़ी हो सकती है. इसलिए, सबसे अच्छे पेजों को पहले रैंक करना बहुत ज़रूरी होता है. ऐसा करने के लिए भी हम एल्गोरिदम लिखते हैं, ताकि यह जांच की जा सके कि ये वेबपेज किस हद तक फायदेमंद हैं.

    ये एल्गोरिदम सैंकड़ों अलग-अलग पहलुओं की जांच करके वेब पर उपलब्ध सबसे अच्छी जानकारी ढूंढने की कोशिश करते हैं. जिन पहलुओं की जांच की जाती है उनमें, सामग्री का नयापन, आपके खोज शब्द कितनी बार दिखाए दिए हैं और पेज पर उपयोगकर्ताओं का अनुभव शामिल हैं. सामग्री के भरोसेमंद और प्रामाणिक होने का आकलन करने के लिए, हम ऐसी साइटें ढूंढते हैं जिन्हें एक जैसी क्वेरी के लिए, बहुत सारे लोगों ने अहमियत दी है. अगर उसी विषय से जुड़ी दूसरी खास वेबसाइट भी पेज के लिंक देती हैं, तो इसका मतलब है कि जानकारी की क्वालिटी अच्छी है.

    वेब पर ऐसी कई स्पैम साइटें हैं जो धोखेबाज़ी के तरीकों से सर्च नतीजों में ऊपर आने की कोशिश करती हैं. जैसे, बार-बार कीवर्ड दोहराना या PageRank को बढ़ाने वाले लिंक खरीदना. ये साइट, उपयोगकर्ताओं को खराब अनुभव देती हैं और Google उपयोगकर्ताओं को नुकसान पहुंचा सकती हैं या उन्हें गुमराह कर सकती हैं. इसलिए हम स्पैम की पहचान करने और Google के वेबमास्टर दिशा-निर्देशों का उल्लंघन करने वाली साइटों को अपने नतीजों से हटाने के लिए एल्गोरिदम लिखते हैं.

    वेब पर सामग्री और जानकारी का बड़ा इकोसिस्टम लगातार बदल रहा है. हम अपने सिस्टम की क्वालिटी को लगातार मापते हैं और इसका मूल्यांकन करते हैं. हम ऐसा इसलिए करते हैं ताकि यह पक्का कर सकें कि हम जो जानकारी आपको दे रहे हैं वह उपयोगी हो. साथ ही, कोशिश है कि हम आपको बेहतर नतीजे दें, जिससे हमारे ऊपर आपका भरोसा बना रहे.

  • सबसे बेहतर परिणाम देना

    सबसे बेहतर परिणाम देना

    आपको नतीजे दिखाने से पहले, हम यह जांच करते हैं कि आपकी सर्च से जुड़ी मिलने वाली सारी जानकारी आपस में किस तरह से मेल खाती है: क्या सर्च नतीजों में सिर्फ़ एक ही बात से जुड़ी जानकारी दी गई है, या उसमें कई और बातें भी शामिल हैं? क्या एक छोटी सी बात की जानकारी से जुड़े बहुत सारे पेज दिखाए गए हैं? हम आपको बहुत तरह की जानकारी, सही फ़ॉर्मैट में देने की कोशिश करते हैं ताकि ये आपके काम आ सके. जैसे-जैसे वेब में बदलाव हो रहा है, वैसे-वैसे हम अपने रैंकिंग के तरीके को बेहतर बना रहे हैं ताकि हम ज़्यादा क्वेरी के लिए बेहतर नतीजे दिखा सकें.

    ये एल्गोरिद्म उन संकेतों का विश्लेषण करते हैं जो यह दिखाते हैं कि हमारे सभी उपयोगकर्ता नतीजे देख सकेंगे जैसे साइट अलग-अलग ब्राउज़र में सही तरीके से दिखाई देती है या नहीं; इसे डेस्कटॉप, टैबलेट, और स्मार्टफ़ोन सहित सभी तरह और सभी आकार के डिवाइस के लिए डिज़ाइन किया गया है या नहीं; और धीमे इंटरनेट कनेक्शन के साथ इस्तेमाल करने वालों के लिए अच्छी तरह काम करती है या नहीं.

    जबसे वेबसाइट के मालिकों ने अपनी साइट की उपयोगिता में सुधार किया है, तबसे हम साइट मालिकों को हमारे 'सर्च' के एल्गोरिद्म में महत्वपूर्ण, कार्रवाई लायक बदलावों के बारे में बताने के लिए कड़ी मेहनत करते हैं. जैसे, जनवरी 2018 में हमने घोषणा की थी कि हमारे एल्गोरिद्म, बदलावों के लाइव होने के छह महीने पहले साइट के "पेज स्पीड" पर विचार करना शुरू कर देंगे. वेबसाइट के मालिकों की मदद करने के लिए, हमने PageSpeed Insights और Webpagetest.orgजैसे विस्तृत दिशानिर्देश और टूल दिए हैं, ताकि साइट के मालिक यह देख सकें कि उन्हें अपनी साइट को और ज़्यादा मोबाइल फ़्रेंडली बनाने के लिए क्या (अगर कुछ भी हो) करना होगा.

    यहाँ आप उन टूल और सुझाव के बारे में ज़्यादा जानकारी ढूंढ सकते हैं जो Google साइट के मालिकों को देता है.

  • संदर्भ पर विचार करना

    संदर्भ पर विचार करना

    आपकी जगह, पहले का सर्च इतिहास और सर्च सेटिंग जैसी जानकारी हमें उस पल में आपके लिए सबसे फ़ायदेमंद और आपकी खोज से जुड़े नतीजे दिखाने में मदद करती है.

    हम आपके देश और जगह की जानकारी लेते हैं. इसकी मदद से हम आपके क्षेत्र के हिसाब से उससे जुड़ी सामग्री आपको दिखाते हैं. उदाहरण के लिए, अगर आप शिकागो में है और आपने 'फ़ुटबॉल' खोजा है, तो यह उम्मीद ज़्यादा है कि Google आपको नतीजों में अमेरिकी फ़ुटबॉल के बारे में जानकारी दिखाए और उसमें शिकागो बियर्स (Chicago Bears) के बारे में पहले बताया जाए. जबकि, अगर आप लंदन में 'फ़ुटबॉल' खोजते हैं, तो Google सॉकर (फ़ुटबॉल) और इंग्लिश प्रीमियर लीग से जुड़े नतीजों को ऊंची रैंक देगा. सर्च सेटिंग से भी पता चलता है कि आपके लिए किस तरह के नतीजे फ़ायदेमंद हो सकते हैं. जैसे, अगर आपने अपनी पसंदीदा भाषा सेट की है या सुरक्षित खोज (ऐसा टूल जो आपत्तिजनक नतीजे हटाने में मदद करता है) का विकल्प चुना हुआ है, तो दिखने वाले नतीजों में बहुत फ़र्क हो सकता है.

    कुछ मामलों में, हम आपके नतीजों को आपके मनमुताबिक भी बना सकते हैं. इसके लिए हम आपकी हाल-फ़िलहाल के सर्च इतिहास की जानकारी हैं. उदाहरण के लिए, अगर आप 'ट्यूबलाइट' खोजते हैं और हाल ही में आपने 'बजरंगी भाईजान' को ढूंढा था, तो यह इस बात की ओर इशारा करता है कि आप नाम की फ़िल्म बारे में खोज रहे हैं, रोशनी करने वाली ट्यूबलाइट के बारे में नहीं. आप यह तय कर सकते हैं कि सर्च से जुड़ी आपकी किस गतिविधि का इस्तेमाल करके आपके अनुभव को बेहतर बनाया जाए. इसमें उस डेटा में बदलाव करना शामिल है, जो आपके Google खाते में सेव किया जाता है. इस्तेमाल की जाने वाली गतिविधि को आप myaccount.google.com पर तय कर सकते हैं.

    'सर्च' में कुछ ऐसी सुविधाएं भी शामिल हैं जो आपके Google खाते में होने वाली गतिविधि के आधार पर नतीजों को पसंद के मुताबिक बनाती हैं. उदाहरण के लिए, अगर आप “मेरे आस-पास के इवेंट” खोजते हैं, तो Google ऐसी श्रेणियों के मुताबिक वैसे सुझाव तैयार कर सकता है, जिनमें हमें लगता है कि आपकी रुचि हो सकती है. ये सिस्टम आपकी रुचियों से मिलान करने के लिए बनाए गए हैं न कि आपकी जाति, धर्म या राजनीतिक दल जैसी संवेदनशील विशेषताओं का अनुमान लगाने के लिए.

    आप यह तय कर सकते हैं कि 'सर्च' से जुड़ी आपकी किस गतिविधि का इस्तेमाल करके आपके अनुभव को बेहतर बनाया जाए. इसमें उस डेटा में बदलाव करना शामिल है जिसे आपके Google खाते में सेव किया जाता है. इस्तेमाल की जाने वाली गतिविधि को आप myaccount.google.com पर जाकर तय कर सकते हैं. 'सर्च' को अपने खाते की गतिविधि के आधार पर पसंद के मुताबिक बनाने की सुविधा बंद करने के लिए, 'वेब और ऐप्लिकेशन गतिविधि' बंद कर दें.