کامن کراول – پورے انٹرنیٹ کا ڈیٹا ایک جگہ جمع

از ادارہ مورخہ فروری 28، 2013

گوگل کی کامیابی کا راز اس کے شاندار الگورتھم میں پوشیدہ ہے جس کی بدولت یہ بہترین طریقے سے ویب سائٹس سے ڈیٹا پڑھ اور اسے ترتیب دے سکتا ہے۔ لیکن کمپنی کی کامیابی کا ایک اہم ستون اس کی پورے ورلڈ وائڈ ویب کو اپنے پاس جمع کرنے کی صلاحیت ہے۔ گوگل کے انڈیکس میں اربوں ویب پیجز محفوظ ہیں۔ ایک اندازے کے مطابق گوگل ہر روز 24پیٹا بائٹس کا ڈیٹا پروسس کرتا ہے۔

وہ محقق جنھیں اپنی ریسرچ کے لئے گوگل جتنا ڈیٹا درکار ہے، کے لئے اچھی خبر ہے کہ ایک غیر تجارتی کمپنی Common Crawl اپنے Crawlerکے ذریعے تمام ویب سائٹس کا ڈیٹا جمع کرکے بالکل مفت فراہم کررہی ہے۔ اس کمپنی کے پاس 5ارب ویب پیجز کا ڈیٹا موجودہے جسے کوئی بھی ڈائون لوڈ کرکے اپنی تحقیق کے لئے استعمال کرسکتا ہے۔

ایک دوسری کمپنی انٹرنیٹ آرکائیو بھی پورے ویب کو اپنے پاس محفوظ کرتی ہے تاکہ صارفین اس کی Wayback Machine نامی سروس کے ذریعے کسی بھی ویب پیج کا پرانا ورژن دیکھ سکیں۔ لیکن یہ کمپنی اپنا مکمل ڈیٹا تجزیئے یا ریسرچ کے لئے پیش نہیں کرتی۔
گلاڈ الباز (Gilad Elbaz) جو ’’کامن کراول‘‘ کے بانی ہیں کے مطابق ’’جہاں تک میں ویب کو جانتا ہوں، یہ معلومات کا سب سے بڑا ڈھیر ہے جس سے بہت سے کام لئے جاسکتے ہیں۔ لیکن یہ سب ڈیٹا ایک جگہ جمع کرنا آسان ہے نہ ہر کسی کے بس کی بات… اور چند ہی آرگنائزیشنز ایسی ہیں جن کے پاس اتنے وسائل ہیں کہ وہ یہ کام کرسکیں۔ ‘‘

اِلباز مزید کہتے ہیں کہ اگر یہ ڈیٹا ایک جگہ دستیاب ہو تو اسے استعمال کرکے نئے سرچ انجنز بنائے جاسکتے ہیں۔ گوگل کے پاس چونکہ وسائل کی کمی نہیں، وہ ویب کو بہت جلدی crawlکرکے اپنا انڈیکس اپ ڈیٹ کرلیتا ہے لیکن ایک نئے سرچ انجن کے لئے ہر بار ویب کو crawl کرنا کسی دردِسری سے کم نہیں ہوگا اور اس کے لئے جس قسم کے وسائل درکار ہونگے، انہیں برداشت کرنا بھی نئے سرچ انجن کے لئے ممکن نہیں ہوگا۔

الباز گوگل ٹرانسلیٹر کا حوالہ بھی دیتے ہیں جسے انٹرنیٹ پر مختلف زبانوں میں موجود متن (Text) کے ذریعے تربیت دی گئی ہے۔ ان کے مطابق گوگل ٹرانسلیٹر صرف اسی لئے ممکن ہوسکا کیونکہ گوگل کے پاس تمام ویب پیجز کا ڈیٹا محفوظ ہے۔

تحریر جاری ہے۔ یہ بھی پڑھیں

ہیکروں کے ایک گروہ نے بند ٹوئٹر اکاؤنٹ بحال کرنے کا طریقہ…

ستمبر 3، 2016

گوگل جی بورڈ اور جی بٹن کے بارے میں جانیں

فروری 19، 2017

وہ مزید کہتے ہیں کہ انہوں نے دیکھا کہ آج سے پانچ سال پہلے محققین جن کے پاس ویب کے ڈیٹا کو استعمال کرنے کے نئے منصوبے تھے، کے پاس سوائے گوگل میں نوکری کرنے اور وہاں اپنے آئیڈیاز کو عملی جامع پہنانے کے سوا کوئی چارہ نہیں تھا۔ کیونکہ گوگل ہی ایک واحد جگہ تھی جہاں انہیں درکار ڈیٹا موجود تھا۔ کامن کروالر کا منصوبہ اسی لئے شروع کیا گیا تاکہ ریسرچرز کو اپنے نئے آئیڈیا جانچنے اور ان پر کام کرنے کے لئے پورے ویب کا ڈیٹا بہ آسانی دستیاب ہوسکے۔ درس گاہ میں درس و تدریس سے وابستہ محقق بھی اس ڈیٹا سے فائدہ اٹھا کر نت نئے کام کرسکیں گے۔

الباز بذات خود Factual نامی کمپنی کے چیف ایگزیکٹیو آفیسر ہیں اور اس سے پہلے انہوں نے ایک کمپنی شروع کی تھی جسے گوگل نے خرید لیا تھا۔ کامن کراول کے مشاورتی بورڈ میں گوگل کے ڈائریکٹر ریسرچ پیٹر نوروگ اور ایم آئی ٹی میڈیا لیب کے ڈائریکٹر جوئی اٹو شامل ہیں۔

کامن کراول اب تک 5ارب ویب پیجز کو جمع کرچکا ہے جن کا مجموعی سائز 81 ٹیرا بائٹس ہے۔ اس ڈیٹا تک رسائی ایمازون کی کلائوڈ کمپیوٹنگ سروس کے ذریعے حاصل کی جاسکتی ہے۔ اصل انٹرنیٹ 5ارب ویب پیجز سے بہت بڑا ہے اس لئے کامن کراول مزید ڈیٹا بھی جمع کرتا رہے گا۔

کامن کراول فی الوقت صرف ہر کسی کو دستیاب ویب پیجز کا ڈیٹا ہی جمع کرسکتا ہے۔ سوشل میڈیا جیسے فیس بک یا لنکڈ ان وغیرہ کے ڈیٹا تک رسائی اس کے لئے ممکن نہیں۔ گوگل کو اس سلسلے میں کسی پریشانی کا سامنا نہیں۔ یہی وجہ ہے کہ جب آپ گوگل پر کسی شخص کو سرچ کرتے ہیں تو اس کی فیس بک ، ٹوئٹر یا لنکڈ ان پروفائل بھی نتائج میں شامل ہوسکتی ہے۔

سوشل میڈیا ویب سائٹس اپنے صارفین کے ڈیٹا کے بارے میں بہت حساس ہیں۔ لہٰذا کامن کراول کے لئے ضروری ہوگا کہ وہ ان ویب سائٹس سے کوئی معاہدہ کرے تاکہ ان کا ڈیٹا جو کہ اب بہت اہم معلومات پر مبنی ہوتا ہے، تک بھی رسائی حاصل کی جاسکے۔