با خزنده وب (web crawler) آشنا شوید !!
خزنده وب یا Web Crawler چیست؟ در واقع این خزنده یک ربات اینترنتی است که به صورت اتوماتیک و منظم به مرور و تجسس در صفحات وب میپردازد و مطالب، لینک ها و هرگونه اطلاعات را جمع آوری کرده که توسط موتورهای جستجو برای ایندکس کردن صفحات مورد استفاده قرار میگیرد. با توجه به میزان فعالیت وب سایت ها، خزنده ها در طیف زمانی مشخص محتوای خود را بروزرسانی میکند.
کاربرد
از کاربرد های خزنده وب ، استفاده آن در موتور های جستجو برای بروز نگه داشتن اطلاعات موتورهای جستجو در بازه های منظمی از سایت شما میباشد.
مدیریت فنی وب سایت کاربرد دیگر آن است که پیرامون پیدا کردن لینک های شکسته، فایل های CSS، کدهای HTML و … میباشد.
موضوع دیگر ، جمع آوری اطلاعات حساس مانند آدرس های ایمیل میباشد که معمولا توسط هکرها انجام میگیرد و هدف از اینکار ارسال SPAM میباشد.
گوگل
گوگل با مجموعه ای عظیم از کامپیوترها، میلیارد ها صفحه وب را ارزیابی میکند که بر روی این برنامه خود نام googlebot را نام گذاری کرده است. این ربات بار اساس الگوریتم ها و استراتژی های برنامه ریزی شده و سایت ها را فراخوانی میکند.
معماری خزنده وب
الگوریتم و معماری خزنده وب به شدت مخفی نگه داشته شده است اما خزنده وب بخش اصلی و مرکزی هر موتور جستجویی را تشکیل میدهد . در این حالت معماری سطح بالای (High-level architecture) آن به شکل زیر میباشد: