السلام عليكم و رحمة الله و بركاته
هل تعرف ماهو ملف ال Robots.txt ؟؟؟ لمن لا يعرفه هو ملف يكون مرفق مع المجلد الرئيسيى لمعظم المجلات و المنتديات, والبعض يضيفه الى المجلد الرئيسى لموقعه الهدف منه هو جذب او طرد مواقع البحث من ادراج و فهرسة صفحات موقعك
بعض الاكواد التى توضع فيها ومعناها:
السماح لكل محركات البحث بفهرسة موقعك ضع الكود
كود:
User-agent: *
Disallow:
لمنع كل محركات البحث من فهرسة كامل موقعك ضع الكود
كود:
User-agent: *
Disallow: /
لحظر ملف معين من محرك بحث معين نضع الكود
كود:
User-Agent: (Spider Name)
Disallow: (File Name)
حيث Spider Name هو اسم برنامج الارشفة التابع لمحرك البحث ,, و File Name هو اسم الملف المحظور على هذا المحرك..ويمكنك تكرار الكود لكل محرك بحث في نفس الملف,,ومنع كل ملف لحده في سطر خاص
لاحظ ان هذا الملف يجب ان يكون في المجلد الرئيسي للموقع وفي اي مجلد داخلي اخر لن يعمل ,, وعلية لو اردت منع محرك بحث معين من ارشفة صفحات في مجلدات داخلية فقط اشر الى المجلد ثم الصفحة
كود:
User-Agent: (ArchitextSpider)
Disallow: folder/moffed-com-gg.html
Disallow: folder/moffed-info-al.html
ولفهم الاكواد بصورة سهلة
العلامة * تشير الى تعميم كل محركات البحث
Disallow تعنى حظر ( عدم السماح) لمحركة البحث
لوكتبنا
فقط بدون تحديد اسم مجلد او ملف بجانبها فمعناها اننا نطلب من محرك البحث عدم حظر اى اننا نطلب منه فهرسة الموقع كله , اما اذا اضفنا بجواره اسم ملف او مجلد ليصبح
كود:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
فنحف نطلب منع فهرسة مجلدات معينة
حيث ان المجلدات
cgi-bin
images
يتم منع فهرستهم بمحركات البحث
ولو وضعنا مثلا
فنحن نطلب عدم فهرسة وحظر الملف المسمى admin.php و الموجود بالمجلد الرئيسى للموقع
السماح لبعض محركات البحث الشهيرة بفهرسة الموقع دون محركات البحث الاخرى
كود:
# Major Search Engines and Known Friendly Spiders (allowed)
User-agent: Googlebot
Disallow:
User-agent: MSNBot
Disallow:
User-agent: Slurp
Disallow:
User-agent: Teoma
Disallow:
User-agent: Gigabot
Disallow:
User-agent: Scrubby
Disallow:
User-agent: Robozilla
Disallow:
# Everyone Else (NOT allowed)
User-agent: *
Disallow: /
منع جوجل من ارشفة موقعك
كود:
User-agent: Googlebot Disallow: /
منع فهرسة جوجل لامتداد معين من الصور
كود:
User-agent: Googlebot Disallow: /*.gif$
والآن جرب ان تتعرف على معنى ملف ال robots.txt المرفق مع مجلات النيوك
ستجد الكود التالى غالباً
كود:
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: admin.php
Disallow: /admin/
Disallow: /images/
Disallow: /includes/
Disallow: /themes/
Disallow: /blocks/
Disallow: /modules/
Disallow: /language/
هذا يعنى انك تسمح لمحركات البحث و لمحرك جوجل بفهرسة موقعك
لكنك لاتسمح لجميع محركات البحث من فهرسة ملف ال
admin.php
و مجلدات ال
admin
images
includes
themes
blocks
modules
language
مزيد من المعلومات
انقر هنا
مع احترامى لدور هذا الملف فى توجيه او اخفاء بعض الملفات و المجلدات عن محركات البحث
لكن ماذا لو كتبنا فى المتصفح
www.yourdomain.com/robots.txt
اليس هذا يخبرنا عن الملفات الهامة بالموقع و التى يريد صاحب الموقع اخفاؤها ؟؟ وهذا يعنى ان تلك الملفات جديرة بالاختراق وتوجه انظار المخترق اليها ؟؟؟اعتقد ان هذا الملف مفيد جداً لمحركات البحث لكنه بالنسبة للمتربصين و الهاكرز قد يكون مفيد اكثر ؟؟!!!
فما رأيكم انا افضل عدم وضعه وحذفه :con2: