النتائج 1 إلى 11 من 11

الموضوع: تحليل : صناعة محركات البحث

  1. #1

    تحليل : صناعة محركات البحث



    السلام عليكم

    نظراً لأهمية ان اتكلم عن هذه النقطة بالذات فأحببت ان أفتح فيها وأتمني من الله ان يوفقني لأنهيها علي الوجه الذي أتمناه وأوصل فكرتي للجميع

    ففي كل يوم نشاهد من كتب عدة دوال لتخزين المواقع في قواعد البيانات وخرج لنا ليخبرنا عن الإنجاز الذي صنعه والكلمة التي يلصقها دائما في موضوع ( جوجل + ولكن الدعم )
    ففي الحقيقة أن لم أحضر لكي أفرقع تلك الفقاقيع الواهمة التي تتبخر وتخرج من رأس كل مبرمج
    بل حضرت فقط لاضع النقاط علي الحروف لكي يعلم الجميع المفهوم الصحيح لصناعة محرك بحث يستحق أن يتم الذهاب له في ظل المعمعة الحالية
    وما هو مفهو أن يكون هناك محرك بحث يعتمد علي الذكاء الصناعي ( وهو غير موجود حتي هذه اللحظة )

    سأقسم سردي بتقسيم محركات البحث لعنصرين رئيسيين ثم تقسم كل عنصر منهما لمفرداته العملية

    1- الأرشفة

    - جلب البيانات من المواقع
    - تفصيل البيانات وتقسيمها وفهمها
    - إدخال البيانات لقواعد البيانات

    2- البحث

    - جلب النتائج المتوافقة مع نص البحث من قاعدة البيانات
    - ترتيب البيانات بدرجة دقتها
    - عرض البيانات

    سأكتب النقاط بصورة عامة ثم في مشاركة منفصلة أوضح أفضل تحليل لعمل الأمر بأقل حمل ومجهود فلا تستعجلوا ( إن شاء الله )

    أسأل الله ان يوفقني للخوض في تحليل هذا الأمر وأسألكم الدعاء





    __________________
    السيف أصدق أنباء من الكتب


  2. #2


    شكرا لك يا غالي
    بارك الله فيك
    منتظر باقي التحليل ..

    ارسلت لك رساله بريديه عبر سوالف





    __________________
    كن حكيم في استخدام عقلك

  3. #3


    جلب البيانات من المواقع
    تفصيل البيانات وتقسيمها وفهمها


    واهم هو من يظن أن العملية بسيطة هنا وكل ما يقوم به هو file_get_content ثم ضخ المحتوي المجلوب في قاعدة البيانات

    الطريقة أمهر بكثير من أن يتم النظر لها بهذا الشكل وسأضح لها تحليل بسيط ولكن عليك انت ان تتخيل لما يمكن أن يكون الأمر بتحليل أكبر تعقيداً لمحرك بحث كبير

    أو شئ يتم فعله حينما يتم جلب الصفحة الأولي هو تقسم محتواها

    - وسوم ال html
    - المحتوي النصي للصفحة وهذا المحتوي معروف مكانه بين الوسمين body
    - إشارات المحتوي وهو ما يشير للمحتوي من عناوين كالتايتل والميتا وغيرها
    - الروابط الموجودة في الصفحة كلها من أجل الإنتقال لها فيما بعد وتقسيمها لروابط داخلية وروابط خارجية

    كل نقطة من هذه النقط تحتاج لتفصيل وحدها
    فوسوم ال html ليست كثير بل محدودة ويمكنك ان تتفاهم معها وتعرف جيداً أين يكون المحتوي المهم
    فما بين الوسم H هو في الغالب هيدر لنص
    وما بين الوسم strong هو نص نحتاجه للظهور بشكل ملفت أكثر مما حوله
    إلخ

    أبدأ في رسم تخطيطك لوسوم ال html وضبط خوارزميتك للتعامل مع هذه الوسوم لتحديد درجات الأهمية للمحتوي داخل الصفحة لكي يفيدك ذلك فيما بعد في خطوة إخراج النتائج حتي لا تساوي بين كلمة البحث الموضوعة في موقع بين h1 وكلمة البحث في موقع أخر موجودة في فوتر الموقع بخط صغير !!


    ليك بعد ذلك وبعدما فصلت محتوي الصفحة ان تأخذ معك عنوان التايتل وبيانات الميتا وبالطبع ستقارن بينها لتري هل هناك ترابط وتوافق بين المحتوي وتلك البيانات ام ان التايتل ( بطيخ للبيع ) والمحتوي ( قرر سيادة الرئيس ...... ) والميتا ( بنات - غزل بنات ........ )

    اما الروابط فتفصيلها لداخلية وخارجية وذلك لأنك ستنتهي من أرشفة هذا الموقع أولاً وبعدها تنتقل للمواقع الخارجية التي أشار لها

    وهنا عليك أن تكون ذكي في التعامل مع الروابط فلا يمكنك أن تضيع مجهودك في أرشفة روابط داخليه تافهة وتترك موقع اخر خارجي هام لم تأرشف بعد روابطه الخارجية وبالتالي يمكنك إستخدام نظام أولوية priory تكتب له خوازمية خاصة أيضا لتفهم الروابط وتعلم ما هو المهم من غير المهم لتلقي بغير المهم في أخر الطابور وتنتقل لموقع أخر لتأرشف صفحاته الهامة وهكذا


    لا تنسي أيضا ان دوالك المستخدمة في جلب المحتوي والتعامل معه يجب ان تكون أقل ما يمكن من الدوال وتكتب بإحترافية تامة ويفضل الا تمررها علي عدة مراحل

    فأنت حينما تكتب دوالك وكلاساتك بال php فإنهتا ستحتاج لتمر علي مترجم لترجمتها لل c ثم كومبايلر لتحويلها للأسمبلي ثم فهمها بلغة الآلة

    حاول أن تنظر في هذا الأمر وتبحث عن حلول فكلما قللت وقت العمل ولو بدالة واحدة أو سطر واحد فأنت وفرت الكثير وأصبح بإمكانك ارشفة صفحات أكثر في وقت أقل وحمل أقل علي السيرفر

    العملية بلا شك معقدة للغاية ولا استطيع تخيلها لمجرد التخيل لو احببنا أن نخرجها في صورة محترمة لمحرك بحث قوي ومحترف :looking:





    __________________
    السيف أصدق أنباء من الكتب

  4. #4


    الأن بعدما تحدثت عن جلب البيانات وتفصيلها
    ألا تعتقد معي انه هذا الأمر معقد علي أن يتم مع كل صفحة واحدة
    فأنت ستجلب الصفحة وتمررها علي كل تلك الخوارزميات لكي تفصصها وتخرج روابطها الداخلية والخاريجة ثم تذهب للروابط وترتبها بالأولوية وتعود للصفحة لتتعامل مع محتواها
    ما رأيك أن نقسم الأعمال علي سيرفرات

    السيرفر الأول سنسميه سيرفر جلب البيانات
    هو سرفر لا يفهم وظيفته ان ينظر في قواعد البيانات لديه ويجلب الروابط 100 ب 100 مثلاً ثم يذهب ويجلب محتواها ويخزنها في قاعدة البيانات

    لا يفهم ولا يترجم أي شئ في محتوي الصفحة فهو فقط تعطيه روابط يجلب لك محتواها ويخزنه لك

    طيب من أين سيجلب الروابط ؟ هذا ما سأشرحه لاحقاً

    السيرفر الثاني وظيفته يأخذ المحتوي من السيرفر الاول ويفصصه لمحتوي وروابط
    يقذف بالروابط في قاعدة البيانات الخاصة به ولا يهتم بها ولا يفهمها
    ثم يبدأ بالتعامل مع المحتوي الذي لديه فهو سنسميه سيرفر المحتوي
    وظيفته ان يمرر المحتوي علي خوارزميات كتبناها لتفصص المحتوي لدينا وتعلم محتوي الصفحة وتربطه بالتايتل والميتا تاج إلخ

    السيرفر الثالث وظيفته أن يتصل علي السيرفر الثاني ويأخذ الروابط ثم يرتبها من حيث الأولوية وأهميتها في الأرشفة من عدمه إلخ
    وبالتالي سنسميه سيرفر الروابط
    بعد الإنتهاء سيرسل الروابط مرتبه للسيرفر الأول ( وضحتها هنا هل وصلت ؟ )
    ليقوم السيرفر الأول بالمرور عليها مثل الآلة الناسخة وجلب محتوياتها

    هنا يظهر التناغم بين ال 3 سيرفرات ووظيفة كل منها

    وهذا يسهل عليك جدا تطوير خوارزمياتك
    فد تذهب للسيرفر الثالث وتطور فيه خوارزمية لعمل شئ شبيه بالبيج رانك
    فتنظر في الروابط لديك ومدي أهميتها والكلمات التي كانت تشير لها وهل فيها نو فلو أم لا إلخ

    وقد تذهب في أي وقت لخوارزميات السيرفر الثاني وتطور فيها لتظهر نتائجك في قواعد البيانات بشكل أفضل





    __________________
    السيف أصدق أنباء من الكتب

  5. #5
    عضو فعال جدا
    تاريخ التسجيل
    Aug 2007
    المشاركات
    3,929


    لم اري الموضوع من قبل وعذرا لذلك
    بصراحة معلومات رائعة تشعرني بالجهل في مجال البرمجة
    شكرا لك





    __________________
    تحاور مع العاقل بعقل .. اما ان يقتنع او تقتنع
    وتحاور مع الجاهل بعقل .. اما يطقعش او تفرقش
    وتلك الفاظ لا معنى لها كذلك كلماته

  6. #6
    عضو جديد
    تاريخ التسجيل
    Mar 2009
    المشاركات
    18

    شكرا جزيلا



    شكرا على الموضوع النادر والقيم .....





    __________________
    no one like me

  7. #7
    عضو نشيط
    تاريخ التسجيل
    May 2009
    المشاركات
    121


    اعجبتني فكرتك في استخراج المعلومات من الصفحات

    شكرا لك





    __________________
    العضوية مشتركة بين 3 اشخاص

  8. #8
    عضو فعال
    تاريخ التسجيل
    Feb 2008
    المشاركات
    1,589


    جميل
    انا انزلت موضوع من اسبوع تقريبا
    ولم الاحظ ردك فيه
    او بمعني انك لم ترد فيه
    منتظر الرد علي الكلاس الي فيه






  9. #9
    عضو نشيط
    تاريخ التسجيل
    Jun 2008
    المشاركات
    54


    اخى الفرجانى
    الأخ ليس ملزم بقرائة موضوعك وربما لم يره






  10. #10
    عضو شرف
    تاريخ التسجيل
    Apr 2002
    المشاركات
    1,379


    رائع , اذا سيكون لدينا ثلاث خطوات:
    - جالب الصفحات crawler ومهمة جلب الصفحات وايداعها في قاعدة البينات كماهي بدون تغيير وتحديثها محتواها اذا كانت موجوده. (سهل)
    - فهرسة الصفحات ويقوم بتحليل الصفحات بشكل كامل وهو يشكل العمود الفقري لمحرك البحث . (صعب جدا اذا كنت تريده ذكي)
    - بحث في البينات المفهرسة في قاعدة البينات. (سهل)

    أقترح ان نوجد أفضل طريقة للخطوه الثانية وهي فهرسة الصفحات بالطريقة الأمثل ... باقي الخطوات كما ذكرت سهله جدا مقارنتا بالخطوه الثانية.





    __________________
    ضيف الله العتيبي مبرمج حر و مهندس معتمد من زيند (ZCE)
    الاتصال: daif@daif.net او جوال: 0556639884
    الخدمات: تقديم استشارات برمجيه, تطوير بوابات/خدمات إلكترونيه للقطاع العام او الخاص .

  11. #11


    رائع , اذا سيكون لدينا ثلاث خطوات:
    - جالب الصفحات crawler ومهمة جلب الصفحات وايداعها في قاعدة البينات كماهي بدون تغيير وتحديثها محتواها اذا كانت موجوده. (سهل)
    - فهرسة الصفحات ويقوم بتحليل الصفحات بشكل كامل وهو يشكل العمود الفقري لمحرك البحث . (صعب جدا اذا كنت تريده ذكي)
    - بحث في البينات المفهرسة في قاعدة البينات. (سهل)

    أقترح ان نوجد أفضل طريقة للخطوه الثانية وهي فهرسة الصفحات بالطريقة الأمثل ... باقي الخطوات كما ذكرت سهله جدا مقارنتا بالخطوه الثانية.
    الخطوه الثانيه بالفعل اصعب خطوه فهنا ياتي دور الخوارزميات والتي تعتبر سر نجاح جوجل حتى الان

    وبالرغم من ذلك الا انها فشلت في تحليل المحتوى العربي بخوارزميتها والافضل ان يقوم العرب بذلك بمحرك بحث خاص بهم

    ويبقى ايضا سر نجاح جوجل هو سرعة البحث والاف السيرفرات المسئوله عن ارشفة الويب بالكامل فسر نجاح اي محرك بحث هو عدد الصفحات المؤرشفه





    __________________
    Contact Me





ضوابط المشاركة

  • لا تستطيع إضافة مواضيع جديدة
  • لا تستطيع الرد على المواضيع
  • لا تستطيع إرفاق ملفات
  • لا تستطيع تعديل مشاركاتك
  •  

أضف موقعك هنا| اخبار السيارات | حراج | شقق للايجار في الكويت | بيوت للبيع في الكويت | دليل الكويت العقاري | مقروء | شركة كشف تسربات المياه | شركة عزل اسطح بالرياض | عزل فوم بالرياض| عزل اسطح بالرياض | كشف تسربات المياة بالرياض | شركة عزل اسطح بالرياض