موقع مستخلص

(تم التحويل من Scraper site)

الموقع المستخلص scraper site، هو موقع إلكتروني يقوم بنسخ محتوى من مواقع إلكترونية أخرى باستخدام طريقة استخلاص المواقع. بعد ذلك يتم عكس المحتوى بهدف تحقيق إيرادات، والتي تكون عادة من خلال الإعلانات وأحياناً عن طريق بيع بيانات المستخدم. تكون المواقع المستخلصة بأشكال مختلفة. يوفر البعض القليل من المواد أو المعلومات، إن وجدت، ويهدف إلى الحصول على معلومات المستخدم مثل عناوين البريد الإلكتروني، لاستهداف البريد الإلكتروني العشوائي. تصل مواقع تجميع الأسعار والتسوق إلى قوائم متعددة للمنتج وتسمح للمستخدم بمقارنة الأسعار بسرعة.


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

أمثلة على المواقع المستخلصة

يمكن اعتبار محركات البحث مثل گوگل نوع من المواقع المستخلصة. تقوم محركات البحث بجمع المحتوى من مواقع الوب الأخرى وتحفظه على قواعد بياناتها ثم تفهرسه وتقدم المحتوى المستخلص إلى مستخدمي محركات البحث الخاصة بها.[1] كما أستخدمت تقنية الاستخلاص في مواقع المواعدة المختلفة، وغالباً ما يتم دمجها مع تقنية التعرف على الوجه.[2][3][4][5][6][7][8][9][10][11]

كما يستخدم الاستخلاص في مواقع التعرف على الصور العامة، والمواقع الإلكترونية المصممة خصيصاً لتحديد صور المحاصيل المصابة بالآفات والأمراض[12][13]


صُنعت للإعلانات

تصمم بعض المواقع المستخلصة لجني الأموال باستخدام برامج الإعلامنات. في مثل هذه الحالة، يُطلق عليها صُنعت لأدسنس AdSense أو MFA. يشير هذا المصطلح المهين إلى مواقع الوب التي ليس لها قيمة استرداد باستثناء جذب الزوار إلى موقع الوب لغرض وحيد هو النقر على الإعلانات.[14]

تعتبر المواقع المصممة خصيصاً لأدسنس محركات بحث غير مرغوب فيها، التي تخفض نتائج البحث إلى نتائج أقل من مرضية. المحتوى المستخلص يكون زائد عن المحتوى الذي سيظهر بواسطة محرك البحث في الظروف العادية، ولا يظهر الموقع المصمم لأدسنس على القوائم.

ترتبط بعض المواقع المستخلصة بمواقع أخرى لتحسين ترتيب محرك البحث الخاص بها عن طريق شبكة مدونات خاصة. قبل تحديث گوگل لخوارزمية البحث الخاصة به والمعروفة باسم پاندا، كان هناك نوع من مواقع الاستخلاص المعروف باسم المدونات التلقائية شائع جداً بين مسوقي القبعات السوداء الذين يستخدموا طريقة تُعرف الفهرسة التعسفية spamdexing.

الجانب القانوني

قد تنتهك المواقع المستخلصة قانون حقوق التأليف والنشر. حتى لو كان المحتوى مستخلص من موقع مفتوح المصدر يمكن أن يعد ذلك انتهاكاً لحقوق التأليف والنشر، إذا ما تم بطريقة لا تحترم الترخيص. على سبيل المثال، رخصة جنو للوثائق الحرة (GFDL)[15] شيرأليك للمشاع الإبداعي (CC-BY-SA)[16]، وهي تراخيص مستخدمة على موقع المعرفة، يتطلب إعادة نشرها على المعرفة إبلاغ القراء بشروط هذه التراخيص، ومنح الا تطلب من إعادة نشر ويكيبيديا إبلاغ قراءها بشروط هذه التراخيص ، والإشارة للمؤلف الأصلي.[original research?]

التقنيات

تختلف الطرق التي تستهدف بها مواقع الوب تبعاً للهدف من الموقع المستهدف. على سبيل المثال، المواقع التي تحتوي على مقدار كبير من المحتوى مثل الخطوط الجوية، والإلكترونيات الإستهلاكية، والمتاجر، وما إلى ذلك، قد يتم استخدافها بشكل روتيني من خلال منافسيها لمجرد مواكبة معلومات التسعير.

وهناك نوع آخر من المواقع المستخلصة يقوم بجمع المقتطفعات والنصوص من مواقع الوب التي تحتل ترتيب عالي فيما يخص الكلمات المفتاحية المستهدفة. وتهدف هذه الطريقة إلى الحصول على ترتيب متقدم في صفحة نتائج محرك البحث، وpiggybacking on ترتيب الصفحة الأصلية. RSS feeds are vulnerable to scrapers.

تتكون مواقع الاستخلاص الأخرى من إعلانات وفقرات من كلمات مختارة عشوائياً من القاموس. غالباً ما ينقر الزائر على إعلان الدفع بالنقرة داخل هذا الموقع حيث أنه النص الوحيد المفهوم على الصفحة. يجني مشغلو مواقع الاستخلاص مكاسب مالية من هذه النقرات. تدعي شبكات الإعلان أنها تعمل باستمرار على إزالة هذه المواقع من برامجها، على الرغم من أن هذه الشبكات تستفيد بشكل غير مباشر من النقرات التي تتم من خلال هذه النوعية من الماقع. من وجهة نظر المعلنين، لا يبدو أن الشبكا تبذل جهداً كافياً لوقف هذه المشكلة.

تميل أدوات الاستخلاص إلى الارتباط بمزارع الروابط link farm وتعتبر أحياناً الشيء نفسه، عندما ترتبط أدوات الاستخلاص المتعددة بنفس الموقع المستهدف. قد يتم اتهام موقع الضحية المستهدف بشكل متكرر بالمشاركة في مزرعة الروابط، بسبب النمط الاصطناعي للروابط الواردة إلى موقع ويب الضحية، المرتبط بمواقع استخلاص متعددة.


اختراق النطاق

مقال رئيسي: اختراق النطاق

قد يقوم بعض مبرمجي مواقع الاستخلاص بشراء اسم نطاق انتهت صلاحيته مؤخراً لإعادة استخدامه لتحسين محركات البحث في گوگل. تركز جميع المواقع على فهم[بحاجة لمصدر] النطاقات منتهية الصلاحية والاستفادة منها في إمكانية الوصول لأعلى ترتيب. سيؤدي القيام بذلك إلى السماح لكبار المسئولين الاقتصاديين باستخدام الروابط الخلفية الموجودة بالفعل لاسم النطاق. قد يحاول بعض مرسلي البريد العشوائي مطابقة موضوع الموقع منتهي الصلاحية أو نسخ المحتوى الموجود من أرشيف الإنترنت للحفاظ على أصالة الموقع حتى لا تسقط الروابط الخلفية. على سبيل المثال، قد يتم إعادة تسجيل موقع وب منتهي الصلاحية لمصور من أجل إنشاء موقع حول نصائح التصوير أو استخدام اسم النطاق في شبكة المدونات الخاصة لتشغيل موقع للتصوير الفوتوغرافي.

لدى بعض وكلاء تسجيل أسماء النطاقات منتهية الصلاحية تتوفر تسهيلات للعثور على هذه النطاقات منتهية الصلاحية ولتجميع HTML الذي كان اسم نطاق موجود على موقع الوب الخاص بها.[بحاجة لمصدر]

انظر أيضاً

المصادر

  1. ^ Google 'illegally took content from Amazon, Yelp, TripAdvisor,' report finds
  2. ^ This App Lets You Find People On Tinder Who Look Like Celebrities
  3. ^ Dating app boss sees ‘no problem’ on face-matching without consent
  4. ^ Dating.ai App Matches You With Celebrity Look-alikes
  5. ^ Facial recognition app matches strangers to online profiles
  6. ^ NameTag: Facial recognition app criticized as creepy and invasive
  7. ^ Swipe Buster
  8. ^ Stalker-friendly app, NameTag, uses facial recognition to look you up online
  9. ^ This Smart (but Unsettling) App Lets You Point Your Phone at People to Find Out Who They Are
  10. ^ Truly.am Uses Facial Recognition To Help You Verify Your Online Dates
  11. ^ 3 Fascinating Search Engines That Search for Faces
  12. ^ Wolfram has created a website that will identify any image you throw at it
  13. ^ Machine Learning Helps Small Farmers Identify Plant Pests And Diseases
  14. ^ Made for AdSense
  15. ^ "Text of the GNU Free Documentation License".
  16. ^ "Creative Commons Attribution-ShareAlike 3.0 Unported License".
الكلمات الدالة: