جدل حول استخدام DeepSeek لمخرجات “Gemini” في تدريب نموذجها الجديد R1-0528
أثارت شركة DeepSeek الصينية جدلاً واسعاً مع إصدار نموذجها الجديد “R1-0528”، الذي أظهر أداءً متميزاً في مجالات البرمجة والرياضيات. ومع ذلك، فإن هناك تساؤلات ملحة حول مصادر البيانات التي تم استخدامها في تدريب هذا النموذج، حيث يُعتقد أنها قد تكون مستمدة من عائلة نماذج “Gemini” التابعة لشركة Google.
جدل حول اعتماد DeepSeek على مخرجات نموذج Gemini
الشكوك حول نموذج DeepSeek بدأت عندما نشر المطور سام بيتش، الذي يقيم في مدينة ملبورن ويعمل في مجال تقييمات الذكاء العاطفي للذكاء الاصطناعي، منشورًا على منصة X. حيث ادعى وجود أدلة تشير إلى أن النموذج الأخير يعتمد على مخرجات من نموذج Gemini، مشيراً إلى أن التعابير والتركيبات اللغوية المستخدمة في النموذج تشبه تفضيلات نسخة Gemini 2.5 Pro بشكل ملحوظ.
على الرغم من عدم توفر دليل قاطع، إلا أن مطورًا آخر يعمل تحت اسم مستعار، وهو المؤسس لمشروع تقييم “حرية التعبير” الخاص بالذكاء الاصطناعي المعنون SpeechMap، أكد أن “آثار التفكير” الناتجة عن نموذج DeepSeek تبدو مشابهة للغاية لتلك الخاصة بـGemini. يمتلك هذا الأمر أهمية كبيرة، إذ يمكن أن يؤثر على مصداقية النموذج ويُعطي انطباعًا بأن DeepSeek ربما تعتمد على البيانات من نماذج منافسة.
ليس هذا هو الاتهام الأول الموجه لشركة DeepSeek؛ ففي ديسمبر الماضي، أشار مطورون إلى أن نموذج “V3” الخاص بها كان أحيانًا يتعرف على نفسه بأنه “ChatGPT”، ما أثار الشكوك حول احتمال استخدام محادثات من منصة OpenAI في تدريبه. كما أعربت OpenAI في وقت سابق عن دراسة وجود مؤشرات تشير إلى استخدام DeepSeek لتقنية “التقطير”، المستخدمة لاستخراج المعرفة من نماذج أكبر وأكثر تطورًا.
من جانب آخر، أشارت تقارير من بلومبرغ إلى أن شركة Microsoft، التي تعد شريكة ومستثمرًا في OpenAI، رصدت في أواخر عام 2024 عملية ضخمة لاستخراج بيانات من خلال حسابات مطورين في OpenAI يُعتقد أنها مرتبطة بـDeepSeek. ورغم أن تقنية التقطير شائعة في مجال الذكاء الاصطناعي، إلا أن شروط خدمة OpenAI تحظر استخدام مخرجات نماذجها لتطوير نماذج تنافسية.
تواجه الخبراء تحديات في التحقق من مصادر البيانات بسبب ما يُعرف بتلوث الإنترنت بمحتوى مولّد عبر الذكاء الاصطناعي، حيث تنتشر مقالات ذات جودة رديئة مصنوعة آليًا وتغمر الروبوتات منصات مثل Reddit وX. وهذا التلوث يجعل من الصعب تصفية بيانات التدريب من المخرجات الآلية وضمان مصدرها.
في هذا السياق، أشار الباحث ناثان لامبرت من معهد AI2 غير الربحي إلى أن أي شركة في موقع DeepSeek كانت ستستفيد من النماذج المتاحة لإنتاج كميات هائلة من البيانات الاصطناعية. ورغم توافر المال، إلا أن هناك نقصًا في وحدات معالجة الرسوميات، مما يعني أن الحصول على حوسبة إضافية يمثل تحدياً.
في إطار التصدي لممارسات التقطير، قامت شركات الذكاء الاصطناعي بتعزيز تدابير الأمان. فقد بدأت OpenAI، على سبيل المثال، بفرض عملية تحقق للهوية على المؤسسات التي تسعى لاستخدام نماذجها المتقدمة. على الجانب الآخر، بدأت Google بتلخيص “آثار التفكير” لتمكين صعوبة استخدام تلك الآثار من قبل المنافسين لتدريب نماذج مقلدة.
تظل شركة Google في صمت حيال هذه الاتهامات، في حين تسعى وسائل الإعلام للحصول على تعليق رسمي منها حول هذه المسألة، مع إمكانية تحديث التفاصيل لاحقاً عند ورود أي رد من الشركة.
تعليقات