في الطب الحديث، يعيش الذكاء الاصطناعي مفارقة لافتة:النماذج اللغوية الكبيرة تُظهر أداءً قويًا جدًا في الاختبارات الطبية النظرية، لكنها لا تحقق بالضرورة النتيجة نفسها عندما يستخدمها الناس العاديون لاتخاذ قرارات صحية فعلية.هذه المفارقة هي جوهر دراسة حديثة منشورة في Nature Medicine، ونقلتها رويترز، خلصت إلى أن سؤال أدوات الذكاء الاصطناعي عن الأعراض الطبية لم يساعد المشاركين على اتخاذ قرارات صحية أفضل مقارنة بوسائل تقليدية مثل البحث على الإنترنت أو المواقع الصحية المعتادة.
أهمية هذه الدراسة لا تكمن فقط في نتائجها، بل في ما تكشفه عن فجوة منهجية وفكرية واسعة في تقييم الذكاء الاصطناعي الصحي.فالسردية الشائعة تقول:"إذا كان النموذج يجيب جيدًا في الامتحان، إذن يمكنه مساعدة الناس في الواقع".لكن الدراسة تضرب هذه الفرضية في مركزها، وتُظهر أن امتلاك المعرفة الطبية داخل النموذج لا يعني تلقائيًا أن المستخدم سيحصل على قرار أفضل أو أكثر أمانًا.Nature Medicine تصف هذه المفارقة بوضوح:النماذج قد تحقق نتائج عالية على مهام طبية معيارية، لكن ذلك لا يضمن أداءً دقيقًا في الاستخدام الواقعي مع بشر غير متخصصين.
الدراسة نفسها صُممت بطريقة مهمة منهجيًا.قادها باحثون من معهد أكسفورد للإنترنت، وبالتعاون مع أطباء، ووضعوا 10 سيناريوهات طبية تتدرج من حالات بسيطة نسبيًا مثل نزلات البرد إلى حالات خطيرة مهددة للحياة مثل نزيف تحت العنكبوتية.ثم جرى اختبار ما إذا كان الناس العاديون، عند استخدامهم نماذج لغوية كبيرة، يصبحون أفضل في تحديد الحالة المحتملة واتخاذ"الخطوة التالية"الصحيحة مثل الذهاب للطبيب أو طلب إسعاف أم لا.الدراسة شملت 1,298 مشاركًا في بريطانيا، وجرى توزيعهم عشوائيًا بين مجموعة تستخدم الذكاء الاصطناعي ومجموعة ضابطة تستخدم مصادرها المعتادة.
النتيجة التي جعلت الدراسة محبطة نسبيًا كانت مزدوجة.عندما اختُبرت النماذج وحدها أي دون تفاعل بشري، أدت بشكل قوي:حدّدت الحالات بشكل صحيح في 94.9%من السيناريوهات، وحددت الإجراء الصحيح في المتوسط بنسبة 56.3%.لكن عندما دخل المستخدم البشري إلى المعادلة، انهار جزء كبير من هذه الأفضلية:المشاركون الذين استخدموا الذكاء الاصطناعي حددوا الحالات ذات الصلة في أقل من 34.5%من الحالات، وحددوا الإجراء الصحيح في أقل من 44.2%، وهي نتائج لم تكن أفضل من المجموعة التي استخدمت وسائل تقليدية(Mahdi et al.,2026).
هنا بالضبط تكمن القيمة التحليلية للدراسة:المشكلة ليست فقط"هل الذكاء الاصطناعي يعرف؟"، بل"هل يعرف البشر كيف يستخدمونه؟"و"هل يستطيع النظام توجيه البشر بطريقة آمنة عندما تكون المعلومات ناقصة أو صياغة السؤال ضعيفة؟".رويترز نقلت عن الباحث آدم مهدي وصفه لـ"فجوة ضخمة"بين إمكانات الذكاء الاصطناعي وأدائه الفعلي عند استخدامه من الناس(Reuters,2026).هذه الفجوة ليست تقنية خالصة، بل تفاعلية أيضًا:المعرفة موجودة، لكن ترجمتها إلى قرار بشري صحيح تتعثر أثناء الحوار بين الإنسان والنموذج.
بيان جامعة أكسفورد المرافق للدراسة يشرح هذه النقطة بصورة أكثر عملية.الباحثون وصفوا ما يشبه"انهيارًا ثنائي الاتجاه"في التواصل:المستخدمون غالبًا لا يعرفون ما المعلومات التي يحتاجها النموذج لكي يعطي نصيحة دقيقة، وفي المقابل كانت إجابات النماذج تمزج أحيانًا بين توصيات جيدة وأخرى سيئة، ما يصعب على المستخدم العادي التمييز بينها.كما أشاروا إلى أن اختلافات صغيرة في صياغة السؤال قد تؤدي إلى إجابات مختلفة بشكل ملحوظ.هذه ليست مشكلة"ذكاء"بالمفهوم الضيق، بل مشكلة موثوقية واستقرار تفاعلي في سياق عالي الخطورة مثل الصحة(University of Oxford,2026).
وأحد الأمثلة التي أبرزتها رويترز شديد الدلالة:مشارك وصف أعراضًا تتطابق مع نزيف تحت العنكبوتية تيبّس الرقبة، حساسية للضوء، و"أسوأ صداع في الحياة"فتلقى نصيحة صحيحة بالذهاب إلى المستشفى.بينما مشارك آخر وصف أعراضًا مشابهة لكن بصياغة مختلفة قليلًا"صداع فظيع"بدل الصياغة الأكثر كلاسيكية، فتلقى نصيحة بالاستلقاء في غرفة مظلمة(Reuters,2026).المثال هنا لا يثبت فقط وجود خطأ، بل يوضح حساسية مقلقة في النظام تجاه اللغة المستخدمة من الشخص غير المتخصص.
هذه النتيجة تصطدم أيضًا مع هالة"النجاح في الاختبارات".الدراسة نفسها تبدأ من الاعتراف بأن النماذج اللغوية الكبيرة باتت تسجل أداءً قويًا في مهام طبية واختبارات معرفية، وأن هناك تصورًا متزايدًا بأنها قد تصبح"الباب الأمامي الجديد"للرعاية الصحية، خاصة للأشخاص الذين يفتقرون إلى الوصول السريع للطبيب(Mahdi et al.,2026).لكن ما تُظهره هذه الورقة هو أن النجاح في بيئة محكومة لا يساوي النجاح في الممارسة الاجتماعية اليومية.
تحليليًا، يمكن فهم النتيجة عبر ثلاث طبقات.الطبقة الأولى هي طبقة"جمع المعلومات":المريض العادي لا يصف الأعراض كما يصفها الطبيب، وقد يستخدم لغة مبهمة أو ناقصة أو متأثرة بالخوف.الطبقة الثانية هي طبقة"استجابة النموذج":قد يقدّم النموذج جوابًا صحيحًا جزئيًا لكنه ممزوجًا بتطمينات أو احتمالات مربكة.الطبقة الثالثة هي طبقة"اتخاذ القرار":حتى لو احتوت الإجابة على عناصر صحيحة، قد يعجز المستخدم عن استخراج القرار العملي الصحيح منها.الدراسة لا تقول إذن إن النماذج عديمة الفائدة، لكنها تقول إن تحويل المعرفة الطبية إلى سلوك صحي آمن يتطلب أكثر من مجرد نموذج قوي(Mahdi et al.,2026).
ومن هنا تأتي الرسالة الأهم سياسيًا وتنظيميًا:تقييم أدوات الذكاء الاصطناعي الصحية لا ينبغي أن يعتمد فقط على اختبارات معيارية أو"دقة النموذج وحده".الباحثون شددوا على أن الاختبارات الحالية لا تعكس تعقيد التفاعل الإنساني الحقيقي، واقترحوا مبدأ مهمًا:كما نختبر الأدوية في تجارب واقعية قبل اعتمادها، يجب اختبار أنظمة الذكاء الاصطناعي في ظروف استخدام واقعية ومتنوعة قبل نشرها على نطاق واسع في مجالات عالية الخطورة.هذا تحول مهم من سؤال"هل النموذج ذكي؟"إلى سؤال"هل النظام آمن عند الاستخدام البشري؟"(University of Oxford,2026).
كما أن الدراسة لا تُغلق الباب أمام الذكاء الاصطناعي الطبي، بل تعيد ترتيب التوقعات.قد تكون النماذج مفيدة في أدوار محددة:شرح معلومات عامة، مساعدة المستخدم على تنظيم أعراضه قبل زيارة الطبيب، أو توجيهه إلى مصادر رسمية.لكن استخدامها كبديل شبه تشخيصي مباشر لعامة الناس ما يزال محفوفًا بالمخاطر، خصوصًا عندما يكون القرار المطلوب حساسًا زمنيًا مثل الذهاب للطوارئ أو الاكتفاء بالراحة المنزلية.
خلاصة هذه الدراسة ليست"الذكاء الاصطناعي فشل في الطب"، بل شيء أدق وأكثر فائدة:الذكاء الاصطناعي قد يحمل معرفة طبية قوية، لكن فعاليته كمساعد صحي للجمهور تعتمد على جودة التفاعل، وتصميم الواجهة، وصياغة الأسئلة، وقدرة المستخدم على تفسير الإجابة.وهذا بالضبط ما يجعل النتيجة محبطة ومهمة في آن واحد.فهي لا تهدم الأمل، لكنها تمنع الوهم.وفي سياق صحي عالي المخاطر، هذه الواقعية العلمية ربما تكون أهم من أي وعود تسويقية عن"تفوق الذكاء الاصطناعي في كل شيء".

التعليقات