أخبار تكنولوجيا المعلومات

تترجم الأخبار التكنولوجية من المجلات الأجنبية جيدًا للمهوسين الذين لا يعرفون اللغة الإنجليزية ولكنهم يريدون دائمًا أن يكونوا على دراية

يُعرف بأنه أقوى بديل لـ ChatGPT، كيف يعمل بعد التحديث الرئيسي، مرفق رابط تجريبي.

إذا سألت ما هو أقوى مساعد الذكاء الاصطناعي في الوقت الحالي؟ ليس هناك شك في أنه بالتأكيد ChatGPT.

منذ وقت ليس ببعيد، انهار ChatGPT بشكل غير متوقع، مما أدى إلى زيادة عدد المستخدمين بكثرة على الإنترنت. الطلاب الذين اعتمدوا عليه لإكمال واجباتهم المدرسية لم يتمكنوا من كتابة أوراقهم لفترة من الوقت، والعمال المهاجرين الذين اعتمدوا عليه "لإدامة حياتهم" لم يرغبوا حتى في الذهاب إلى الفصل.

منذ هذا العام، "يموت ChatGPT فجأة" من حين لآخر. قد يكون Claude، المعروف بأنه أقوى بديل له، هو البديل الأكثر موثوقية.

مضاعفة السياق، كلود 2.1 التحديث الكبير

من قبيل الصدفة، تلقى كلود مؤخرًا موجة من التحديثات الكبيرة. في الماضي، كان السياق الذي يمكن لـ Claude التعامل معه هو 100000 رمز فقط (الرمز هو أصغر وحدة في معالجة النص، مثل كلمة أو عبارة). الآن يمكن لإصدار Claude 2.1 Pro التعامل مع ما يصل إلى 200 ألف سياق.

يقول المسؤولون الإنسانيون إن سياق 200 ألف يساوي تقريبًا 150 ألف كلمة أو 500 صفحة من النص، مما يعني أنه يمكنك تحميل مكتبات الأكواد أو البيانات المالية أو الأعمال الأدبية الطويلة لكي يقوم كلود بتلخيصها، والأسئلة والأجوبة، والتنبؤ بالاتجاهات، ومقارنة المستندات المتعددة ومقارنتها.

إذن، ما مدى قدرتها على التعامل مع اللغة الصينية؟ يمكننا تقديم تفسير بسيط مع الطائرة Yi-34B المثيرة للجدل سابقًا. تم إصدار أيضًا إصدار يدعم 200 ألف نوافذ سياقية طويلة جدًا.يمكن لـ Yi-34B التعامل مع إدخال نص طويل للغاية يبلغ حوالي 400000 حرف صيني، وهو ما يعادل طول كتاب "العلماء" تقريبًا.

فيما يتعلق بنماذج اللغة، يمكن للسياق الطويل أن يوفر استخدامًا ومعنى أكثر دقة، ويساعد في إزالة الغموض، ويساعد النموذج في توليد نص متماسك ودقيق، على سبيل المثال، تظهر كلمة "تفاحة" في "قطف الفاكهة" أو "آيفون الجديد"، المعنى مختلف تماما.

ومن الجدير بالذكر أنه قبل استعادة GPT-4 وظيفة الشبكة في الوقت الفعلي، كان بإمكان Claude المجاني الوصول إلى روابط الويب وتلخيص محتوى الويب في الوقت الفعلي، وحتى الآن، هذه ميزة لا يتمتع بها GPT-3.5.

يمكن للنسخة المجانية من Claude أيضًا قراءة وتحليل وتلخيص المستندات التي تقوم بتحميلها، وحتى لو واجهت GPT-4 "المدفوعة"، فإن أداء Claude في معالجة المستندات ليس سيئًا على الإطلاق.

وقمنا أيضًا "بتغذية" تقرير صناعة الواقع الافتراضي المكون من 90 صفحة لإصدار الويب الحالي من Claude وGPT-4، وطرحنا نفس الأسئلة.

لا توجد فجوة في سرعة الاستجابة بين الاثنين، لكن النسخة المجانية من ردود كلود أكثر سلاسة وجودة الإجابات أعلى قليلاً، كما أن وظيفة البحث في GPT-4 محدودة أيضًا بسبب الترحيل والمشاهدات، وهو أمر غير مقبول تمامًا -روحي.

إن البحث مجرد "لعبة أطفال". وكأداة لتحسين التعلم أو كفاءة العمل، فإن ما نحتاج إليه هو نموذج أكثر "ذكاءً". عندما طلبت منهم تحليل المشهد المتغير لصناعة الواقع الافتراضي خلال خمس سنوات، على الرغم من أنهم جميعًا عبروا عن وجهات نظر مماثلة، فاز كلود بإجابة منطقية ومبنية على النقاط.


المفتاح هو ما إذا كان يمكنك الإجابة عليه بشكل صحيح أم لا. شهدنا في العام الماضي العديد من الحالات المؤسفة التي تم فيها خداع العارضات الكبيرات بـ "الحديث عن القطار". زعمت Anthropic أن Claude 2.1 قلل من البيانات الكاذبة أو الهلوسة بمقدار 2 مرات، لكنها لم تقدم بيانات واضحة، لدرجة أن عالم NVIDIA جيم فان تساءل: "الحل الأسهل لتحقيق 0٪ هلوسة هو رفض الإجابة على كل سؤال. . "

صممت Anthropic أيضًا العديد من أسئلة الفخ لاختبار صدق كلود 2.1. تُظهر جولات متعددة من النتائج أنه عند مواجهة نقاط عمياء في المعرفة، يفضل كلود 2.1 التعبيرات غير المؤكدة بدلاً من خداع المستخدمين من خلال إنشاء إجابات خادعة.

الفهم البسيط هو أنه إذا كانت خريطة المعرفة لكلود 2.1 لا تحتوي على مثل هذا الاحتياطي مثل "عاصمة مقاطعة قوانغدونغ ليست هاربين"، فسوف تقول بصدق "لست متأكدًا مما إذا كانت عاصمة مقاطعة قوانغدونغ هي هاربين" بدلاً من القول بشكل قاطع "قوانغدونغ ليست هاربين". عاصمة المقاطعة هي هاربين."

تبلغ تكلفة الاشتراك في Claude Pro حوالي 20 دولارًا ويمكن استخدامه خمسة أضعاف الإصدار المجاني، وسيختلف عدد الرسائل التي يمكن للمستخدم العادي إرسالها بناءً على طول الرسالة. سيرسل كلود تذكيرًا عندما يتبقى 10 رسائل.

بافتراض أن طول محادثتك هو حوالي 200 جملة إنجليزية تتكون كل منها من 15 إلى 20 كلمة، فيمكنك إرسال 100 رسالة على الأقل كل 8 ساعات. إذا قمت بتحميل مستند بحجم The Great Gatsby، فقد تتمكن من إرسال 20 رسالة فقط خلال الـ 8 ساعات القادمة.

بالإضافة إلى المستخدمين العاديين، أطلق Claude 2.1 أيضًا إصدارًا تجريبيًا يسمى "استخدام الأدوات" استنادًا إلى احتياجات المطورين، مما يسمح للمطورين بدمج Claude في العمليات والمنتجات وواجهات برمجة التطبيقات الحالية للمستخدمين.

بمعنى آخر، يمكن لـ Claude 2.1 استدعاء وظائف البرنامج المحددة من قبل المطور أو استخدام واجهات API التي توفرها خدمات الطرف الثالث، والاستعلام عن المعلومات من محركات البحث للإجابة على الأسئلة، والاتصال بقواعد البيانات الخاصة، واسترجاع المعلومات من قاعدة البيانات.

يمكنك تحديد مجموعة من الأدوات ليستخدمها كلود ويحدد الطلبات. سيقرر كلود بعد ذلك الأدوات اللازمة لإكمال المهمة وتنفيذ الإجراءات نيابةً عنها، مثل استخدام الآلات الحاسبة لإجراء تفكير رقمي معقد، وتحويل طلبات اللغة الطبيعية إلى استدعاءات واجهة برمجة التطبيقات (API) المنظمة، وما إلى ذلك.

قامت Anthropic أيضًا بإجراء سلسلة من التحسينات لتقديم خدمة أفضل لمطوري Claude API، وكانت النتائج كما يلي 👇

  • تعمل وحدة تحكم المطور على تحسين التجربة وواجهة المستخدم لجعل التطوير المستند إلى Claude API أكثر ملاءمة
  • من الأسهل اختبار المطالبات الجديدة (مطالبات/أسئلة الإدخال)، مما يؤدي إلى التحسين المستمر للنموذج
  • السماح للمطورين بتكرار وتجربة مطالبات مختلفة في بيئة وضع الحماية
  • يمكن إنشاء مطالبات متعددة لمشاريع مختلفة وتبديلها بسرعة
  • سيتم حفظ التعديلات التي تم إجراؤها على المطالبة تلقائيًا لتسهيل التراجع عنها.
  • يدعم دمج التعليمات البرمجية التي تم إنشاؤها في SDK وتطبيقها على المشاريع الفعلية

بالإضافة إلى ذلك، يقدم كلود 2.1 أيضًا وظيفة "موجه النظام"، وهي طريقة لتوفير السياق والتعليمات لكلود، مما يسمح لكلود بالحفاظ على شخصيته بشكل أكثر استقرارًا أثناء لعب الأدوار، مع الحفاظ على الشخصية والإبداع في الحوار. . بالطبع، على عكس التطبيقات السريعة البسيطة، تم تصميم هذه الوظيفة بشكل أساسي للمطورين والمستخدمين المتقدمين، ويتم استخدامها في واجهة API بدلاً من صفحة الويب.

مثل Claude 2.0، تبلغ تكلفة Claude 2.1 8 دولارات لكل إدخال مكون من مليون رمز، وهو أرخص بدولارين من GPT-4 Turbo، ويبلغ الإخراج 24 دولارًا، وهو أرخص بـ 6 دولارات من GPT-4 Turbo. تبلغ تكلفة إصدار Claude Instant، المناسب لزمن الوصول المنخفض والإنتاجية العالية، 1.63 دولارًا أمريكيًا لكل مليون رمز مميز مُدخل و5.51 دولارًا أمريكيًا للمخرجات.

ChatGPT قاتل أم بديل؟

في الوقت الحالي، على الرغم من أن Claude 2.1 قوي للغاية، إلا أنه لا يمكن أن يكون بمثابة بديل لـ ChatGPT إلا عند تعطله. لا يزال هناك طريق طويل لنقطعه قبل أن يتمكن من تخريب ChatGPT. لاستخدام تشبيه فضفاض، يشبه كلود 2.1 نسخة المتسول من GPT-4.

لنأخذ على سبيل المثال 200K، وهو الأفضل في Claude 2.1 Pro. على الرغم من أن Claude 2.1 Pro لديه قوة معالجة أقوى نظريًا من 128K GPT-4 Turbo، إلا أن النتائج الفعلية تظهر أنه من حيث القدرة على تذكر السياق وفهمه بدقة، فإن Claude 2.1 Pro لا يزال أفضل، وهو أدنى بكثير من GPT-4 Turbo.

بعد مؤتمر مطوري OpenAI، اختبر مستخدم الإنترنت جريج كامرادت قدرة استدعاء السياق لـ GPT-4-128K. باستخدام 218 مقالة لبول جراهام (مبرمج أمريكي مشهور) لاستخراج 128 ألف نص، قام بشكل عشوائي بإدراج عبارة واقعية في مواضع مختلفة من هذه المقالات (من 0% في الأعلى إلى 100% في الأسفل): "على "يوم مشمس، تناول شطيرة في دولوريس بارك هو أفضل شيء يمكنك القيام به في سان فرانسيسكو هذه الأيام."

ثم طلب من نموذج GPT-4 Turbo استرداد بيان الحقيقة والإجابة على الأسئلة ذات الصلة حول بيان الحقيقة، وأخيرًا استخدم طريقة تقييم LangChain AI المستخدمة بشكل شائع في الصناعة لتقييم الإجابات المقدمة.

▲يمثل اللون الأخضر دقة استرجاع أعلى، ويمثل اللون الأحمر دقة استرجاع أقل. صورة من: @LatentSpace2000

تظهر نتائج التقييم في الشكل أعلاه.يمكن لـ GPT-4 Turbo الحفاظ على دقة ذاكرة عالية ضمن طول رمزي يبلغ 73 ألفًا. إذا كانت المعلومات في بداية المستند، فمن الممكن دائمًا استرجاعها بغض النظر عن طول السياق. فقط عندما تقع المعلومات المطلوب استرجاعها في نطاق 10%-50% من المستند، تبدأ دقة GPT-4 Turbo في الانخفاض.

وللمقارنة، حصل مستخدم الإنترنت هذا أيضًا على مؤهل الاختبار الداخلي لـ Claude 2.1 Pro مسبقًا، وأجرى أيضًا اختبار "إبرة في كومة قش". انطلاقًا من نتائج التقييم، في مستند يبلغ طوله 200000 رمز (حوالي 470 صفحة)، مثل GPT-4 Turbo، يكون تأثير استرجاع المعلومات الموجودة في مقدمة مستند Claude 2.1 Pro أسوأ من تأثيره في الخلف.

▲يمثل اللون الأخضر دقة استرجاع أعلى، بينما يمثل اللون الأحمر دقة استرجاع أقل.

ومع ذلك، فإن النطاق الذي يتمتع فيه Claude 2.1 Pro بتأثير أفضل لطول السياق هو قبل 24K، وهو أقل بكثير من GPT-4 Turbo البالغ 73K. بعد تجاوز 24K يبدأ أداء ذاكرة Claude 2.1 Pro بالتراجع بشكل ملحوظ، وبعد 90K يصبح التأثير أسوأ وتزداد نسبة الخطأ بشكل ملحوظ.

يمكن ملاحظة أنه مع زيادة طول السياق، تتناقص دقة الكشف لكل من GPT-4 Turbo وClaude 2.1 Pro تدريجيًا. على الرغم من أن اختبار Claude 2.1 Pro يغطي سياقًا أوسع، إلا أن GPT-4 Turbo لا يزال بحاجة إلى اللحاق بـ Claude 2.1 Pro مقارنة بالدقة العملية الأكثر.

ربما يكون كلود أحد أقوى النماذج الكبيرة في النسخة المجانية. إذا كنت عامل نص، فعندما يتعطل ChatGPT، يستطيع Claude، الذي يشبه GPT-3.8، حل احتياجاتك العاجلة، أو حتى تقديم أداء أفضل.

ومع ذلك، فإن GPTs الشخصية وDALL·E3 لتسهيل إنشاء الصور والاتصال الصوتي والوظائف الأخرى هي الخنادق النادرة لـ ChatGPT. في مواجهة GPT-4 Turbo القوي، يجب أيضًا هزيمة إصدار Claude 2.1 Pro الذي تمت ترقيته.

أخيرًا، إليك رابط تجربة كلود: https://claude.ai/login إذا تعطل ChatGPT مرة أخرى، استرخ، على الأقل لا يزال لديك كلود.

# مرحبًا بكم في متابعة حساب WeChat العام الرسمي لـ aifaner: aifaner (معرف WeChat: ifanr). سيتم توفير المزيد من المحتوى المثير لك في أقرب وقت ممكن.

Ai Faner الرابط الأصلي · عرض التعليقات · سينا ​​ويبو