روبوتات الدردشة التي تعمل بالذكاء الاصطناعي مثل نظرًا لأن كل من ChatGPT و Google Bard يقضيان لحظة – يعد الجيل التالي من أدوات برامج المحادثة بفعل كل شيء بدءًا من تولي عمليات البحث على الويب الخاصة بنا إلى إنتاج مخزون لا نهائي من المؤلفات الإبداعية إلى تذكر كل معارف العالم حتى لا نضطر إلى ذلك.
تعد ChatGPT و Google Bard والروبوتات الأخرى مثلهم أمثلة لنماذج اللغات الكبيرة أو LLMs ، ومن المفيد البحث في كيفية عملها. هذا يعني أنك ستكون قادرًا على الاستفادة منها بشكل أفضل ، ولديك تقدير أفضل لما يجيدونه (وما لا ينبغي الوثوق بهم حقًا).
مثل الكثير من أنظمة الذكاء الاصطناعي – مثل تلك المصممة للتعرف على صوتك أو إنشاء صور قطط – يتم تدريب LLM على كميات هائلة من البيانات. كانت الشركات التي تقف وراءها حذرة إلى حد ما عندما يتعلق الأمر بالكشف عن مصدر تلك البيانات بالضبط ، ولكن هناك أدلة معينة يمكننا النظر إليها.
على سبيل المثال ، تشير الورقة البحثية التي تقدم نموذج LaMDA (نموذج اللغة لتطبيقات الحوار) ، الذي بني عليه Bard ، إلى Wikipedia و “المنتديات العامة” و “مستندات الشفرة من المواقع ذات الصلة بالبرمجة مثل مواقع الأسئلة والأجوبة والبرامج التعليمية وما إلى ذلك.” وفي الوقت نفسه ، يريد Reddit البدء في فرض رسوم للوصول إلى 18 عامًا من المحادثات النصية ، وأعلن StackOverflow للتو عن خطط لبدء الشحن أيضًا. المعنى الضمني هنا هو أن LLM كانت تستخدم على نطاق واسع كلا الموقعين حتى هذه النقطة كمصادر ، مجانًا تمامًا وعلى ظهور الأشخاص الذين قاموا ببناء واستخدام هذه الموارد. من الواضح أن الكثير مما هو متاح للجمهور على الويب قد تم كشطه وتحليله بواسطة LLM.
تتم معالجة كل هذه البيانات النصية ، أينما جاءت ، من خلال شبكة عصبية ، وهي نوع شائع الاستخدام من محركات الذكاء الاصطناعي المكونة من عدة طبقات وطبقات. تعمل هذه الشبكات باستمرار على تعديل الطريقة التي تفسر بها البيانات وتعقلها بناءً على مجموعة من العوامل ، بما في ذلك نتائج التجربة والخطأ السابقين. تستخدم معظم LLM بنية شبكة عصبية محددة تسمى المحول ، والتي تحتوي على بعض الحيل المناسبة بشكل خاص لمعالجة اللغة. (يشير مصطلح GPT بعد الدردشة إلى المحولات التوليدية المحددة مسبقًا.)
على وجه التحديد ، يمكن للمحول قراءة كميات هائلة من النص ، وتحديد الأنماط في كيفية ارتباط الكلمات والعبارات ببعضها البعض ، ثم إجراء تنبؤات حول الكلمات التي يجب أن تأتي بعد ذلك. ربما سمعت أن LLMs تمت مقارنتها بمحركات التصحيح التلقائي فائقة الشحن ، وهذا في الواقع ليس بعيدًا عن الواقع: لا يعرف ChatGPT و Bard أي شيء حقًا ، لكنهما جيدان جدًا في معرفة الكلمة التي تلي أخرى ، والتي تبدأ في تبدو وكأنها فكر وإبداع حقيقي عندما تصل إلى مرحلة متقدمة بما فيه الكفاية.
إحدى الابتكارات الرئيسية لهذه المحولات هي آلية الانتباه الذاتي. من الصعب شرح ذلك في فقرة ، ولكنه يعني في جوهره أن الكلمات في الجملة لا يتم اعتبارها منعزلة ، ولكن أيضًا فيما يتعلق ببعضها البعض بطرق متنوعة ومتطورة. إنه يسمح بمستوى أكبر من الفهم مما يمكن أن يكون ممكنًا.
هناك بعض العشوائية والاختلافات المضمنة في الكود ، وهذا هو السبب في أنك لن تحصل على نفس الاستجابة من روبوت محوّل في كل مرة. تشرح فكرة التصحيح التلقائي هذه أيضًا كيف يمكن أن تتسلل الأخطاء. على المستوى الأساسي ، لا يعرف كل من ChatGPT و Google Bard ما هو دقيق وما هو غير دقيق. إنهم يبحثون عن ردود تبدو معقولة وطبيعية ، وتتوافق مع البيانات التي تم تدريبهم عليها.