لقد كان علي أن أغير ChatGPT صوتٌ للرجل البريطاني المُنزعج. أخشى أن يُعجبني الصوت إذا كان ودودًا جدًا.
مثل ذلك الرجل في ذلك الفيلم.
دعونا نتحدث عن المساعدين الصوتيين.
كانت سيري في السابق موضع سخرية. ولكن بينما كنا ننشغل بسؤال سيري عن كيفية إخفاء الجثث، انتشر الذكاء الاصطناعي الصوتي بهدوء في جميع أنحاء السوق. وبحلول عام ٢٠٢٥، ستُصبح ٦٧٪ من المؤسسات تعتبر الذكاء الاصطناعي الصوتي جوهر أعمالها .
تدرك هذه المنظمات أن وكلاء الذكاء الاصطناعي أفضل في قدرات الكلام.
أوه، وماذا عن الفيلم الذي أشرت إليه؟ ليس بعيدًا كل البعد. من المتوقع أن يكون استحواذ Open AI الأخير على io بهدف بناء مساعد صوتي غير تدخلي، دائم الوعي.
هل تعلم، صديق صغير في أذنك في جميع الأوقات.
إذن ها نحن ذا: أصبحت أليكسا أكثر قابلية للتعرف عليها كمنتج من كونها اسم شخص، ويقوم الرؤساء التنفيذيون لشركات الذكاء الاصطناعي بالتقاط صور خطوبة معًا، وقد قامت ثلثي الشركات بالفعل بحفظ التاريخ .
وإذا لم تكوني على رأس الأمر، فأنتِ يا أختي متخلفة .
وهذا أمر مفهوم. فالتكنولوجيا غامضة، ولا يوجد الكثير من الأشخاص الذين يشرحون كيفية عملها . ولكن، من يملك إبهامين وشهادة جامعية في تكنولوجيا الكلام؟
(لا يمكنك الرؤية ولكنني أرفع إبهامي.)
(...هل تعلم من هم الأشخاص الذين لا يستطيعون الرؤية؟ المساعدون الصوتيون.)
(أنا أستطرد.)
أكتب هذه المقالة لأُطلعكم على آخر المستجدات. سنتحدث عن المساعدين الصوتيين بالذكاء الاصطناعي: كيفية عملهم، وما يُمكنكم فعله بهم، وأسباب اختيار العديد من الشركات دمجهم في عملياتها.
ما هو المساعد الصوتي للذكاء الاصطناعي؟
المساعد الصوتي المُدعّم بالذكاء الاصطناعي هو برنامج مُدعّم بالذكاء الاصطناعي، يُعالج مُدخلات الكلام، ويفهمها، ويُنفّذ المهام، ويُقدّم ردودًا للمستخدم. تُستخدم هذه المُساعدات في مختلف القطاعات وحالات الاستخدام، مُضيفةً لمسةً شخصيةً إلى إدارة المهام ودعم العملاء.
كيف تعمل المساعدات الصوتية بالذكاء الاصطناعي؟

تُعدّ مساعدات الذكاء الاصطناعي الصوتية تكاملاً معقداً لتقنيات الذكاء الاصطناعي . ففي الثواني القليلة الفاصلة بين التقاط صوت المستخدم وتوليد الاستجابة، يتم تفعيل عدد من العمليات لضمان تفاعل سلس.
التعرف التلقائي على الكلام (ASR)
يُطلق على التعرف التلقائي على الكلام أحيانًا اسم تحويل الكلام إلى نص، لأن هذا هو ما هو عليه.
عندما يتحدث المستخدم إلى جهازه - سواءً كان هاتفًا أو مساعدًا منزليًا أو لوحة قيادة سيارة - يُحوَّل كلامه إلى نص. ولتحقيق ذلك، تُدرَّب الشبكات العصبية العميقة على التنبؤ بنسخ المقطع الصوتي .
بعد التدريب على آلاف الساعات من بيانات الكلام عبر ملايين المقاطع المختلفة التي تتضمن متحدثين مختلفين ولهجات وظروف ضوضاء، أصبحت نماذج الذكاء الاصطناعي هذه جيدة جدًا في النسخ.
وهذا أمر مهم - فالخطوة الأولى في النظام متعدد الطبقات يجب أن تكون قوية.
معالجة اللغة الطبيعية (NLP)
وبعد نسخ إدخال الكلام، ينتقل النموذج إلى تفسيره.
NLP هو المفهوم الشامل لجميع التقنيات المستخدمة لتحليل استعلام المستخدم (كنص منقول) إلى وحدات ذات قصد ومعناها.
التعرف على النية
النص غير مُهيكل، ومهمة استخلاص المعنى ليست بالسهلة. إليك بعض الأسئلة:
- "حدد موعدًا للمكالمة مع أنيكا يوم الثلاثاء الساعة 1."
- "هل يمكنك أن تلعب دور شير؟"
- "ما الذي يتناسب جيدًا مع جبن الماعز؟"
سيمتلك مساعد الذكاء الاصطناعي سلسلة محدودة من النوايا. بالنسبة لروبوتنا، سيتضمن ذلك:
- حجز المواعيد
- تشغيل الوسائط
- ربما البحث في الويب ، و
- محادثة غير رسمية
يعد التعرف على النية مسؤولاً عن تصنيف كل استعلام مستخدم إلى إحدى هذه الفئات.
إذن، في أي نموذج يندرج كل من أمثلتنا؟
"جدولة مكالمة..." تُصاغ كأمر. بسيطة نسبيًا. "هل يمكنك...؟" تُصاغ كسؤال. لكنها أيضًا أمر، مثل الاستعلام السابق. في كلتا الحالتين، تفهم الإجراء المطلوب بديهيًا، ولكن ليس من السهل صياغته رسميًا.
"ما الذي يتناسب جيدًا مع ...؟" هو أمر بسيط - نوعًا ما.
نعرف الإجابة التي نريدها: الطعام. لكن ليس واضحًا تمامًا من أين نحصل على الإجابة.
هل ينبغي البحث في الإنترنت؟ إذا كان الأمر كذلك، فكم عدد الإجابات التي ينبغي تقديمها؟ لن تكون النتيجة الأولى شاملة، ولكن تقديم الكثير من الإجابات قد يُعقّد مهمة بسيطة.
ومن ناحية أخرى، ربما يكون من الممكن أن تستخرج فقط معلومات من معرفتها الداخلية - لكننا نستبق الأحداث.
خلاصة القول هي: إن الاختيار ليس دائمًا بسيطًا، وتعقيد هذه المهمة له علاقة كبيرة بتصميم - أو شخصية - الروبوت كما له علاقة باستعلام المستخدم.
التعرف على الكيان المسمى
بالإضافة إلى معرفة المهمة التي يجب تنفيذها، يحتاج الروبوت إلى التعرف على المعلومات المقدمة.
يُعنى التعرف على الكيانات المُسمّاة باستخراج الوحدات ذات المعنى - أو الكيانات المُسمّاة - من نص غير مُهيكل . على سبيل المثال، تحديد أسماء الأشخاص، أو الفنانين الموسيقيين، أو التواريخ في استعلام المستخدم.
دعونا نلقي نظرة على الاستعلام الأول مرة أخرى:
- "حدد موعدًا للمكالمة مع أنيكا يوم الثلاثاء الساعة 1."
أنيكا شخص، ويُفهم من الاستعلام أن المستخدم يعرفها . هذا يجعلها - على الأرجح - جهة اتصال.

في هذه الحالة، سيتم برمجة "جهة الاتصال" مسبقًا ككيان، وسيكون للروبوت إمكانية الوصول إلى جهات اتصال المستخدم.
ينطبق هذا على الأوقات والمواقع وأي معلومات أخرى ذات معنى قد تكون مخفية في استعلام المستخدم.
استرجاع المعلومات
بعد فهم ما تريد، يبحث المساعد الصوتي عن المعلومات ذات الصلة لمساعدته على الاستجابة. الروبوت الجيد مزود بمجموعة متكاملة من الإضافات لتلبية احتياجاتك.
لقد تحدثنا سابقًا عن المعرفة الداخلية. أنا متأكد أنك انبهرت في مرحلة ما بنماذج اللغة الكبيرة . LLM ) ومعرفتهم الواسعة. وهذا أمرٌ مثيرٌ للإعجاب، ولكن مع ازدياد تخصص استفساراتك، تبدأ الشقوق بالظهور.
الاسترجاع-التوليد المعزز (RAG)
يتمتع المساعد الجيد بإمكانية الوصول إلى مصادر المعرفة الخارجية، ولا يعتمد فقط على المعرفة التي اكتسبها أثناء التدريب . يُحدد RAG استجابات الذكاء الاصطناعي بناءً على تلك المعرفة.
المعرفة، في هذه الحالة، تشير إلى المستندات، أو الجداول، أو الصور، أو أي شيء يمكن معالجته رقميًا بشكل أساسي.
يقوم بالبحث عبر الوثائق، واستخراج العناصر الأكثر صلة باستعلام المستخدم واستخدامها لإعلام استجابات النموذج .
- في بعض الأحيان يكون من مصلحة LLMs تحسين معلوماته ، مثل أن يشير إلى الأدبيات الأكاديمية عند إجراء البحث.
- وفي أحيان أخرى، يتعلق الأمر بإتاحة الوصول إلى المعلومات التي لا يستطيع النموذج الوصول إليها بخلاف ذلك ، مثل بيانات العملاء.
وفي كلتا الحالتين، فإنه يتمتع بميزة إضافية تتمثل في الاستشهاد بمصادره، مما يجعل الاستجابات أكثر موثوقية وقابلة للتحقق.
واجهات برمجة التطبيقات والتكاملات
بنفس الطريقة التي LLM يمكن أن تتفاعل مع المعلومات الخارجية، وتسمح لها واجهات برمجة التطبيقات والتكاملات بالتفاعل مع التقنيات الخارجية.
هل تريد حجز موعد Google Meets عبر Calendly هل ترغب في متابعة عميل محتمل من HubSpot تم تقييمه باستخدام برنامج Clearbit؟ ما لم تقم بإنشاء التقويم، وتقنية مؤتمرات الفيديو، ونظام إدارة علاقات العملاء، وأداة التحليلات (وهو أمر غير مستحسن إطلاقًا)، فستحتاج إلى التكامل⚡️.
عادةً ما تحتوي أدوات الطرف الثالث هذه على واجهات برمجة تطبيقات تعرض العمليات بحيث يمكن تنفيذها بواسطة تقنيات آلية أخرى - مثل الوكيل الخاص بك.

تُسهّل عمليات التكامل تفاعل الروبوت مع تقنيات الجهات الخارجية. فهي مبنية على واجهة برمجة تطبيقات (API)، مما يُسهّل عليك عملية التفاعل مع عميلك بسهولة.
الاستجابة وتحويل النص إلى كلام (TTS)
وبالتالي، تم نسخ مدخلات المستخدم، وتحليل نواياها، واسترجاع المعلومات ذات الصلة، وتم تنفيذ المهمة.
الآن حان وقت الرد.
سواء كان الأمر يتعلق بالإجابة على سؤال المستخدم أو التأكيد على أنه قام بأداء المهمة المطلوبة، فإن الروبوت الصوتي يقدم دائمًا استجابة.
تحويل النص إلى كلام (TTS)
المعادل والمعاكس للتعرف على الكلام هو تركيب الكلام أو تحويل النص إلى كلام .
وهذه نماذج تم تدريبها أيضًا على أزواج الكلام والنص، وغالبًا ما يتم تكييفها مع المتحدث ونبرة الصوت والعاطفة لتقديم نطق يشبه الإنسان.
يغلق TTS الحلقة التي تبدأ وتنتهي بالكلام البشري (-oid).
فوائد المساعدين الصوتيين
تُحسّن طبقة الصوت، المُضافة إلى وظائف الذكاء الاصطناعي، التجربة بشكل عام. صحيح أنها مُخصصة وسهلة الاستخدام، إلا أنها تُقدم مزايا تجارية أيضًا.
الصوت أسرع من النص
مع انتشار روبوتات الدردشة، اعتاد المستخدمون على سرعة الاستجابة. وبفضل مساعدي الذكاء الاصطناعي الصوتيين، تمكنا أيضًا من تحسين وقت الإدخال.
تُغنينا أدوات الذكاء الاصطناعي الصوتي عن الحاجة إلى صياغة جمل سليمة. بدلًا من ذلك، يُمكنك التعبير عن أفكارك بوضوح، وسيفهمها الروبوت.
ينطبق الأمر نفسه على الردود. سأكون أول من يعترف بأن القراءة قد تكون مُرهقة، لكنها ليست مشكلة عندما تُروى لك الردود.
ردود على مدار الساعة طوال أيام الأسبوع
سرعةٌ أخرى. مع عمل الناس عن بُعد، ومعاملات الأعمال التي تتم عبر القارات، من المستحيل حساب جميع المناطق الزمنية وساعات العمل التي ستحتاج إلى تغطيتها.
ينبغي أن تكون التفاعلات الصوتية متاحة للجميع، وليس فقط للعملاء الذين يعملون في ساعات عمل محددة. ومع مساعدي الذكاء الاصطناعي الصوتي، قد يصبح هذا واقعًا ملموسًا.
تفاعلات أكثر تخصيصًا
الحديث يتجاوز مجرد الكلمات. وجود روبوت صوتي يُضفي تجربة شخصية أكثر، ويغرس الثقة في المستخدم. إلى جانب السمات البشرية التي تتمتع بها روبوتات الدردشة بالذكاء الاصطناعي ، تُعزز طبقة الصوت التواصل.
سهولة الدمج
إن كون المساعدين الصوتيين لا يتطلب استخدام اليدين يعني أنهم أيضًا لا يحتاجون إلى واجهة مستخدم. فهم لا يتطلبون شاشات أو استخدام عينيك، وهذا ما يجعلهم شائعين جدًا في السيارات.
في الواقع، يُمكن دمجها في أي مكان يُمكن توصيل الميكروفونات به. وهذا يُعدّ تحديًا كبيرًا، ليس فقط لصغر حجم الميكروفونات، بل لأنها موجودة في كل مكان بالفعل: أجهزة الكمبيوتر، والهواتف الذكية، وحتى الهواتف الأرضية.
اذكر تقنية أخرى متطورة يمكن الوصول إليها عبر الهواتف الدوارة.

أكثر سهولة في الوصول
لا يقتصر استخدام اليدين الحرتين على الراحة فحسب، بل قد يكون ضرورةً للأشخاص ذوي الاحتياجات المتنوعة.
تتوفر المساعدات الصوتية للأشخاص ذوي التنوع في الحركة والبصر والقراءة والكتابة والذين قد يواجهون صعوبة في التعامل مع واجهات الذكاء الاصطناعي التقليدية.
حالات استخدام الروبوتات الصوتية عبر الصناعات
حسنًا، أنت مقتنع بالروبوتات الصوتية. رائع. لكن كيف تستفيد منها؟
حسنًا، الخبر السار هو أنه من الممكن تحسين كل الصناعات تقريبًا باستخدام الذكاء الاصطناعي الصوتي.
الصحيه
إجراءات الرعاية الصحية مُرهقةٌ بشكلٍ مُريب. ولسببٍ وجيه: إنها عملٌ ذو مخاطر عالية، ويجب أن تُنفَّذ على أكمل وجه. هذا المجال في حاجةٍ ماسةٍ إلى أتمتة الذكاء الاصطناعي، شريطة أن تكون موثوقةً وفعّالة.
نحن نشهد بالفعل تطبيقات الذكاء الاصطناعي في مجال الرعاية الصحية ، ويضيف الصوت مجموعة من الفرص الجديدة للتحسين.
ومن الأمثلة الرائعة على ذلك الاستبيانات الطبية: المعلومات الشخصية، والتاريخ الطبي، وما إلى ذلك.
إنها مُملة، لكنها مهمة.
إن المكاسب في السرعة والإنتاجية تخفف من عبء العمل على المتخصصين في الرعاية الصحية المثقلين بالعمل، كما أن تدفق المحادثة الشبيهة بالمحادثات البشرية يكسر رتابة الإجابة على سؤال تلو الآخر.
لقد تم أخذ إمكانية الوصول في الاعتبار، ووفقًا لخط الأنابيب القوي متعدد الطبقات الذي ناقشناه سابقًا، يمكنني أن أؤكد لكم أن التكنولوجيا موثوقة.
المصرفيه
بالحديث عن المخاطر العالية والمملة.
تعتبر أشياء مثل التحقق من أرصدة الحسابات وتحديث المعلومات معاملات بسيطة نسبيًا، ولكنها تحتوي على طبقتين من الضمانات لتقليل الأخطاء والاحتيال.
يتعامل وكيل الصوت لدى NatWest مع المعاملات المنتظمة، مما يتيح للوكلاء البشريين قضاء المزيد من الوقت في التفاعلات الحساسة أو المعقدة، مما يؤدي إلى زيادة رضا العملاء بنسبة 150% دون المساومة على الأمان.
دعم العملاء
وفيما يتعلق بموضوع أتمتة المكالمات الروتينية، نجح مساعد الذكاء الاصطناعي الصوتي SuperTOBI من شركة Vodafone في تحسين درجة صافي الترويج (NPS) الخاصة به من 14 إلى 64 .
يعود ذلك إلى تكرار تفاعلات خدمة العملاء، حيث تُجاب جميع استفسارات العملاء بنفس الطريقة، سواءً من قِبل شخص أو وكيل. هذا النهج لا يُساوم على الحالات الاستثنائية، إذ تُسلّم هذه الحالات إلى وكلاء بشريين.
بيع بالتجزئة
أنا أفتقد نوعًا ما أيام التحدث مع مندوب المبيعات.
المشكلة هي أنهم مشغولون للغاية بحيث لا يتمكنون من التعرف على كتالوج المتجر وسياساته، ناهيك عن الوقت الذي يستغرقه التعامل مع كل عميل على حدة.
أدخل مساعدي المبيعات الصوتيين مثل MyLow من Lowe's: وهو مساعد مبيعات افتراضي لديه معلومات حول تفاصيل المنتج والمخزون والسياسة.
LLMs 'تبرز المعرفة العامة هنا حقًا: فبالإضافة إلى تقديم معلومات خاصة بشركة Lowe's، فهي تستخدم معرفة التصميم الداخلي لتقديم المشورة للعملاء بشأن تزيين المنزل.
لا يزال بعض العملاء يبحثون عن التفاعل البشري. لحسن الحظ، تطبيق MyLow متاح أيضًا لموظفي المبيعات، حيث يمكنهم الحصول على المعلومات التي يحتاجونها منه ومساعدة العميل بأنفسهم.
ابدأ في تقديم المساعدين الصوتيين بالذكاء الاصطناعي
مساعدو الذكاء الاصطناعي الصوتيون هم الخيار الأمثل. كفاءة وشخصية مميزة، دون المساس بالإنسانية - خيار رابح للجميع.
Botpress يقدم أداة إنشاء قابلة للتخصيص عن طريق السحب والإفلات، وإشرافًا بشريًا في الحلقة، ومجموعة من التكاملات المسبقة، والأفضل من ذلك كله، غلاف صوتي يجلس بسلاسة فوق الوكيل الخاص بك.
إن روبوتاتنا نظيفة وبديهية، ولكنها ليست أساسية بأي حال من الأحوال.
ابدأ البناء اليوم. إنه مجاني.