← Back to Atlas LLM Course
Chapter 1: What is a Word? Mathematically?

1.1 How to Represent a Word?

شناهي كلمة فالماط؟

ايلا قلت ليك بلي عندي واحد الModel (ماسوقناش دبا كيفاش خدام) لي يقدر يحسب ليك شحال ديال الاحترام غايعطيوك الناس ايلا قتلي شي كلمة, ولكن المشكل هو أن هاد الموديل فيه عمليات رياضية, يعني خاص حتى الكلمة لي غنعيطوه تكون أعداد, كيفاش غادي تدوز هاد الكلمة من اللغة الطبيعية باش كندويو لعدد ولا أعداد لي ممكن هاد الموديل يدير عليهم العمليات ديالو؟

figure1

باش ترتاح, غنقولك بلي مغتكونش نتا أول واحد حاول يجاوب على هاد السؤال. فالحقيقية, هاد المشكل ديال كيفاش نمثلو كلمة/جملة/نص فالماط كان ديما كيلقى اهتمام كبير فالمجال ديال Natural Language Processing (NLP). الهدف من هاد لارتيكل لول ولارتيكل الجاي هو نهضرو على بعض representations القدام.

رد البال: هاد representation معندهاش علاقة بال binary (الواحدات والزيروات) لي كنخدمو بيهم باش كنسطوكيو المعلومة فالميموار (هاد المعلومة لي ممكن تكون text, تصويرة ولا حتى فيديو). الهدف من representation هو نقدرو نخليو الرياضيات تتعامل مع الكلمات, حيت الرياضيات كتعامل مع الأعداد وماشي مع اللغة بالطريقة الطبيعية لي كنعرفوها وكنكتبو بيها يوميا.

قبل مندوزو لشنو قتارحو الناس لاخرين, أجي نفكرو دغيا فشي representations بساط لي ممكن يطيحو كأفكار أولية.

شحال من حرف؟

تخايل بلي قررنا ناخدو العدد دالحروف فالكلمة هو representation ديالها.

مثلا: 'باب' أنمثلوه بالعدد 3, 'طاجين' بالعدد 5, 'لاحقاش' بالعدد 6, الى آخره.

figure2

ربما من دبا بداو كيبانو ليك بزاف دالمشاكل ونقاط الضعف فهاد representation. أسهل مثال هو أن 'كبير' و 'صغير' جوج كلمات مختالفين تماما لي واخا هكاك غاتكون عندهم نفس representation لي هي 4, حيت عندهم نفس العدد ديال الحروف. كيفاش غايدير الModel ديالنا يفرق بيناتهم؟

Vector ديال الأبجدية

كلنا عارفين بلي العدد دالحروف فالعربية هو 28. نقدرو اذن نفكرو فأننا نمثلو واحد الكلمة بواحد الVector (تقدر تخيلو بحال شي List) لي الطول ديالو 28, ونحطو 1 فالبلايص (Positions) ديال الحروف لي كاينين فالكلمة. ايلا شي حرف كيتعاود جوج مرات فالكلمة نحطو فيه 2 الى آخره..

figure3

واخا هاد الrepresentation, لي نقدرو نسميوها one hot encoding, تقدر تبان مزيانة فاللول, نقدرو نفكرو فبزاف دالمشاكل لي مكيخليوهاش تكون خدامة مزيان, مثلا:

هاد جوج كلمات: 'مزال' و 'لازم' غاتكون عندهم نفس representation حيث عندهم نفس الحروف. على العموم, كاع الكلمات لي عندهم نفس الحروف غاتكون عندهم نفس representation. هدشي ممزيانش حيت مغنقدروش نفرقو بين هاد الكلمات. هدشي كيرجع ل the fact أننا مكنتسوقوش للترتيب ديال الحروف وسط الكلمة.

عيب آخر ممكن نهضرو عليه هو ايلا خدينا جوج كلمات لي عندهم معنى قريب بزاف بحال 'دجاجة' و 'فلُّوس', غنلاحظو بلي representations ديالهم مكيتشابهوش فمرة, ربما غاتزيد توضاح ليك الصورة ايلا شفتي ال figure لي لتحت. هد العيب بالضبط ممزيانش, حيت حنا بغينا الModel ديالنا يكون قادر يعرف فاش جوج كلمات يكون عندهم معنى قريب فاللغة لي كندويو بيها.

figure4

عيب ثالث: هاد ال representation كتصلاح غير للكلمات لي بالعربية, ولكن حنى فالدارجة ديالنا كنخدمو كلمات من لغات آخرين لي فيهم حروف آخرين مكيانينش فالعربية, كيغانديرو ليها؟ وعلى العموم, ايلا كنا بغينا الModel ديالنا يكون كيفهم لغات آخرين من غير الدارجة, بحال الشيونية ولا الانجليزية؟

نخليو هاد الأسئلة للآرتيكل الجاي لي غاندويو فيه على وحدة من representations لي بانو فالسبعينات وباقا كتستخدم بعض المرات فالوقت ديالنا: Bag of Words.