بت ، شانون الإنتروبيا الإخبارية ورمز هامينغ. كيفية قياس أي معلومات ونقلها دون خسارة

مساحة الحدث عشوائية

في عام 1946 ، اقترح عالم الإحصاء الأمريكي جون توكي اسم BIT

(BIT و BInary digiT - "الرقم الثنائي" - "التكنولوجيا المتقدمة")- أحد المفاهيم الرئيسية للقرن العشرين. اختار Tukey قليلاً للدلالة على رقم ثنائي واحد قادر على أخذ القيمة 0 أو 1. في مقال برنامجه "نظرية التواصل الرياضي" ، اقترح كلود شانون قياس كمية المعلومات بالبت. لكن هذا ليس المفهوم الوحيد الذي قدمه واستكشفه شانون في مقاله.

تخيل مساحة من الأحداث العشوائيةالذي يتكون من رمي عملة واحدة مزيفة ، على جانبيها هو النسر. متى يسقط النسر؟ من الواضح أن دائما. نحن نعلم ذلك مقدمًا ، لأن مساحتنا مرتبة جدًا. يعد سقوط النسر حدثًا موثوقًا به ، أي أن احتماله يساوي 1. هل سنقدم الكثير من المعلومات إذا قلنا عن نسر ما؟ لا. مقدار المعلومات في مثل هذه الرسالة ، سوف نعتبر مساويا للصفر.

الآن لنرمي العملة الصحيحة: من ناحية ، لديه نسر ، ومن ناحية أخرى ، ذيول ، كما ينبغي أن يكون. سيكون سقوط النسر أو الذيل حدثين مختلفين يشكلان فضاء الأحداث العشوائية. إذا أبلغنا عن نتيجة رمية واحدة ، فستكون بالفعل معلومات جديدة. عندما يسقط النسر ، سنبلغ 0 ، وعندما يكون حاسما 1. من أجل توصيل هذه المعلومات ، نحتاج فقط 1 بت.

ما الذي تغير؟ عدم اليقين ظهر في فضاء الأحداث لدينا. لدينا شيء لنخبره عن ذلك لشخص لا يلقي عملة معدنية ولا يرى نتيجة الرمي. ولكن من أجل فهم رسالتنا بشكل صحيح ، يجب عليه أن يعرف بالضبط ما نفعله ، ماذا يعني 0 و 1. يجب أن تتطابق مساحات الأحداث الخاصة بنا ، وتكون عملية فك الترميز فريدة لاستعادة نتيجة الرمي. في حالة عدم تزامن أحداث الإرسال والاستقبال أو عدم إمكانية فك تشفير الرسالة بشكل لا لبس فيه ، ستظل المعلومات ضجيجًا فقط في قناة الاتصال.

إذا بشكل مستقل وفي وقت واحد رمي اثنينالعملات المعدنية ، سيكون هناك أربعة نتائج مختلفة محتملة على قدم المساواة: النسر النسر ، ذيول ، ذيول الرؤوس وذيول. لنقل المعلومات ، سنحتاج إلى 2 بت بالفعل ، وستكون رسالتنا على النحو التالي: 00 و 01 و 10 و 11. لقد أصبحت المعلومات مضاعفة. حدث هذا بسبب زيادة عدم اليقين. إذا حاولنا تخمين نتائج مثل هذا الرمي المزدوج ، فلدينا فرصة مضاعفة لارتكاب خطأ.

كلما زاد عدم اليقين في مساحة الحدث ، زاد عدد المعلومات التي تحتوي على رسالة حول حالته.

دعنا نعقد مساحة حدثنا قليلاً. حتى الآن ، كل الأحداث التي حدثت كانت محتملة بنفس القدر. ولكن في المساحات الحقيقية ، ليس من المحتمل أن تكون جميع الأحداث متساوية. على سبيل المثال ، احتمال أن يكون الغراب الذي نراه أسودًا بالقرب من 1. احتمال أن يكون المارة الأولى في الشارع هو 0.5. ولكن لقاء التمساح في شارع موسكو أمر لا يمكن تصديقه تقريبًا. بشكل حدسي ، نحن نفهم أن الإبلاغ عن اجتماع مع التمساح له قيمة معلومات أكبر بكثير عن الغراب الأسود. كلما انخفض احتمال وقوع حدث ، زادت المعلومات الموجودة في الرسالة حول هذا الحدث.

دع مساحة الحدث لا تكون غريبة للغاية. نحن فقط نقف عند النافذة وننظر إلى السيارات المارة. سيارات من أربعة ألوان تمر ، والتي نحتاج إلى الإبلاغ عنها. للقيام بذلك ، سنقوم بتشفير الألوان: الأسود - 00 ، والأبيض - 01 ، والأحمر - 10 ، والأزرق - 11. للإبلاغ بدقة عن السيارة التي تقودها ، نحتاج فقط إلى نقل 2 بت من المعلومات.

ولكن لفترة طويلة مشاهدة السيارات ،نلاحظ أن لون السيارات موزعة بشكل غير متساو: أسود - 50 ٪ (كل ثانية) ، أبيض - 25 ٪ (كل ربع) ، أحمر وأزرق - 12.5 ٪ (كل الثامنة). ثم يمكنك تحسين المعلومات المرسلة.

معظم السيارات السوداء ، لذلكاترك اللون الأسود - 0 - أقصر رمز ، والباقي من الكود يبدأ في 1. من النصف المتبقي ، الأبيض هو 10 ، والألوان المتبقية تبدأ في 11. وفي الختام ، نشير إلى الأحمر - 110 ، والأزرق - 111.

الآن ، بتمرير معلومات حول لون السيارة ، يمكننا تشفيرها عن كثب.

شانون انتروبي

دع مساحة حدثنا تتكون من nأحداث مختلفة. عند رمي عملة معدنية بها نسوران ، يكون هذا الحدث واحدًا تمامًا ، عند رمي عملة معدنية واحدة صحيحة - 2 ، عند رمي عملتين أو مشاهدة سيارات - 4. يتوافق كل حدث مع احتمال حدوثه. عندما يتم طرح عملة ذات نسرين ، يكون الحدث (فقد النسر) واحتماله هو p1 = 1. عندما يتم طرح العملة الصحيحة ، يكون احتمال وقوع حدثين متساويين واحتمال كل منهما 0.5: p1 = 0.5 ، p2 = 0.5. عندما يتم إلقاء عملتين صحيحتين ، هناك أربعة أحداث ، جميعها متساوية على الأرجح واحتمال كل منهما هو 0.25: p1 = 0.25 ، p2 = 0.25 ، p3 = 0.25 ، p4 = 0.25. عند مراقبة أحداث السيارات ، هناك أربعة أحداث ولها احتمالات مختلفة: الأسود - 0.5 ، والأبيض - 0.25 ، والأحمر - 0.125 ، والأزرق - 0.125: p1 = 0.5 ، p2 = 0.25 ، p3 = 0.125 ، p4 = 0.125.

هذه ليست صدفة. اختار شانون الانتروبيا (مقياس من عدم اليقين في مساحة الحدث) بحيث تم استيفاء ثلاثة شروط:

  • 1 إن حدث حدث موثوق ، واحتماله 1 ، هو 0.
  • إن إنتروبيا حدثين مستقلين يساوي مجموع إنتروبيا هذه الأحداث.
  • الانتروبيا هو الحد الأقصى إذا كانت جميع الأحداث محتملة على قدم المساواة.

كل هذه المتطلبات تتفق تماما مع لديناالأفكار حول عدم اليقين من مساحة الحدث. إذا كان الحدث واحدًا (المثال الأول) - فلا يوجد شك. إذا كانت الأحداث مستقلة ، فإن عدم التيقن من المبلغ يساوي مجموع حالات عدم اليقين - فهي ببساطة تضيف ما يصل (مثال على رمي عملتين). وأخيرًا ، إذا كانت كل الأحداث محتملة على حد سواء ، فإن درجة عدم اليقين في النظام هي الحد الأقصى. كما هو الحال في حالة رمي عملتين ، كل الأحداث الأربعة محتملة بنفس القدر والإنتروبيا هي 2 ، إنها أكثر مما في حالة السيارات ، عندما يكون هناك أربعة أحداث أيضًا ، لكن لديهم احتمال مختلف - في هذه الحالة يكون الانتروبيا 1.75.

تلعب قيمة H دورًا رئيسيًا في نظرية المعلومات كمقياس لكمية المعلومات والاختيار وعدم اليقين.

كلود شانون

كلود إلوود شانون - مهندس أمريكي ، تشفير و محللرياضيات. ويعتبر "والد عصر المعلومات". مؤسس نظرية المعلومات ، التي وجدت التطبيق في أنظمة الاتصالات الحديثة ذات التقنية العالية. قدمت المفاهيم الأساسية والأفكار وتركيباتها الرياضية التي تشكل حاليا الأساس لتكنولوجيات الاتصال الحديثة.

في عام 1948 ، اقترح استخدام كلمة "bit"للإشارة إلى أصغر وحدة معلومات. كما أظهر أن الانتروبيا التي أدخلها تعادل عدم اليقين في المعلومات الواردة في الرسالة المرسلة. تعتبر مقالات شانون "النظرية الرياضية للاتصال" و "نظرية الاتصال في الأنظمة السرية" أساسية لنظرية المعلومات والتشفير.

خلال الحرب العالمية الثانية ، عمل شانون في مختبرات بيل على تطوير أنظمة التشفير ، مما ساعده في وقت لاحق على اكتشاف طرق الترميز مع تصحيح الأخطاء.

ساهم شانون مساهمة أساسية في نظرية المخططات الاحتمالية ، نظرية الألعاب ، نظرية الأوتوماتة ونظرية نظام التحكم - مجالات العلوم التي تشكل جزءًا من مفهوم علم التحكم الآلي.

الترميز

وألقيت العملات المعدنية ، والسيارات المارة ليست كذلكتشبه الأرقام 0 و 1. للإبلاغ عن الأحداث التي تحدث في المسافات ، تحتاج إلى التفكير في طريقة لوصف هذه الأحداث. هذا الوصف يسمى الترميز.

يمكنك تشفير الرسائل بعدد غير محدود من الطرق المختلفة. لكن شانون أظهر أن أقصر الكود لا يمكن أن يكون أقل من البتات من الانتروبيا.

هذا هو السبب في انتروبيا الرسالة هو التدبيرالمعلومات في الرسالة. نظرًا لأن عدد البتات في الترميز في جميع الحالات المدروسة يساوي إنتروبيا ، فهذا يعني أن الترميز قد مضى على النحو الأمثل. باختصار ، لم يعد من الممكن تشفير الرسائل حول الأحداث في مساحاتنا.

مع الترميز الأمثل ، لا يمكنك أن تفقد أوتشويه بت واحد المرسلة في رسالة. في حالة فقد بت واحد على الأقل ، سيتم تشويه المعلومات. لكن جميع قنوات الاتصال الحقيقية لا تعطي يقينًا بنسبة 100 في المائة بأن جميع أجزاء الرسالة ستصل إلى المستلم دون تشويه.

لإصلاح هذه المشكلة ، عليك القيام بهالرمز ليس الأمثل ، ولكن زائدة عن الحاجة. على سبيل المثال ، لنقل مع المجموع الاختباري للرسالة - قيمة محسوبة بشكل خاص تم الحصول عليها عند تحويل رمز الرسالة ، والتي يمكن التحقق منها عن طريق إعادة الحساب عند استلام الرسالة. إذا تطابق المجموع الاختباري المنقول مع المحسوب ، فسيكون احتمال انتقال الإرسال بدون أخطاء كبيرًا. وإذا لم يكن المجموع الاختباري متطابقًا ، فأنت بحاجة إلى طلب إعادة الإرسال. هذه هي الطريقة التي تعمل بها معظم قنوات الاتصال اليوم ، على سبيل المثال ، عند إرسال حزم المعلومات عبر الإنترنت.

رسائل اللغة الطبيعية

النظر في مساحة الحدث الذي يتكونمن المشاركات في اللغة الطبيعية. هذه حالة خاصة ، لكنها واحدة من أهمها. الأحداث هنا ستكون الأحرف المرسلة (أحرف الأبجدية الثابتة). تم العثور على هذه الأحرف في اللغة مع احتمالات مختلفة.

أكبر عدد من الترددات (أي رمز ذلكغالبًا ما توجد في جميع النصوص المكتوبة باللغة الروسية) مساحة: من ألف حرف ، يوجد متوسط ​​مساحة 175 مرة. الثاني في التردد هو الرمز "o" - 90 ، متبوعًا بأحرف أخرى: "e" (أو "e" - لن نميزها) - 72 ، "a" - 62 ، و i - 62 ، وفقط أول حرف "t" - 53. والأندر "f" - يوجد هذا الرمز مرتين فقط لكل ألف حرف.

سوف نستخدم الحروف الروسية المكونة من 31 حرفًااللغة (لا تختلف عن "e" و "e" ، وكذلك "ъ" و "ь"). إذا تمت مصادفة جميع الأحرف في اللغة التي لها نفس الاحتمال ، فسيكون الانتروبيا لكل رمز H = 5 بت ، لكن إذا أخذنا في الاعتبار الترددات الحقيقية للرموز ، ستكون الإنتروبيا أقل: H = 4.35 بت. (هذا هو أقل مرتين تقريبًا من الترميز التقليدي ، عندما يتم إرسال حرف بايت 8 بايت).

لكن انتروبيا الشخصية في اللغة أقل. لا يتم تحديد احتمالية حدوث الحرف التالي تمامًا بواسطة متوسط ​​تواتر الحرف في جميع النصوص. أي شخصية ستتبع تعتمد على الأحرف التي تم نقلها بالفعل. على سبيل المثال ، في اللغة الروسية الحديثة بعد الرمز "ъ" لا يمكن أن يتبع صوت الرمز ساكن. بعد حرفين متتاليين "e" ، يتبع حرف العلة الثالث "e" نادرًا جدًا ، إلا في كلمة "طويلة العنق". أي أن الشخصية التالية محددة إلى حد ما. إذا أخذنا في الاعتبار مثل هذا التحديد المسبق للرمز التالي ، فإن عدم اليقين (أي المعلومات) الخاصة بالرمز التالي سيكون أقل من 4.35. وفقًا لبعض التقديرات ، يتم تحديد الرمز التالي باللغة الروسية مسبقًا بواسطة بنية اللغة بأكثر من 50٪ ، أي أنه مع الترميز الأمثل ، يمكن نقل جميع المعلومات عن طريق حذف نصف الحروف من الرسالة.

شيء آخر هو أنه لا يمكن حذف كل حرف بأمان. على سبيل المثال ، من السهل تقاطع كلمة "o" عالية التردد (وعموما حروف العلة) ، ولكن نادرًا ما تكون "f" أو "e" إشكالية للغاية.

اللغة الطبيعية التي نتواصل بها مع بعضنا البعض هي لغة زائدة عن الحاجة ، وبالتالي يمكن الاعتماد عليها ، إذا لم نسمع شيئًا - لا ضرر ، فستظل المعلومات تُرسل.

لكن إلى أن قدمت Shannon مقياس المعلومات ، لم نتمكن من فهم أن اللغة لا لزوم لها ، وإلى أي مدى يمكننا ضغط الرسائل (ولماذا يتم ضغط الملفات النصية جيدًا بواسطة الأرشيف).

اللغة الطبيعية التكرار

في مقال "حول كيف نحن vorpsimanie tektkt"(الاسم يبدو هكذا تمامًا!) تم أخذ جزء من رواية نوبل نيست لإيفان تورجنيف وإخضاعه لبعض التحولات: تم حذف 34٪ من الرسائل من الجزء ، لكن ليس عشوائيًا. تم ترك الأحرف الأولى والأخيرة بالكلمات ، وتم حذف الحروف الساكنة فقط ، وليس الكل. لم يكن الهدف فقط من إتاحة الفرصة لاستعادة جميع المعلومات الموجودة على النص المحول ، ولكن أيضًا لضمان عدم مواجهة الشخص الذي قرأ هذا النص لأي صعوبات معينة بسبب الحروف المفقودة.

لماذا هو سهل نسبيا لقراءة هذا مدللالنص؟ انها حقا تحتوي على المعلومات اللازمة لاستعادة كلمات كاملة. المتحدث الروسي لديه مجموعة معينة من الأحداث (الكلمات والجمل كاملة) التي يستخدمها في الاعتراف. بالإضافة إلى ذلك ، لدى شركة الاتصالات أيضًا بنيات لغوية قياسية تساعدها في استرداد المعلومات. على سبيل المثال "إنها بلي بلي" - يمكن قراءتها مع احتمال كبير كما "لقد كانت أكثر حساسية.". لكن عبارة منفصلة "إنها أكثر بلاه"بدلا من ذلك ، سيتم استعادتها كما "كانت أكثر بياضا". لأننا نتعامل في التواصل اليوميمن خلال القنوات التي يوجد فيها ضوضاء وتداخل ، نحن قادرون إلى حد ما على استعادة المعلومات ، ولكن فقط تلك التي نعرفها مسبقًا مسبقًا. على سبيل المثال ، هذه العبارة "ميزاتها ليست في الأقل متعة ، htya nmngo rspkhli ورذاذ" قراءة ما عدا الكلمة الأخيرة "سبلاش" - "حشد". هذه الكلمة ليست في المعجم الحديث. مع قراءة سريعة للكلمة "Splls" يقرأ أكثر مثل "عالقة معا" ، في حين بطيئة - يحير فقط.

رقمنة الإشارة

الصوت ، أو التذبذبات الصوتية ، هو الجيوب الأنفية. يمكن ملاحظة ذلك ، على سبيل المثال ، على شاشة محرر الصوت. لنقل الصوت بدقة ، ستحتاج إلى عدد لا حصر له من القيم - موجة جيبية بأكملها. وهذا ممكن مع اتصال التناظرية. إنه يغني - تستمع ، لا تتم مقاطعة جهة الاتصال أثناء استمرار الأغنية.

من خلال الاتصال الرقمي عبر القناة ، يمكننا نقل عدد محدود فقط من القيم. هل هذا يعني أن الصوت لا يمكن نقله بدقة؟ اتضح لا.

الأصوات المختلفة هي الجيوب الأنفية المعدلة بشكل مختلف. ننقل فقط القيم المنفصلة (الترددات والسعات) ، ولا يلزم إرسال موجة الجيب نفسها - يمكن لجهاز الاستقبال توليدها. يولد الجيوب الأنفية ويتم تثبيته عليه.التشكيل الناتج عن القيم المنقولة عبر قناة الاتصال. هناك مبادئ دقيقة لما يجب أن تنقله القيم المنفصلة ، بحيث يتزامن الصوت عند الإدخال في قناة الاتصال مع الصوت عند الإخراج ، حيث يتم تثبيت هذه القيم على بعض الجيوب الأنفية القياسية (هذه مجرد نظرية Kotelnikov).

نظرية كوتيلنيكوف (في أدب اللغة الإنجليزية - نظرية نيكويست - نظرية شانون ، نظرية القراءة) - بيان أساسي في مجال الرقميةمعالجة الإشارات ، وربط الإشارات المستمرة والمنفصلة ، والقول إن "أي وظيفة F (t) تتكون من ترددات من 0 إلى f1 يمكن أن تنتقل بشكل مستمر مع أي دقة باستخدام أرقام تتبع بعضها البعض من خلال 1 / (2 * f1) ثواني.

مكافحة التدخل الترميز. رموز هامينج

إذا كان على قناة غير موثوقة للإرسالالنص المشفر لـ Ivan Turgenev ، وإن كان مع بعض الأخطاء ، سيؤدي إلى نص ذي معنى. ولكن إذا كنا بحاجة إلى نقل كل شيء إلى حد ما ، فستكون المهمة دون حل: لا نعرف البتات الخاطئة ، لأن الخطأ عشوائي. حتى المجموع الاختباري لا ينقذ دائمًا.

هذا هو السبب اليوم عند نقل البيانات علىلا تميل الشبكات كثيرًا إلى الترميز الأمثل ، حيث يمكن دفع الحد الأقصى من المعلومات في القناة ، ولكن إلى مثل هذا الترميز (لا لزوم له من الواضح) حيث يمكن استرداد الأخطاء - تمامًا مثلما نقرأ الكلمات في جزء إيفان تورغنيف.

هناك رموز خاصة لتصحيح الأخطاء تسمح لك باستعادة المعلومات بعد الفشل. واحد منهم هو رمز هامينغ. لنفترض أن لغتنا بأكملها تتكون من ثلاث كلمات: 111000 ، 001110 ، 100011. هذه الكلمات تعرف كل من مصدر الرسالة والمتلقي. ونحن نعلم أن الأخطاء تحدث في قناة الاتصال ، ولكن لا يتم تشويه أكثر من جزء واحد من المعلومات عند إرسال كلمة واحدة.

لنفترض أننا نجتاز كلمة 111000 أولاً. ونتيجة لذلك ، لا يوجد أكثر من خطأ واحد (حددنا الخطأ) يمكن أن يتحول إلى إحدى الكلمات:

1) 111000 011000 ، 101000 ، 110000 ، 111100 ، 111010 ، 111001.

عند نقل الكلمة 001110 ، قد تكون أي من الكلمات:

2) 001110 ، 101110 ، 011110 ، 000110 ، 001010 ، 001100 ، 001111.

أخيرًا ، من أجل 100011 ، يمكننا الوصول إلى مكتب الاستقبال:

3) 100011 ، 000011 ، 110011 ، 101011 ، 100111 ، 100001 ، 100010.

لاحظ أن القوائم الثلاث ليست ثنائية.تتقاطع. بمعنى آخر ، إذا ظهر في الطرف الآخر من قناة الاتصال أي كلمة من القائمة 1 ، فإن المستلم يعرف على وجه اليقين أن الكلمة 111000 قد نقلت إليه ، وإذا ظهرت أي كلمة من القائمة 2 ، الكلمة 001110 ، ومن القائمة 3 ، تظهر الكلمة 100011. يقولون أن كودنا إصلاح خطأ واحد.

حدث التصحيح بسبب عاملين. أولاً ، يعرف المستلم "القاموس" بأكمله، أي مساحة الحدث لمستلم الرسالة تتزامن مع مساحة الشخص الذي أرسل الرسالة. عندما تم إرسال الرمز مع وجود خطأ واحد فقط ، خرجت كلمة لم تكن موجودة في القاموس.

ثانياً ، تم اختيار الكلمات في القاموس بطريقة خاصة. حتى عند حدوث خطأ ، لم يتمكن المستلم من ذلكتخلط بين كلمة واحدة وأخرى. على سبيل المثال ، إذا كان القاموس يتكون من الكلمات "ابنة" ، "نقطة" ، "عثرة" ، وعند نقلها تبين أنها "صغيرة" ، فإن المتلقي ، مع العلم أنه لا توجد مثل هذه الكلمة ، لا يمكنه تصحيح الخطأ - قد تتحول أي من الكلمات الثلاث إلى صحيح. إذا كان القاموس يتضمن "نقطة" ، "غراب" ، "فرع" ونعلم أنه لا يُسمح بأكثر من خطأ واحد ، فمن الواضح أن "القليل" هو "نقطة" وليس "داو". في أكواد تصحيح الأخطاء ، يتم اختيار الكلمات بطريقة "يمكن التعرف عليها" حتى بعد حدوث خطأ. الفرق الوحيد هو أنه في رمز "الأبجدية" حرفين فقط - صفر وواحد.

التكرار لهذا الترميز كبير جدًا ، وعدد الكلمات التي يمكننا نقلها صغير جدًا. نحن بحاجة إلى استبعاد أي كلمة من القاموس ،والتي ، على سبيل الخطأ ، قد تتزامن مع القائمة بأكملها المقابلة للكلمات المرسلة (على سبيل المثال ، لا يمكن أن تكون الكلمات "ابنة" و "نقطة" في القاموس). لكن النقل الدقيق للرسالة مهم جدًا لدرجة أنه يتم إنفاق قوى كبيرة على دراسة الرموز المقاومة للضوضاء.

إحساس

مفاهيم الانتروبيا (أو عدم اليقين وعدم القدرة على التنبؤ) من الرسالة والتكرار (أو التحديد المسبق والقدرة على التنبؤ) بشكل طبيعي للغاية تتوافق مع أفكارنا بديهية حول قياس المعلومات. كلما كانت الرسالة غير قابلة للتنبؤ بها (كلما زاد الانتروبيا ، نظرًا لوجود احتمال أقل) ، زادت المعلومات التي تحملها. يعد الإحساس (على سبيل المثال ، الاجتماع مع تمساح على تفرسكايا) حدثًا نادرًا ، وقدرته على التنبؤ منخفضة جدًا ، وبالتالي فإن قيمة المعلومات مرتفعة. غالبًا ما تسمى المعلومات بالأخبار - تقارير عن الأحداث التي وقعت للتو ، والتي ما زلنا لا نعرف عنها شيئًا. لكن إذا أخبرونا بالمرتين الثانية والثالثة عن نفس الكلمات ، فسيكون التكرار رائعًا للرسالة ، وستتراجع درجة عدم القدرة على التنبؤ بها إلى الصفر ، ولن نستمع بعد ذلك إلى التلويح بعيدًا عن المتحدث بالكلمات "أعرف ، أعرف." لذلك ، تحاول وسائل الإعلام أن تكون الأولى. لعبت هذه المراسلات إلى الإحساس البديهي بالجدة ، والذي يؤدي إلى ظهور أخبار غير متوقعة حقًا ، دورًا رئيسيًا في حقيقة أن مقالة شانون ، التي لم تكن مخصصة للقارئ العام ، أصبحت ضجة كبيرة ، التقطتها الصحافة كمفتاح عالمي لمعرفة الطبيعة. - من اللغويين والنقاد الأدبيين إلى علماء الأحياء.

لكن شانون مفهوم المعلومات - نظرية رياضية صارمةوتطبيقها خارج نظرية الاتصالات غير موثوق بها للغاية. لكن في نظرية الاتصال نفسها ، تلعب دورا محوريا.

المعلومات الدلالية

شانون ، وإدخال مفهوم الانتروبيا كتدبيرالمعلومات ، حصلت على فرصة للعمل مع المعلومات - أولاً وقبل كل شيء ، لقياسها وتقييم خصائص مثل سعة القناة أو ترميز الأمثلية. لكن الافتراض الرئيسي الذي سمح لشانون بالعمل بنجاح مع المعلومات كان الافتراض بأن توليد المعلومات عملية عشوائية يمكن وصفها بنجاح من حيث نظرية الاحتمالات. إذا كانت العملية غير عشوائية ، أي أنها تطيع القوانين (علاوة على ذلك ، فهي ليست واضحة دائمًا ، كما يحدث في اللغة الطبيعية) ، فإن منطق شانون لا ينطبق عليها. كل شيء يقوله شانون لا علاقة له بجدية المعلومات.

بينما نتحدث عن الشخصيات (أو الحروف الأبجدية) ،يمكننا الجدال فيما يتعلق بالأحداث العشوائية ، ولكن حالما نتعرف على كلمات اللغة ، سيتغير الوضع بشكل كبير. الكلام عبارة عن عملية منظمة بشكل خاص ، وهنا لا تقل أهمية بنية الرسالة عن الأحرف التي يتم إرسالها بواسطتها.

في الآونة الأخيرة ، يبدو أننا لا نستطيعلفعل شيء من أجل الاقتراب من قياس معنى النص ، ولكن في السنوات الأخيرة بدأ الوضع يتغير. وهذا يرجع في المقام الأول إلى استخدام الشبكات العصبية الاصطناعية في مهام الترجمة الآلية ، وتلخيص النص التلقائي ، واستخراج المعلومات من النصوص ، وإنشاء تقارير باللغة الطبيعية. في كل هذه المهام ، يتم تحويل المعلومات المجدية الواردة في اللغة الطبيعية وترميزها وفك تشفيرها. وبالتدريج ، تتبلور فكرة فقدان المعلومات في مثل هذه التحولات ، وبالتالي - مدى المعلومات المفيدة. ولكن اليوم الوضوح والدقة التي تتمتع بها نظرية شانون للمعلومات في هذه المهام الصعبة لم يحن بعد.