พื้นที่จัดกิจกรรมแบบสุ่ม
ในปี 1946 นักสถิติชาวอเมริกัน John Tukey เสนอชื่อ BIT
ลองนึกภาพพื้นที่ของเหตุการณ์แบบสุ่มซึ่งประกอบด้วยการโยนเหรียญปลอมหนึ่งใบซึ่งทั้งสองด้านเป็นนกอินทรี นกอินทรีจะตกเมื่อไหร่? เป็นที่ชัดเจนเสมอว่า เรารู้เรื่องนี้ล่วงหน้าเพราะพื้นที่ของเรามีการจัด การตกของนกอินทรีเป็นเหตุการณ์ที่เชื่อถือได้นั่นคือความน่าจะเป็นเท่ากับ 1 เราจะให้ข้อมูลมากไหมถ้าเราพูดถึงนกอินทรีที่ร่วงหล่น เลขที่ จำนวนข้อมูลในข้อความดังกล่าวเราจะได้รับการพิจารณาเท่ากับ 0
ตอนนี้เรามาพลิกเหรียญที่ยุติธรรม:ด้านหนึ่งเป็นหัวและอีกด้านหนึ่งเป็นก้อยตามที่ควรจะเป็น การลงจอดที่หัวหรือก้อยจะเป็นสองเหตุการณ์ที่แตกต่างกันซึ่งประกอบกันเป็นพื้นที่ของเหตุการณ์สุ่ม ถ้าเรารายงานผลการทอยครั้งเดียวมันจะเป็นข้อมูลใหม่แน่นอน หากส่วนหัวหลุด เราจะรายงาน 0 และหากส่วนท้ายเป็น 1 เพื่อรายงานข้อมูลนี้ เราต้องการเพียง 1 บิตเท่านั้น
มีอะไรเปลี่ยนแปลง?เกิดความไม่แน่นอนในพื้นที่จัดงานของเรา เรามีเรื่องจะเล่าให้คนที่ไม่โยนเหรียญด้วยตัวเองและไม่เห็นผลลัพธ์ของการโยน แต่เพื่อให้เข้าใจข้อความของเราอย่างถูกต้อง เขาต้องรู้ว่าเรากำลังทำอะไรอยู่ และเลข 0 และ 1 หมายถึงอะไรพื้นที่กิจกรรมของเราต้องตรงกันและกระบวนการถอดรหัสนั้นไม่ซ้ำกันเพื่อคืนค่าผลลัพธ์ของการโยนหากพื้นที่เหตุการณ์ของเครื่องส่งและเครื่องรับไม่ตรงกันหรือไม่มีความเป็นไปได้ของการถอดรหัสข้อความที่ชัดเจน ข้อมูลจะยังคงอยู่ในช่องทางการสื่อสารเท่านั้น
หากคุณโยนสองอันอย่างอิสระและพร้อมกันเหรียญ จากนั้นจะมีผลลัพธ์ที่เป็นไปได้เท่ากันสี่แบบ: หัว-หัว, หัว-ก้อย, หัวก้อย และ ก้อย-ก้อย ในการส่งข้อมูลเราจะต้องมี 2 บิตและข้อความของเราจะเป็นดังนี้: 00, 01, 10 และ 11 มีข้อมูลเป็นสองเท่า สิ่งนี้เกิดขึ้นเพราะความไม่แน่นอนเพิ่มขึ้น หากเราพยายามเดาผลลัพธ์ของการทอยคู่ดังกล่าว เรามีโอกาสผิดพลาดเป็นสองเท่า
ยิ่งความไม่แน่นอนของพื้นที่เหตุการณ์มากเท่าใด ข้อความเกี่ยวกับสถานะของพื้นที่ก็จะยิ่งมีมากขึ้นเท่านั้น
มาทำให้พื้นที่จัดงานของเราซับซ้อนขึ้นอีกหน่อยจนถึงตอนนี้ เหตุการณ์ทั้งหมดที่เกิดขึ้นมีความเป็นไปได้พอๆ กัน แต่ในอวกาศจริง ไม่ใช่ทุกเหตุการณ์ที่มีความน่าจะเป็นเท่ากัน สมมติว่าความน่าจะเป็นที่อีกาที่เราเห็นจะเป็นสีดำมีค่าใกล้เคียงกับ 1 ความน่าจะเป็นที่คนสัญจรคนแรกที่เราเจอบนถนนจะเป็นผู้ชายมีค่าประมาณ 0.5 แต่การพบกับจระเข้บนถนนในมอสโกนั้นแทบจะเป็นไปไม่ได้เลย ตามสัญชาตญาณแล้ว เราเข้าใจดีว่ารายงานเกี่ยวกับการพบกับจระเข้นั้นมีคุณค่าทางข้อมูลมากกว่ารายงานเกี่ยวกับอีกาดำมากความน่าจะเป็นที่น้อยลงของเหตุการณ์ข้อมูลเพิ่มเติมในข้อความเกี่ยวกับเหตุการณ์ดังกล่าว
ปล่อยให้พื้นที่จัดกิจกรรมไม่แปลกใหม่นัก เรายืนอยู่ที่หน้าต่างและดูรถที่วิ่งผ่าน รถยนต์สี่สีกำลังผ่านไปซึ่งเราต้องรายงาน ในการทำเช่นนี้เราจะเข้ารหัสสี: สีดำ - 00, สีขาว - 01, สีแดง - 10, สีฟ้า - 11. เมื่อต้องการรายงานว่ารถขับรถคันใดเราต้องถ่ายโอนข้อมูล 2 บิต
แต่เป็นเวลานานพอสมควรที่จะดูรถเราทราบว่าสีของรถยนต์มีการกระจายอย่างไม่สม่ำเสมอ: สีดำ - 50% (ทุกวินาที), สีขาว - 25% (ทุก ๆ สี่), สีแดงและสีน้ำเงิน - 12.5% (ทุก ๆ แปด) จากนั้นคุณสามารถเพิ่มประสิทธิภาพข้อมูลที่ส่ง
รถส่วนใหญ่ก็เป็นสีดำเหมือนกันให้เราแทนสีดำ - 0 - รหัสที่สั้นที่สุด และให้รหัสของส่วนที่เหลือทั้งหมดเริ่มต้นที่ 1 ในครึ่งที่เหลือ สีขาว - 10 และสีที่เหลือเริ่มต้นที่ 11 สุดท้าย ให้เราแสดงสีแดง - 110 และสีน้ำเงิน - 111.
ตอนนี้ผ่านข้อมูลเกี่ยวกับสีของรถเราสามารถเข้ารหัสได้ใกล้

นอนส์เอนโทรปี
ให้พื้นที่จัดกิจกรรมของเราประกอบด้วย nเหตุการณ์ที่แตกต่างกัน เมื่อโยนเหรียญสองหัวจะมีเหตุการณ์เดียวเท่านั้น เมื่อโยนเหรียญยุติธรรมหนึ่งเหรียญจะมี 2 พอดี เมื่อโยนเหรียญสองเหรียญหรือดูรถจะมี 4 เหตุการณ์พอดี แต่ละเหตุการณ์มีความน่าจะเป็นที่จะเกิดขึ้น เมื่อโยนเหรียญสองหัว มีเหตุการณ์หนึ่ง (หลุดหัว) ความน่าจะเป็นของมันคือ p1 = 1 เมื่อโยนเหรียญยุติธรรมมี 2 เหตุการณ์ มีความน่าจะเป็นเท่ากัน และความน่าจะเป็นของแต่ละรายการคือ 0.5: p1 = 0.5, p2 = 0.5 เมื่อโยนเหรียญยุติธรรมสองเหรียญ มีสี่เหตุการณ์ มีความน่าจะเป็นเท่ากันทั้งหมด และความน่าจะเป็นของแต่ละเหตุการณ์คือ 0.25: p1 = 0.25, p2 = 0.25, p3 = 0.25, p4 = 0.25 เมื่อสังเกตรถยนต์ มีเหตุการณ์อยู่ 4 เหตุการณ์ และมีความน่าจะเป็นที่แตกต่างกัน: ดำ - 0.5, ขาว - 0.25, แดง - 0.125, น้ำเงิน - 0.125: p1 = 0.5, p2 = 0.25, p3 = 0.125, p4 = 0.125

นี่ไม่ใช่เรื่องบังเอิญแชนนอนเลือกเอนโทรปี (การวัดความไม่แน่นอนในพื้นที่จัดกิจกรรม) เพื่อให้ตรงกับเงื่อนไขสามประการ:
- 1เอนโทรปีของเหตุการณ์ที่เชื่อถือได้ ซึ่งความน่าจะเป็นคือ 1 เท่ากับ 0
- เอนโทรปีของสองเหตุการณ์อิสระเท่ากับผลรวมของเอนโทรปีของเหตุการณ์เหล่านี้
- เอนโทรปีคือสูงสุดถ้าเหตุการณ์ทั้งหมดมีความเป็นไปได้อย่างเท่าเทียมกัน
ข้อกำหนดทั้งหมดนี้สอดคล้องกับของเราโดยสมบูรณ์แนวคิดเกี่ยวกับความไม่แน่นอนของพื้นที่จัดงาน หากมีเหตุการณ์เดียว (ตัวอย่างแรก) ก็ไม่มีความไม่แน่นอน หากเหตุการณ์เป็นอิสระต่อกัน - ความไม่แน่นอนของผลรวมเท่ากับผลรวมของความไม่แน่นอน - เหตุการณ์เหล่านั้นจะรวมกัน (ตัวอย่างการโยนเหรียญสองเหรียญ) และสุดท้าย หากเหตุการณ์ทั้งหมดมีความน่าจะเป็นเท่ากัน ระดับความไม่แน่นอนของระบบก็จะสูงที่สุด ในกรณีของการโยนเหรียญสองเหรียญ เหตุการณ์ทั้งสี่มีความเป็นไปได้เท่ากันและเอนโทรปีเป็น 2 ซึ่งมากกว่าในกรณีของรถยนต์เมื่อมีสี่เหตุการณ์ด้วย แต่มีความน่าจะเป็นที่แตกต่างกัน - ในกรณีนี้เอนโทรปีคือ 1.75.
ปริมาณ H มีบทบาทสำคัญในทฤษฎีสารสนเทศในฐานะการวัดข้อมูล ทางเลือก และความไม่แน่นอน

คล็อด แชนนอน
Claude Elwood Shannon- วิศวกรชาวอเมริกัน นักวิเคราะห์การเข้ารหัส และนักคณิตศาสตร์ ถือเป็น "บิดาแห่งยุคข้อมูลข่าวสาร" ผู้ก่อตั้งทฤษฎีสารสนเทศซึ่งค้นพบการประยุกต์ใช้ในระบบสื่อสารไฮเทคสมัยใหม่ ให้แนวคิดพื้นฐาน แนวคิด และสูตรทางคณิตศาสตร์ที่เป็นพื้นฐานสำหรับเทคโนโลยีการสื่อสารสมัยใหม่
ในปี 1948 เสนอให้ใช้คำว่า "bit"เพื่อระบุหน่วยข้อมูลที่เล็กที่สุด นอกจากนี้เขายังแสดงให้เห็นว่าเอนโทรปีที่ป้อนโดยเขานั้นเทียบเท่ากับความไม่แน่นอนของข้อมูลในข้อความที่ส่ง บทความของแชนนอน "ทฤษฎีการสื่อสารทางคณิตศาสตร์" และ "ทฤษฎีการสื่อสารในระบบลับ" ถือว่าเป็นพื้นฐานของทฤษฎีข้อมูลและการเข้ารหัส
ในช่วงสงครามโลกครั้งที่ 2 Shannon ทำงานที่ Bell Laboratories เพื่อพัฒนาระบบการเข้ารหัส ซึ่งต่อมาช่วยให้เขาค้นพบวิธีเขียนโค้ดที่แก้ไขข้อผิดพลาด
แชนนอนมีส่วนสำคัญในทฤษฎีความน่าจะเป็นของทฤษฎีเกมทฤษฎีออโตมาตาและทฤษฎีระบบควบคุม - สาขาวิทยาศาสตร์ที่เป็นส่วนหนึ่งของแนวคิดไซเบอร์เนติกส์
การเข้ารหัส
และโยนเหรียญและรถยนต์ที่ผ่านไม่ได้คล้ายกับหมายเลข 0 และ 1 ในการรายงานเหตุการณ์ที่เกิดขึ้นในช่องว่างคุณต้องคิดถึงวิธีการอธิบายเหตุการณ์เหล่านี้ คำอธิบายนี้เรียกว่าการเข้ารหัส
ข้อความสามารถเข้ารหัสได้หลายวิธีไม่สิ้นสุด แต่แชนนอนแสดงให้เห็นว่าโค้ดที่สั้นที่สุดต้องไม่เล็กกว่าเอนโทรปี
นั่นคือสาเหตุที่เอนโทรปีของข้อความเป็นตัววัดข้อมูลในข้อความ เนื่องจากในทุกกรณีที่พิจารณา จำนวนบิตระหว่างการเข้ารหัสจะเท่ากับเอนโทรปี ซึ่งหมายความว่าการเข้ารหัสมีความเหมาะสมที่สุด สรุปก็คือ ไม่สามารถเข้ารหัสข้อความเกี่ยวกับกิจกรรมในพื้นที่ของเราได้อีกต่อไป
ด้วยการเข้ารหัสที่เหมาะสมที่สุด คุณจะไม่สูญเสียหรือบิดเบือนบิตที่ส่งเพียงครั้งเดียวในข้อความ หากสูญหายแม้แต่บิตเดียว ข้อมูลก็จะถูกบิดเบือน แต่ช่องทางการสื่อสารที่แท้จริงทั้งหมดไม่ได้ให้ความมั่นใจ 100 เปอร์เซ็นต์ว่าข้อความทั้งหมดจะไปถึงผู้รับโดยไม่บิดเบือน
เพื่อแก้ไขปัญหานี้คุณต้องทำรหัสไม่เหมาะสม แต่ซ้ำซ้อน ตัวอย่างเช่น ส่งผลรวมตรวจสอบไปพร้อมกับข้อความ - ค่าที่คำนวณเป็นพิเศษที่ได้รับเมื่อแปลงรหัสข้อความ และสามารถตรวจสอบได้โดยการคำนวณใหม่เมื่อได้รับข้อความ หากเช็คซัมที่ส่งตรงกับที่คำนวณไว้ ความน่าจะเป็นที่การส่งข้อมูลปราศจากข้อผิดพลาดจะค่อนข้างสูง และหากผลรวมไม่ตรงกัน จะต้องร้องขอการส่งสัญญาณใหม่ นี่คือวิธีการทำงานของช่องทางการสื่อสารส่วนใหญ่ในปัจจุบันโดยประมาณ เช่น เมื่อส่งแพ็กเก็ตข้อมูลทางอินเทอร์เน็ต
ข้อความภาษาธรรมชาติ
พิจารณาพื้นที่เหตุการณ์ที่ประกอบด้วยจากโพสต์ในภาษาธรรมชาติ นี่เป็นกรณีพิเศษ แต่หนึ่งในสิ่งที่สำคัญที่สุด เหตุการณ์ที่นี่จะเป็นตัวละครที่ส่ง (ตัวอักษรของตัวอักษรคงที่) อักขระเหล่านี้พบในภาษาที่มีความน่าจะเป็นต่างกัน
สัญลักษณ์ความถี่มากที่สุด (นั่นคือสัญลักษณ์นั้นพบบ่อยที่สุดในข้อความทั้งหมดที่เขียนเป็นภาษารัสเซีย) เป็นช่องว่าง: หนึ่งพันตัวอักษรโดยเฉลี่ยพบ 175 ครั้ง ความถี่ที่สองคือสัญลักษณ์ "o" - 90 ตามด้วยสระอื่น ๆ : "e" (หรือ "e" - เราจะไม่แยกแยะพวกเขา) - 72, "a" - 62, และ i - 62 เท่านั้น พยัญชนะตัวแรก "t" - 53 และ "f" ที่หายาก - สัญลักษณ์นี้พบได้เพียงสองครั้งต่อตัวอักษรพันตัว
เราจะใช้ตัวอักษร 31 ตัวของรัสเซียภาษา (ไม่แตกต่าง "e" และ "e" รวมถึง "ъ" และ "ь") หากพบตัวอักษรทั้งหมดในภาษาที่มีความน่าจะเป็นแบบเดียวกันค่าเอนโทรปีต่อสัญลักษณ์จะเป็น H = 5 บิต แต่ถ้าเราพิจารณาความถี่ที่แท้จริงของสัญลักษณ์ (นี่คือน้อยกว่าการเข้ารหัสแบบดั้งเดิมเกือบสองเท่าเมื่ออักขระถูกส่งเป็นไบต์ - 8 บิต)
แต่เอนโทรปีของตัวละครในภาษานั้นต่ำกว่า ความน่าจะเป็นของการเกิดขึ้นของตัวละครต่อไปไม่ได้กำหนดไว้ล่วงหน้าอย่างสมบูรณ์โดยความถี่เฉลี่ยของตัวละครในตำราทั้งหมด ตัวละครที่จะตามมานั้นขึ้นอยู่กับตัวละครที่ถูกถ่ายโอนไปแล้ว ตัวอย่างเช่นในรัสเซียสมัยใหม่หลังจากสัญลักษณ์ "ъ" ไม่สามารถติดตามเสียงสัญลักษณ์พยัญชนะ หลังจากสระทั้งสองติดต่อกัน "e", สระที่สาม "e" จะตามมาไม่มากนักยกเว้นในคำว่า "คอยาว" นั่นคือตัวละครต่อไปคือบางส่วนที่กำหนดไว้ล่วงหน้า หากเราคำนึงถึงการกำหนดสัญลักษณ์ดังกล่าวล่วงหน้าความไม่แน่นอน (นั่นคือข้อมูล) ของสัญลักษณ์ถัดไปจะน้อยกว่า 4.35 ตามการประมาณการบางอย่างสัญลักษณ์ต่อไปนี้ในรัสเซียถูกกำหนดไว้ล่วงหน้าโดยโครงสร้างของภาษามากกว่า 50% นั่นคือด้วยการเข้ารหัสที่ดีที่สุดข้อมูลทั้งหมดสามารถส่งผ่านโดยการลบตัวอักษรครึ่งหนึ่งออกจากข้อความ
อีกอย่างคือไม่สามารถลบตัวอักษรทุกตัวได้อย่างปลอดภัย ตัวอย่างเช่นความถี่สูง "o" (และเสียงสระทั่วไป) นั้นง่ายต่อการขีดฆ่า แต่ "f" หรือ "e" ที่หายากนั้นค่อนข้างมีปัญหา
ภาษาธรรมชาติที่เราสื่อสารกันนั้นซ้ำซ้อนอย่างมาก ดังนั้นจึงเชื่อถือได้ หากเราได้ยินอะไรผิด ไม่เป็นไร ข้อมูลจะยังคงถูกส่งต่อไป
แต่จนกระทั่งแชนนอนนำเสนอการวัดข้อมูลเราไม่สามารถเข้าใจได้ว่าภาษานั้นมีความซ้ำซ้อนและเราสามารถบีบอัดข้อความได้ในระดับใด
ภาษาธรรมชาติที่ซ้ำซ้อน
ในบทความ "เกี่ยวกับวิธีที่เรา vorpsimanie tektkt"(ชื่อฟังตรงนี้) ชิ้นส่วนของนวนิยาย Noble Nest ของ Ivan Turgenev ถูกนำตัวไปและมีการเปลี่ยนแปลงบางอย่าง: 34% ของตัวอักษร แต่ไม่ใช่แบบสุ่มถูกลบออกจากส่วน ตัวอักษรตัวแรกและตัวสุดท้ายในคำพูดถูกเหลือไว้สระเท่านั้นที่ถูกลบและไม่ใช่ทั้งหมด เป้าหมายไม่เพียง แต่จะได้รับโอกาสในการกู้คืนข้อมูลทั้งหมดในข้อความที่แปลงแล้ว แต่ยังเพื่อให้แน่ใจว่าผู้ที่อ่านข้อความนี้ไม่ได้ประสบปัญหาใด ๆ เนื่องจากตัวอักษรที่หายไป

เหตุใดจึงค่อนข้างง่ายที่จะอ่านความเสียหายนี้ข้อความ? จริงๆ แล้วมันมีข้อมูลที่จำเป็นในการสร้างคำใหม่ทั้งหมด เจ้าของภาษารัสเซียมีชุดเหตุการณ์บางอย่าง (คำและประโยคทั้งหมด) ที่เขาใช้ในการจดจำ นอกจากนี้ ผู้พูดยังมีโครงสร้างภาษามาตรฐานที่ช่วยให้เขากู้คืนข้อมูลได้ ตัวอย่างเช่น,“ เธอเป็นคนพูดไม่ชัด”- มีความเป็นไปได้สูงที่จะอ่านได้ว่าเป็น"เธออ่อนไหวกว่านี้"- แต่เอามาแยกกัน."เธอเป็นคนร่าเริงมากขึ้น"แต่จะถูกเรียกคืนเป็น“ เธอขาวขึ้น”- เนื่องจากในการสื่อสารทุกวันเราจัดการด้วยช่องทางที่มีสัญญาณรบกวนและสัญญาณรบกวนเราจึงกู้คืนข้อมูลได้ค่อนข้างดี แต่เฉพาะสิ่งที่เรารู้ล่วงหน้าเท่านั้น เช่น ประโยค"คุณสมบัติของเธอไม่ได้อยู่ในความพอใจน้อยที่สุด htya nmngo rspkhli and splash"อ่านได้ดียกเว้นคำสุดท้าย"สแปลช" - "รวบรวม"- คำนี้ไม่มีอยู่ในพจนานุกรมสมัยใหม่ เมื่ออ่านคำได้อย่างรวดเร็ว"Splls"อ่านดูเหมือน "ติดกัน" เมื่อช้า มันก็ทำให้งุนงง
การแปลงสัญญาณดิจิทัล
เสียงหรืออะคูสติกสั่นเป็นไซนัส ตัวอย่างนี้สามารถเห็นได้บนหน้าจอตัวแก้ไขเสียง ในการถ่ายทอดเสียงอย่างแม่นยำคุณจะต้องมีค่าจำนวนไม่ จำกัด นั่นคือคลื่นไซน์ทั้งหมด สิ่งนี้เป็นไปได้ด้วยการเชื่อมต่อแบบอะนาล็อก เขาร้องเพลง - คุณฟังผู้ติดต่อจะไม่ถูกขัดจังหวะในขณะที่เพลงยังคงอยู่
ในการสื่อสารแบบดิจิทัลผ่านช่องทางหนึ่ง เราสามารถส่งค่าได้เพียงจำนวนจำกัดเท่านั้น นี่หมายความว่าไม่สามารถสร้างเสียงได้อย่างแม่นยำใช่หรือไม่? ปรากฎว่าไม่
เสียงที่ต่างกันคือคลื่นไซน์มอดูเลตที่แตกต่างกันเราส่งเฉพาะค่าที่ไม่ต่อเนื่อง (ความถี่และแอมพลิจูด) และคลื่นไซน์นั้นไม่จำเป็นต้องถูกส่ง - อุปกรณ์ที่รับสามารถสร้างได้มันสร้างไซนูซอยด์และซ้อนทับกับมันการมอดูเลตที่สร้างขึ้นจากค่าที่ส่งผ่านช่องทางการสื่อสาร มีหลักการที่แน่นอนที่จะต้องส่งค่าที่ไม่ต่อเนื่องเพื่อให้เสียงที่อินพุตไปยังช่องทางการสื่อสารเกิดขึ้นพร้อมกับเสียงที่เอาต์พุตโดยที่ค่าเหล่านี้ซ้อนทับบนไซนัสอยด์มาตรฐานบางตัว (นี่คือทฤษฎีบทของ Kotelnikov เกี่ยวกับ).
ทฤษฎีบทของ Kotelnikov (ในวรรณคดีภาษาอังกฤษ - Nyquist - ทฤษฎีบท Shannon, ทฤษฎีบทการอ่าน)- คำแถลงพื้นฐานในด้านดิจิทัลการประมวลผลสัญญาณ การเชื่อมต่อสัญญาณต่อเนื่องและไม่ต่อเนื่อง และระบุว่า “ฟังก์ชันใดๆ F(t) ที่ประกอบด้วยความถี่ตั้งแต่ 0 ถึง f1 สามารถส่งอย่างต่อเนื่องด้วยความแม่นยำใดๆ โดยใช้ตัวเลขที่ต่อกันจนถึง 1/(2*f1) วินาที
การเข้ารหัสป้องกันสัญญาณรบกวน รหัส Hamming
หากอยู่ในช่องที่ไม่น่าเชื่อถือในการส่งข้อความที่เขียนโค้ดของ Ivan Turgenev แม้ว่าจะมีข้อผิดพลาดบางอย่างจะส่งผลให้ข้อความมีความหมายมาก แต่ถ้าเราต้องการถ่ายโอนทุกอย่างเป็นบิตงานจะไม่ได้รับการแก้ไข: เราไม่รู้ว่าบิตใดผิดเพราะข้อผิดพลาดเป็นแบบสุ่ม แม้การตรวจสอบจะไม่บันทึก
นั่นคือเหตุผลที่วันนี้เมื่อส่งข้อมูลเครือข่ายมักจะไม่ได้รับการเข้ารหัสที่ดีที่สุดซึ่งจำนวนข้อมูลสูงสุดสามารถผลักเข้าไปในช่องสัญญาณได้ แต่เป็นการเข้ารหัส (ซ้ำซ้อนอย่างเห็นได้ชัด) ซึ่งข้อผิดพลาดสามารถกู้คืนได้ - เช่นเดียวกับเมื่อเราอ่านคำศัพท์ในส่วนของ Ivan Turgenev
มีรหัสแก้ไขข้อผิดพลาดพิเศษที่ช่วยให้คุณสามารถกู้คืนข้อมูลหลังจากความล้มเหลว หนึ่งในนั้นคือรหัส Hammingสมมติว่าทั้งภาษาของเราประกอบด้วยคำสามคำ:111000, 001110, 100011 ทั้งแหล่งที่มาของข้อความและผู้รับทราบคำเหล่านี้ และเรารู้ว่าข้อผิดพลาดเกิดขึ้นในช่องทางการสื่อสาร แต่เมื่อส่งคำเดียว ข้อมูลจะไม่บิดเบี้ยวเกินหนึ่งบิต
สมมติว่าเราผ่านคำว่า 111000 ไปก่อนดังนั้นจึงไม่มีข้อผิดพลาดมากกว่าหนึ่งข้อ (เราได้ระบุข้อผิดพลาด) ซึ่งสามารถเปลี่ยนเป็นคำใดคำหนึ่งได้:
1) 111000,011,000, 101,000, 110000, 111100, 111010, 111001.
เมื่อส่งคำ 001110 คำใด ๆ สามารถรับได้:
2) 001110,101110, 011110, 000110, 001010, 001100, 001111.
ในที่สุดเราก็สามารถรับได้ที่แผนกต้อนรับ:
3) 100011,000011, 110011, 101011, 100111, 1,00001, 1,00010.
โปรดทราบว่าทั้งสามรายการไม่ได้เป็นแบบคู่ตัด กล่าวอีกนัยหนึ่งถ้าที่ปลายอีกด้านของช่องทางการสื่อสารคำใด ๆ จากรายการ 1 ปรากฏขึ้นผู้รับจะรู้ว่าได้ส่งคำว่า 111000 ไปให้เขาและหากคำใดก็ตามจากรายการ 2 ปรากฏขึ้นคำว่า 001110 และจากรายการ 3 คำ 100011 จะปรากฏขึ้น พวกเขาบอกว่ารหัสของเราแก้ไขข้อผิดพลาดเดียว
การแก้ไขเกิดขึ้นเนื่องจากปัจจัยสองประการก่อนอื่นผู้รับรู้ว่า "พจนานุกรม" ทั้งหมด, เช่นพื้นที่กิจกรรมของผู้รับข้อความเกิดขึ้นพร้อมกับพื้นที่ของผู้ส่งข้อความ เมื่อรหัสถูกส่งโดยมีข้อผิดพลาดเพียงครั้งเดียวคำออกมาซึ่งไม่ได้อยู่ในพจนานุกรม
ประการที่สองคำในพจนานุกรมถูกเลือกด้วยวิธีพิเศษแม้ว่าจะมีข้อผิดพลาดเกิดขึ้น ผู้รับก็ไม่สามารถทำได้สับสนคำหนึ่งกับอีกคำหนึ่ง ตัวอย่างเช่นหากพจนานุกรมประกอบด้วยคำว่า "ลูกสาว", "จุด", "ชน" และในระหว่างการส่งผลลัพธ์คือ "vochka" ผู้รับเมื่อรู้ว่าไม่มีคำดังกล่าวจะไม่สามารถ แก้ไขข้อผิดพลาด - คำใดคำหนึ่งในสามคำอาจกลายเป็นว่าถูกต้อง หากพจนานุกรมมี "dot", "daw", "branch" และเรารู้ว่าไม่อนุญาตให้มีข้อผิดพลาดมากกว่าหนึ่งครั้ง "vochka" จะเป็น "จุด" อย่างแน่นอนไม่ใช่ "daw" ในรหัสแก้ไขข้อผิดพลาด คำจะถูกเลือกอย่างแม่นยำเพื่อให้สามารถ "จดจำได้" แม้ว่าจะเกิดข้อผิดพลาดก็ตาม ข้อแตกต่างเพียงอย่างเดียวคือรหัส "ตัวอักษร" มีเพียงสองตัวเท่านั้น - ศูนย์และหนึ่งตัว
ซ้ำซ้อนของการเข้ารหัสดังกล่าวมีขนาดใหญ่มากและจำนวนคำที่เราสามารถถ่ายทอดมีขนาดค่อนข้างเล็กเราจำเป็นต้องแยกคำใดๆ ออกจากพจนานุกรมซึ่งในกรณีมีข้อผิดพลาดอาจตรงกับรายการทั้งหมดที่ตรงกับคำที่ถ่ายทอด (เช่น คำว่า "ลูกสาว" และ "จุด" ไม่สามารถอยู่ในพจนานุกรมได้) แต่การส่งข้อความที่แม่นยำนั้นสำคัญมากจนต้องใช้ความพยายามอย่างมากในการวิจัยรหัสที่ป้องกันข้อผิดพลาด
ความรู้สึก
แนวคิดของเอนโทรปี (หรือความไม่แน่นอนและความคาดเดาไม่ได้) ของข้อความและความซ้ำซ้อน (หรือการคาดการณ์ล่วงหน้าและการคาดการณ์) นั้นสอดคล้องกับแนวคิดที่ใช้งานง่ายของเราเกี่ยวกับการวัดข้อมูล ข้อความที่ไม่สามารถคาดเดาได้มากขึ้น (ยิ่งเอนโทรปีของมันยิ่งมีโอกาสน้อย) ก็ยิ่งมีข้อมูลมากขึ้นเท่านั้น ความรู้สึก (ตัวอย่างเช่นการประชุมกับจระเข้ใน Tverskaya) เป็นเหตุการณ์ที่หายากความสามารถในการคาดการณ์ของมันอยู่ในระดับต่ำมากดังนั้นค่าของข้อมูลจึงสูง บ่อยครั้งที่ข้อมูลถูกเรียกว่าข่าว - รายงานเหตุการณ์ที่เพิ่งเกิดขึ้นซึ่งเรายังไม่รู้อะไรเลย แต่ถ้าพวกเขาบอกเราเกี่ยวกับคำที่สองและสามเกี่ยวกับคำเดียวกันความซ้ำซ้อนของข้อความจะยิ่งใหญ่ความคาดเดาไม่ได้ของมันจะลดลงเหลือศูนย์และเราก็จะไม่ฟังโบกมือออกจากลำโพงด้วยคำ ดังนั้นสื่อพยายามอย่างหนักที่จะเป็นคนแรก การโต้ตอบกับความรู้สึกแปลกใหม่ของสัญชาตญาณซึ่งก่อให้เกิดข่าวที่ไม่คาดคิดมีบทบาทสำคัญในความจริงที่ว่าบทความของแชนนอนซึ่งไม่ได้มีไว้สำหรับผู้อ่านทั่วไปกลายเป็นความรู้สึก - จากนักภาษาศาสตร์และนักวิจารณ์วรรณกรรมไปจนถึงนักชีววิทยา
แต่แนวคิดสารสนเทศแชนนอน - ทฤษฎีทางคณิตศาสตร์ที่เข้มงวดและการประยุกต์นอกทฤษฎีการสื่อสารนั้นไม่น่าเชื่อถือมาก แต่ในทฤษฎีของการสื่อสารนั้นมันมีบทบาทสำคัญ
ข้อมูลความหมาย
แชนนอน แนะนำแนวคิดเรื่องเอนโทรปีเป็นการวัดข้อมูล ได้รับโอกาสในการทำงานกับข้อมูล - ก่อนอื่นเลย เพื่อวัดและประเมินลักษณะต่างๆ เช่น ความจุของช่องสัญญาณหรือการเข้ารหัสที่เหมาะสมที่สุด แต่สมมติฐานหลักที่ทำให้แชนนอนดำเนินการกับข้อมูลได้สำเร็จคือสมมติฐานว่าการสร้างข้อมูลเป็นกระบวนการสุ่มที่สามารถอธิบายได้สำเร็จในแง่ของทฤษฎีความน่าจะเป็นหากกระบวนการไม่สุ่มนั่นคือมันเป็นไปตามกฎหมาย (ยิ่งไปกว่านั้นมันไม่ชัดเจนเสมอไปในขณะที่มันเกิดขึ้นในภาษาธรรมชาติ) แล้วการขัดแย้งของแชนนอนไม่สามารถใช้ได้กับมันไม่มีสิ่งใดที่แชนนอนกล่าวว่าเกี่ยวข้องกับข้อมูลที่มีความหมาย
ขณะที่เรากำลังพูดถึงตัวละคร (หรือตัวอักษรของตัวอักษร)เราสามารถถกเถียงกันในแง่ของเหตุการณ์แบบสุ่ม แต่ทันทีที่เราได้พูดคำภาษาสถานการณ์จะเปลี่ยนไปอย่างมาก คำพูดเป็นกระบวนการที่มีการจัดการเป็นพิเศษและที่นี่โครงสร้างของข้อความไม่สำคัญน้อยกว่าตัวละครที่ส่ง
ไม่นานมานี้ดูเหมือนว่าเราไม่สามารถทำอะไรได้เลยทำเพื่อให้เข้าใกล้การวัดความหมายของข้อความอย่างน้อยที่สุด แต่ในช่วงไม่กี่ปีที่ผ่านมาสถานการณ์เริ่มเปลี่ยนไป และสาเหตุหลักมาจากการใช้โครงข่ายประสาทเทียมสำหรับงานแปลด้วยคอมพิวเตอร์ การสรุปข้อความอัตโนมัติ การดึงข้อมูลจากข้อความ และการสร้างรายงานในภาษาธรรมชาติ งานทั้งหมดเหล่านี้เกี่ยวข้องกับการเปลี่ยนแปลง การเข้ารหัส และการถอดรหัสข้อมูลที่มีความหมายซึ่งอยู่ในภาษาธรรมชาติ และค่อยๆ เกิดแนวคิดเกี่ยวกับการสูญเสียข้อมูลระหว่างการเปลี่ยนแปลงดังกล่าว และดังนั้นเกี่ยวกับขอบเขตของข้อมูลที่มีความหมาย แต่ในปัจจุบัน ความชัดเจนและความถูกต้องของทฤษฎีข้อมูลของแชนนอนยังไม่มีในปัญหายากๆ เหล่านี้