ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ  ΣΕΡΡΩΝ

ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ

 

 

 

 

Συστήματα Πολυμέσων

(Θεωρία)

 

 

 

 

 

 

Αθανάσιος Νικολαΐδης (Dipl.-Eng., PhD)

Επίκουρος Καθηγητής

 

 

Τομέας Αρχιτεκτονικής Η/Υ & Βιομηχανικών Εφαρμογών

 

 

 

 

 

 

Σέρρες 2008



ΠΕΡΙΕΧΟΜΕΝΑ

 

1. Γενικά για τα πολυμέσα.. 1-1

1.1        Εισαγωγή.. 1-1

1.2        Ετυμολογία.. 1-1

1.3        Ορισμός.. 1-2

1.4        Χαρακτηριστικά.. 1-5

1.5        Αυτόνομα και Δικτυωμένα Πολυμέσα.. 1-6

2. Χαρακτηριστικά Των Συστημάτων Πολυμέσων.. 2-1

2.1        Έλεγχος από υπολογιστή.. 2-1

2.2        Ολοκλήρωση.. 2-2

2.3        Ψηφιακή Αναπαράσταση.. 2-4

2.3.1      Η Πληροφορία ως Σήμα. 2-4

2.3.2      Δειγματοληψία, Κβαντοποίηση και Κωδικοποίηση. 2-5

2.3.3      Αναλογική/Ψηφιακή και Ψηφιακή/Αναλογική Μετατροπή. 2-6

2.3.4      Πλεονεκτήματα της Ψηφιακής Αναπαράστασης. 2-7

2.3.5      Μειονεκτήματα της Ψηφιακής Αναπαράστασης. 2-8

2.4        Αλληλεπιδραστικότητα (Interactivity) 2-8

2.4.1      Παθητική και Ενεργητική Παρουσίαση της Πληροφορίας. 2-9

2.4.2      Γραμμική και Δομημένη Παρουσίαση της Πληροφορίας. 2-10

2.4.3      Πλεονεκτήματα της Interactivity στην Παρουσίαση της Πληροφορίας. 2-10

3. Ψηφιακή Αναπαράσταση Πληροφορίας.. 3-1

3.1        Τεχνικές Ψηφιοποίησης.. 3-1

3.1.1      ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ (PCM) 3-1

3.1.1.1        Εισαγωγή. 3-1

3.1.1.2        Στοιχεία της Παλμοκωδικής Διαμόρφωσης. 3-2

3.1.1.3        Δειγματοληψία. 3-2

3.1.1.4        Κβαντισμός. 3-4

3.1.1.5        Κωδικοποίηση. 3-6

3.1.1.6        Αναγέννηση. 3-7

3.1.1.7        Αποκωδικοποίηση. 3-9

3.1.1.8        Φιλτράρισμα. 3-9

3.1.1.9        Πολυπλεξία. 3-9

3.1.1.10      Συγχρονισμός. 3-10

3.1.1.11      Απαιτούμενο Εύρος Ζώνης για τα Συστήματα PCM... 3-11

3.1.2      Γραμμική και Λογαριθμική κωδικοποίηση. 3-12

3.1.2.1        Τηλεφωνία PCM... 3-12

3.1.3      Ήχος Ποιότητας CD (Compact Disk-Digital Audio) 3-14

3.1.4      Ψηφιακή Τηλεόραση. 3-15

3.1.4.1        Φως, Χρώμα και Ανθρώπινη Όραση. 3-16

3.1.4.2        Σύνθεση χρωμάτων. 3-17

3.1.4.3        Luminance and Chrominance. 3-19

3.1.4.4        Ψηφιοποίηση στην ψηφιακή τηλεόραση ποιότητας στούντιο. 3-20

3.2        Συμπίεση Δεδομένων.. 3-23

3.2.1      Η ανάγκη για συμπίεση. 3-23

3.2.2      Συμπίεση με απώλειες και χωρίς απώλειες. 3-24

3.2.3      Κωδικοποίηση εντροπίας και πηγής. 3-25

3.2.3.1        Κωδικοποίηση εντροπίας. 3-25

3.2.3.2        Κωδικοποίηση Πηγής. 3-26

3.2.4      Περιορισμός των ακολουθιών επαναλαμβανόμενων χαρακτήρων. 3-27

3.2.5      Στατιστική Κωδικοποίηση. 3-28

3.2.5.1        Αντικατάσταση προτύπων. 3-28

3.2.5.2        Κωδικοποίηση Huffman. 3-29

3.2.6      Κωδικοποίηση μετασχηματισμού. 3-29

3.2.7      Διαφορική ή προβλεπτική κωδικοποίηση. 3-31

3.2.7.1        Απλή διαφορική παλμοκωδική διαμόρφωση. 3-31

3.2.7.2        Δέλτα διαμόρφωση. 3-32

3.2.7.3        Προσαρμοστική διαφορική παλμοκωδική διαμόρφωση. 3-33

3.2.8      Διανυσματική κβαντοποίηση. 3-33

3.2.9      Συμπίεση με fractals. 3-35

3.2.10         Συμμετρία των τεχνικών συμπίεσης. 3-36

4. Κείμενο, Εικόνα, Ήχος, Video.. 4-1

4.1        Κείμενο.. 4-1

4.1.1      Αναπαράσταση κειμένου. 4-1

4.1.1.1        ASCII (American Standard Code for Information Interchange) 4-2

4.1.1.2        Κωδικοσελίδες (character sets) του ISO.. 4-2

4.1.1.3        Mark-up κείμενο. 4-3

4.1.1.4        Δομημένο κείμενο. 4-3

4.1.1.5        Hypertext 4-4

4.1.2      Χειρισμός Κειμένου. 4-5

4.1.2.1        Πράξεις χαρακτήρων. 4-5

4.1.2.2        Πράξεις συμβολοσειρών. 4-5

4.1.2.3        Επεξεργασία (Editing) κειμένου. 4-5

4.1.2.4        Φορμάρισμα κειμένου. 4-6

4.1.2.5        Αναζήτηση. 4-7

4.1.2.6        Συμπίεση. 4-7

4.1.2.7        Κρυπτογράφηση. 4-8

4.2        Εικόνα.. 4-8

4.2.1      Εικόνες και Εφαρμογές. 4-8

4.2.2      Σύλληψη Εικόνων. 4-9

4.2.3      Συμπίεση. 4-10

4.2.3.1        Το πρότυπο JPEG.. 4-12

4.2.3.2        Fractal Image Compression (Απειροστική Συμπίεση Εικόνας) 4-15

4.2.4      Image file formats. 4-23

4.2.5      Γραφικά και Εικόνα. 4-24

4.3        Ήχος.. 4-27

4.3.1      Ήχος και Εφαρμογές. 4-27

4.3.2      Σύλληψη (capture) και Συμπίεση. 4-28

4.3.3      Μουσική και υπολογιστές. 4-28

4.3.4      Ομιλία και υπολογιστές. 4-29

4.3.5      Συμπίεση. 4-30

4.3.6      Πρότυπα. 4-31

4.3.6.1        Οπτικοακουστική Τηλεφωνία (Audiovisual Telephony) 4-31

4.3.6.2        Τα πρότυπα MPEG.. 4-32

4.4        Video.. 4-34

4.4.1      Video και Εφαρμογές. 4-34

4.4.2      Σύλληψη Video. 4-35

4.4.2.1        Κάρτες Υπέρθεσης Video (video overlay boards) 4-36

4.4.2.2        Ψηφιοποιητές. 4-36

4.4.2.3        Κάρτες Συμπίεσης. 4-36

4.4.3      Τεχνικές Συμπίεσης. 4-37

4.4.4      Το Πρότυπο Συμπίεσης MPEG.. 4-38

4.4.4.1        Η ανάγκη για ψηφιακή συμπίεση. 4-38

4.4.4.2        Το πρότυπο συμπίεσης MPEG.. 4-40

4.4.5      Γενικές αρχές της συμπίεσης video. 4-43

4.4.5.1        Ποιοτική ανοχή. 4-43

4.4.5.2        Πλεονασμός (Redundancy) 4-44

4.4.5.3        DCT Coding (Discrete Cosine Transform Coding) 4-45

4.4.5.4        Κβαντοποίηση (Quantization) 4-47

4.4.5.5        Τμηματική Πρόβλεψη Κίνησης (Block Motion Compensation) 4-48

4.4.5.6        Ανατομία του σήματος ΜPEG.. 4-50

4.4.5.7        Είδη πλαισίων (frames) 4-53

4.4.5.8        Οι μέθοδοι Run Length Encoding και Huffman. 4-56

4.4.5.9        Προσαρμοστική Κωδικοποίηση - Adaptive coding. 4-57

4.4.5.10      Διαδικασία Κωδικοποίησης. 4-58

4.4.6      Proprietary Compression. 4-63

4.4.6.1        Digital Video Interactive (DVI) 4-63

4.4.6.2        Fractal Image Compression. 4-64

4.4.6.3        QuickTime. 4-64

4.4.6.4        Video for Windows. 4-64

4.5        Animation και video.. 4-64

4.5.1      Κλασσικές Μέθοδοι 4-65

4.5.1.1        Μέθοδος : Stop Frame Animation. 4-65

4.5.1.2        Μέθοδος : 2 1/2 Dimensional Animation. 4-66

4.5.1.3        Μέθοδος : Rotascoping. 4-66

4.5.1.4        Μέθοδος : Phenakistoscope & Stroboscope. 4-67

4.5.2      Μοντέρνα Μέθοδος. 4-67

4.5.2.1        Storyboard. 4-67

4.5.2.2        Modeling. 4-68

4.5.2.3        Σενάριο / Έλεγχος Κίνησης. 4-69

4.5.3      Particle System.. 4-74

4.5.4      Rendering. 4-74

4.5.4.1        Wire Frame. 4-75

4.5.4.2        Flat Shading. 4-75

4.5.4.3        Gouraud. 4-75

4.5.4.4        Phong. 4-75

4.5.4.5        Ray Tracing. 4-76

4.5.4.6        Radiosity. 4-76

4.5.5      Textures. 4-76

4.5.5.1        Texture mapping. 4-76

4.5.5.2        Image mapping. 4-77

4.5.5.3        Reflectance Mapping. 4-77

4.5.5.4        Procedural Mapping. 4-77

4.5.5.5        Bump Mapping. 4-77

4.5.6      Κατηγορίες animation χαρακτήρων. 4-77

4.5.6.1        Η πολυπλοκότητα της ανθρώπινης κίνησης. 4-77

4.5.6.2        Δευτερεύουσα Κίνηση : Ένας Σημαντικός Παράγοντας. 4-79

4.5.7      Εφαρμογές. 4-80

4.5.7.1        Αρχιτεκτονική. 4-80

4.5.7.2        Τέχνη. 4-80

4.5.7.3        Παιδεία. 4-81

4.5.7.4        Engineering. 4-81

4.5.7.5        Παραγωγή Film.. 4-82

4.5.7.6        Στρατιωτικές Εκπαιδεύσεις. 4-82

4.5.7.7        TV.. 4-83

4.5.7.8        Video. 4-83

4.5.8      Η Animation Βιομηχανία Σήμερα. 4-84

4.5.8.1        Πακέτα Animation. 4-85

5. Αποθηκευτικά Μέσα.. 5-1

5.1        Η Επιλογή Αποθηκευτικού Μέσου.. 5-1

5.2        Μαγνητικά Αποθηκευτικά Μέσα.. 5-2

5.2.1      RAID.. 5-3

5.3        Οπτικά Αποθηκευτικά Μέσα.. 5-4

5.3.1      Ψηφιακά Οπτικά Αποθηκευτικά Μέσα. 5-5

5.3.2      Αρχή Λειτουργίας Των Οπτικών Δίσκων. 5-6

5.3.3      Πλεονεκτήματα και Περιορισμοί των Οπτικών Μέσων. 5-7

5.4        CD Πρότυπα.. 5-8

5.4.1      CD-DA (Compact Disk – Digital Audio) 5-12

5.4.1.1        Δειγματοληψία. 5-12

5.4.1.2        Κβαντοποίηση. 5-13

5.4.2      CD-ROM (Compact Disk - Read Only Memory) 5-19

5.4.3      CD-R (Compact Disk Recordable) 5-22

5.4.4      PHOTO CD.. 5-25

5.4.5      CD-i (Compact Disk Interactive) 5-29

5.4.6      CD-ROM XA.. 5-33

5.4.7      DVD (Digital Video Disk) 5-34

6. Οι Εφαρμογές των Πολυμέσων.. 6-1

6.1        Ταξινόμηση Των Εφαρμογών Πολυμέσων.. 6-1

6.1.1      Ένας Χρήστης. 6-1

6.1.2      Πολλοί Χρήστες. 6-2

6.1.2.1        People-to-People Multimedia Applications. 6-2

6.1.2.2        People-to-Systems Multimedia Applications. 6-3

6.1.2.3        Σύγχρονες Εφαρμογές People-to-People. 6-3

6.1.2.4        Ασύγχρονες Εφαρμογές People-to-People. 6-3

6.1.2.5        Εφαρμογές People-to-System.. 6-4

6.2        Περιγραφή Μερικών Δικτυακών Εφαρμογών Πολυμέσων.. 6-4

6.2.1      Audio-Video Interpersonal Εφαρμογές. 6-5

6.2.2      Εφαρμογές Μοιραζόμενου Χώρου Εργασίας. 6-7

6.2.2.1        Μοιραζόμενοι Πίνακες (shared whiteboards) 6-7

6.2.2.2        Εργαλεία Μοιράσματος Εφαρμογών (Shared applications tools) 6-8

6.2.3      Διανομή audio-video. 6-9

6.2.4      Audio-Videoconferencing. 6-11

6.2.5      Ηλεκτρονικό Ταχυδρομείο. 6-13

6.2.5.1        Text-Mail 6-13

6.2.5.2        Desktop Voice-Mail 6-14

6.2.5.3        Video-Mail 6-14

6.2.5.4        Compound-Mail 6-14

6.2.5.5        Multimedia Mail 6-14

6.2.6      Multimedia Server-Based Applications. 6-15

 


ΣΧΗΜΑΤΑ

Σχήμα 1-1. Ταξινόμηση ειδών πληροφορίας.. 1-5

Σχήμα 1-2. Αυτόνομα και Δικτυωμένα Πολυμέσα.. 1-7

Σχήμα 2-1. Η πληροφορία ως σήμα.. 2-5

Σχήμα 2-2. Ψηφιοποίηση ενός αναλογικού σήματος.. 2-6

Σχήμα 2-3. Μέθοδοι δημιουργίας και μετατροπής διαφόρων ειδών πληροφορίας.. 2-7

Σχήμα 3-1. Δύο διαφορετικές φασματικές κατανομές μπορούν να παράγουν την ίδια χρωματική αίσθηση   3-16

Σχήμα 3-2. Οι κάμερες παράγουν σήμα που αποτελείται από τρεις συνιστώσες.. 3-18

Σχήμα 3-3. Μετατροπή RGB σήματος σε YUV στις τηλεοράσεις.. 3-19

Σχήμα 3-4. Τα σημεία δειγματοληψίας στην ψηφιακή τηλεόραση είναι σταθερά.. 3-21

Σχήμα 3-5. Η δειγματοληψία ενός πλαισίου στην ψηφιακή τηλεόραση.. 3-23

Σχήμα 3-6. Παραδείγματα περιορισμού των επαναλαμβανόμενων χαρακτήρων.. 3-27

Σχήμα 3-7. Η βασική αρχή της κωδικοποίησης μετασχηματισμού.. 3-30

Σχήμα 3-8. Τρία είδη διαφορικής κωδικοποίησης.. 3-32

Σχήμα 3-9. Η βασική αρχή της διανυσματικής κβαντοποίησης.. 3-34

Σχήμα 3-10. Η βασική αρχή της διανυσματική κβαντοποίησης με μετάδοση όρου λάθους   3-35

Σχήμα 4-1: Motion Compensation με χρήση του Trhree Step Search.. 4-50

Σχήμα 4-2: Σχηματικό διάγραμμα αποκωδικοποιητή MPEG. 4-50

Σχήμα 4-3: Zig-zag scanning. 4-62

Σχήμα 5-1. Τομή ενός δίσκου CD.. 5-6

 



ΠΙΝΑΚΕΣ

 

Πίνακας 4-1. Απαιτήσεις αποθηκευτικού χώρου για σελίδα Α4 χωρίς συμπίεση.. 4-11

Πίνακας 4-2. Ηχητική ποιότητα και μέθοδος ψηφιοποίησης. 4-31

Πίνακας 4-3. Πρότυπα για κωδικοποίηση ήχου.. 4-32

Πίνακας 4-4. Αναλογία πλαισίων σε σήμα MPEG.. 4-56

Πίνακας 4-5: Τυχαίο αρχικό μπλοκ pixels 8x8. 4-58

Πίνακας 4-6: Το ίδιο μπλοκ μετά από εφαρμογή DCT. 4-60

Πίνακας 4-7: Το προηγούμενο μπλοκ μετά από εφαρμογή ποσοστοποίησης        (thresholding). 4-60

Πίνακας 4-8: Κβαντοποίηση με μετατροπή σε ακέραιες τιμές. 4-61

Πίνακας 4-9: Ανακατασκευή του αρχικού block μετά από αποκωδικοποίηση.. 4-63

Πίνακας 4-10. Εφαρμογές του MPEG-2. 4-63

 



1. Γενικά για τα πολυμέσα

Σε αυτό το κεφάλαιο θα γίνει μια σύντομη εισαγωγή στον κόσμο των πολυμέσων. Θα αναζητηθεί ένας αυστηρός ορισμός που εξυπηρετεί τους στόχους αυτών των σημειώσεων και θα περιγραφούν τα χαρακτηριστικά ενός συστήματος πολυμέσων.

1.1    Εισαγωγή

Τα πολυμέσα είναι μία από τις πιο πολυσυζητημένες τεχνολογίες των αρχών της δεκαετίας του 90. Το ενδιαφέρον αυτό είναι απόλυτα δικαιολογημένο, αφού τα πολυμέσα αποτελούν το σημείο συνάντησης πέντε μεγάλων βιομηχανιών: της πληροφορικής, των τηλεπικοινωνιών, ηλεκτρονικών εκδόσεων, της βιομηχανίας audio και video καθώς και της βιομηχανίας της τηλεόρασης και του κινηματογράφου. Μια ανάλογη αναστάτωση επέφερε και η εμφάνιση της επιστήμης των δικτύων υπολογιστών στη δεκαετία του 70, φέρνοντας πιο κοντά την πληροφορική με τις τηλεπικοινωνίες. Αυτή η προσέγγιση οδήγησε σε προϊόντα που στόχευαν κυρίως στην αγορά των επιχειρήσεων. Τα πολυμέσα έκαναν κάτι περισσότερο, διεύρυναν την αγορά των προϊόντων των παραπάνω βιομηχανιών που πλέον στοχεύουν και στους καταναλωτές.

Η πληθώρα και οι ποικιλία των νέων προϊόντων καθώς και η προσπάθεια εκμετάλλευσης του ενδιαφέροντος που επέδειξε το αγοραστικό κοινό για την τεχνολογία των πολυμέσων συνετέλεσαν στην σύγχυση που υπάρχει ακόμα και σήμερα όσον αφορά στο τι είναι και τι δεν είναι ένα σύστημα πολυμέσων.

Μια καλή αρχή για τον καθορισμό του όρου είναι η ανάλυση της ετυμολογίας του.

1.2    Ετυμολογία

Ο αγγλικός όρος, που εδώ έχει αποδοθεί ως πολυμέσα, είναι multimedia. Ό όρος  αυτός αποτελείται από δύο μέρη: το πρόθεμα multi και τη ρίζα media.

Multi:    προέρχεται από τη λατινική λέξη multus και σημαίνει "πολυάριθμος", "πολλαπλός".

Media:  είναι ο πληθυντικός αριθμός της επίσης λατινικής λέξης medium που σημαίνει "μέσο", "κέντρο". Πιο πρόσφατα η λέξη medium άρχισε να χρησιμοποιείται και ως "ενδιάμεσος", "μεσολαβητής".

Κατά συνέπεια ο ορισμός που προκύπτει είναι:

Multimedia σημαίνει "πολλαπλοί μεσολαβητές" ή "πολλαπλά μέσα" και χρησιμοποιείται είτε ως ουσιαστικό είτε ως επίθετο.

1.3    Ορισμός

Η πρώτη προσέγγιση του ορισμού δεν μας λέει και πολλά πράγματα. Μπορούμε όμως να τον βελτιώσουμε αναλογιζόμενοι τον τρόπο χρήσης των όρων multi, και media. Ο αγγλικός  όρος media χρησιμοποιείται σε πολλούς οικονομικούς, τεχνικούς και επιστημονικούς τομείς με διαφορετικές σημασίες. Το κοινό σημείο αυτών των χρήσεων είναι ότι σχετίζονται πάντοτε με κάποιο είδος χειρισμού πληροφορίας:

·       Αποθήκευση και επεξεργασία στην πληροφορική

·       Παραγωγή στον χώρο των εκδόσεων

·       Διανομή στων χώρο των μαζικών μέσων επικοινωνίας

·       Μετάδοση στις τηλεπικοινωνίες

·       Αντίληψη κατά την αλληλεπίδραση του ανθρώπου με το περιβάλλον του.

Κατά συνέπεια μπορούμε να βελτιώσουμε τον ορισμό ως εξής:

Πολυμέσα στον χώρο της τεχνολογίας πληροφορίας (information field) σημαίνει “πολλαπλοί μεσολαβητές”  μεταξύ της πηγής και του παραλήπτη  της πληροφορίας ή “πολλαπλά μέσα” μέσω των οποίων η πληροφορία αποθηκεύεται, μεταδίδεται, παρουσιάζεται ή γίνεται αντιληπτή..

Σύμφωνα με αυτόν τον ορισμό, ένα σύστημα που συνδυάζει, για παράδειγμα, τον έλεγχο βιντεοκασέτας και οπτικών μέσων αποθήκευσης μπορεί να χαρακτηριστεί ως σύστημα πολυμέσων. Επίσης συστήματα πολυμέσων θα είναι η εφημερίδα, που συνδυάζει κείμενο και εικόνα, και η τηλεόραση, που συνδυάζει ήχο και κινούμενη εικόνα. Εδώ δεν αναφερόμαστε σε τόσο ευρύ φάσμα συστημάτων. Περιοριζόμαστε σε αυτά στα οποία η πληροφορία είναι ψηφιακή (ή ψηφιοποιημένα - digitized) και ελέγχεται από υπολογιστή. Ενδιαφερόμαστε δηλαδή για ψηφιακά πολυμέσα τα οποία και ορίζουμε ως εξής:

Ψηφιακά πολυμέσα είναι ο τομέας που ασχολείται με την ελεγχόμενη από υπολογιστή ολοκλήρωση κειμένου, γραφικών, ακίνητης και κινούμενης εικόνας, animation, ήχου, και οποιουδήποτε άλλου μέσου ψηφιακής αναπαράστασης, αποθήκευσης, μετάδοσης και επεξεργασίας της πληροφορίας

Επειδή στη συνέχεια θα ασχοληθούμε μόνο με τα ψηφιακά πολυμέσα, θα χρησιμοποιούμε τον όρο πολυμέσα εννοώντας τα ψηφιακά πολυμέσα. Επίσης ως μέσο θα  εννοούμε τους τύπους πληροφορίας που αναφέρει ο παραπάνω ορισμός.

Διαβάζοντας αυτόν τον ορισμό, δημιουργείται το ερώτημα: ποιους και πόσους τύπους πληροφορίας πρέπει να συνδυάζει ένα σύστημα, για να μπορεί δίκαια να χαρακτηρίζεται ως σύστημα πολυμέσων; Όπως είναι φανερό, η απάντηση σε αυτό το ερώτημα δεν μπορεί να είναι αυστηρή, γιατί δεν έχει γίνει κάποια συμφωνία πάνω στον ορισμό των πολυμέσων. Όμως στην πράξη έχουν δημιουργηθεί κάποιοι de facto κανόνες που καθορίζουν τι πρέπει να περιλαμβάνει ένα σύστημα πολυμέσων ανάλογα με το είδος της εφαρμογής. Σαν κατευθυντήρια γραμμή μπορούμε να δώσουμε τον παρακάτω ορισμό:

Στην πράξη, ο όρος πολυμέσα υπονοεί την ολοκλήρωση ενός τουλάχιστον “διακριτού” τύπου πληροφορίας  και ενός “συνεχούς”.

Στον παραπάνω ορισμό έχει γίνει διαχωρισμός των τύπων πληροφορίας σε διακριτούς και συνεχείς. Ένας άλλος διαχωρισμός είναι σε captured και synthesized μέσα. Ας δούμε τι σημαίνουν αυτοί οι διαχωρισμοί (Σχήμα 1-1):

·       Captured versus synthesized media

              Αυτός ο διαχωρισμός αναφέρεται στον τρόπο μεταφοράς της πληροφορίας στη μορφή που υπαγορεύει ο κάθε τύπος. Αν η πληροφορία συλλαμβάνεται απευθείας από τον πραγματικό κόσμο μιλάμε για captured media ενώ αν δημιουργείται από τον άνθρωπο μέσω κάποιων εργαλείων έχουμε τα συνθετικά μέσα. Για παράδειγμα, μια ψηφιακή φωτογραφική μηχανή ή ένας scanner μεταφέρει αυτόματα την εικόνα ενός αντικειμένου σε ψηφιακή μορφή κατάλληλη για χρήση στον υπολογιστή. Δηλαδή οι εικόνες είναι captured media. Το κείμενο, όταν αυτό πληκτρολογείται στον υπολογιστή είναι προφανώς συνθετικό μέσο. Αν όμως λαμβάνεται μέσω scanner και προγράμματος OCR πρέπει να θεωρηθεί ως captured.

·       Discrete versus continuous media

              Όταν ένας τύπος πληροφορίας έχει μόνο χωρική διάσταση ονομάζεται διακριτός. Αν υπάρχει και η συνιστώσα του χρόνου ονομάζεται συνεχές. Για παράδειγμα, οι εικόνες, το κείμενο και τα γραφικά είναι διακριτά, ενώ το βίντεο, ο ήχος και το animation είναι συνεχή.

Σχήμα 1-1. Ταξινόμηση ειδών πληροφορίας

Όλα αυτά τα μέσα που έχουν αναφερθεί ως τώρα απευθύνονται σχεδόν αποκλειστικά στην όραση και στην ακοή του ανθρώπου. Ένα σύστημα πολυμέσων δεν περιέχει απαραίτητα πληροφορίες για παραπάνω από μια αισθήσεις, παρόλο που κάτι τέτοιο είναι γενικά επιθυμητό.

1.4    Χαρακτηριστικά

Με βάση τον παραπάνω ορισμό, προκύπτουν τέσσερα χαρακτηριστικά για τα συστήματα πολυμέσων που μας ενδιαφέρουν:

·       Πρέπει να ελέγχονται από υπολογιστή.

          Δηλαδή η παρουσίαση της πληροφορίας γίνεται μέσω του υπολογιστή και ελέγχεται από αυτόν.

·       Είναι ολοκληρωμένα (integrated).

          Η ολοκλήρωση υπονοεί ότι ο αριθμός των υποσυστημάτων είναι κατά το δυνατόν ελάχιστος και ενσωματωμένος στον υπολογιστή. Παράδειγμα ολοκλήρωσης αποτελεί ή οθόνη του υπολογιστή που χρησιμοποιείται για την απεικόνιση κειμένου, εικόνας και βίντεο.

·       Η πληροφορία πρέπει να είναι σε ψηφιακή μορφή.

          Το χαρακτηριστικό αυτό είναι απόρροια της απαίτησης για έλεγχο και παρουσίαση μέσω υπολογιστή. Το πως γίνεται η μεταφορά κάθε τύπου πληροφορίας σε ψηφιακή μορφή, καθώς και τα πλεονεκτήματα της ψηφιακής αναπαράστασης της πληροφορίας θα εξεταστούν στο επόμενο κεφάλαιο.

·       Το interface με το χρήστη πρέπει να επιτρέπει αλληλεπίδραση (interaction).

          Αν και δεν περιλαμβάνεται ευθέως στον ορισμό, η δυνατότητα αυτή επιτρέπει την δημιουργία εφαρμογών με περισσότερες δυνατότητες από την απλή παρουσίαση της πληροφορίας (όπως γίνεται για παράδειγμα μέσω ενός video-player ή ενός CD-player) και είναι ιδιαίτερο χαρακτηριστικό των ελεγχόμενων μέσω υπολογιστή πολυμέσων.

          Αναλυτική περιγραφή αυτών των χαρακτηριστικών θα γίνει στο επόμενο κεφάλαιο.

1.5    Αυτόνομα και Δικτυωμένα Πολυμέσα

Ο όρος αυτόνομα ή τοπικά πολυμέσα αναφέρεται σε εφαρμογές που χρησιμοποιούν μόνο τον υπολογιστή στον οποίο τρέχουν. Κατά συνέπεια, ο υπολογιστής αυτός πρέπει να έχει όλες τις απαραίτητες υπομονάδες όπως:

·       επεξεργαστή  (όχι τερματικό δηλαδή)

·       ικανό υποσύστημα γραφικών και ήχου

·       ηχεία, μικρόφωνο

·       αρκετά αποθηκευτικά μέσα

·       κάποιας μορφής οπτικό δίσκο συνήθως CD-ROM

Πολλές όμως φορές είναι επιθυμητό οι εφαρμογές πολυμέσων να επικοινωνούν μέσω δικτύου με άλλους υπολογιστές για δύο λόγους:

·       Την υποστήριξη εφαρμογών οι οποίες είναι εγγενώς δικτυακές. Παραδείγματα τέτοιων εφαρμογών είναι το ηλεκτρονικό ταχυδρομείο πολυμέσων και η τηλεδιάσκεψη.

·       Την υλοποίηση του μοντέλου πελάτη-εξυπηρετητή(client-server). Πολλές φορές αν και μια εφαρμογή πολυμέσων  μπορεί κάλλιστα να υλοποιηθεί σε έναν υπολογιστή μόνο, για λόγους οικονομίας του υλικού, είναι επιθυμητό να μπορεί να αξιοποιεί και υποσυστήματα που ανήκουν σε άλλους υπολογιστές. Χαρακτηριστική περίπτωση είναι η ύπαρξη ενός υπολογιστή με μεγάλα αποθηκευτικά μέσα (εξυπηρετητής) προσπελάσιμα μέσω δικτύου και από άλλους υπολογιστές με περιορισμένες δυνατότητες αποθήκευσης (πελάτες).

Σχήμα 1-2. Αυτόνομα και Δικτυωμένα Πολυμέσα



2. Χαρακτηριστικά Των Συστημάτων Πολυμέσων

Στο Κεφάλαιο 1 δώσαμε έναν ορισμό για τα πολυμέσα ο οποίος εμπεριέχει τέσσερα βασικά χαρακτηριστικά: έλεγχο από τον υπολογιστή, ολοκλήρωση, ψηφιακή αναπαράσταση της πληροφορίας και interactivity. Σε αυτό το κεφάλαιο θα περιγράψουμε με περισσότερη λεπτομέρεια τι σημαίνει καθένα από αυτά και ποιες επιπτώσεις έχουν όσον αφορά στην αποδοτικότητα των εφαρμογών πολυμέσων έναντι των κοινών εφαρμογών.

2.1    Έλεγχος από υπολογιστή

Τα συστήματα πολυμέσων απαιτούν την παρουσίαση της πληροφορίας μέσω υπολογιστή. Όπως είναι γνωστό, οι υπολογιστές χειρίζονται δεδομένα που βρίσκονται σε ψηφιακή μορφή, δηλαδή που αναπαρίστανται με ακολουθίες των ψηφίων 0 και 1. Επειδή κάθε είδος πληροφορίας μπορεί να παρασταθεί με μια τέτοια ακολουθία δυαδικών ψηφιών, ένα σύστημα πολυμέσων που ελέγχεται από υπολογιστή μπορεί θεωρητικά να συμπεριλάβει όλους τους τύπους πληροφορίας. Πρακτικά, τίθενται κάποιοι περιορισμοί γιατί όπως θα δούμε παρακάτω, η ψηφιακή αναπαράσταση ορισμένων ειδών πληροφορίας (π.χ. κινούμενη εικόνα) απαιτεί πολύ χώρο. Η πρόοδος στον τομέα της συμπίεσης και των αποθηκευτικών μέσων τείνουν να εξαλείψουν αυτούς τους περιορισμούς, οπότε μπορούμε με ασφάλεια να πούμε ότι στο μέλλον ένα σύστημα πολυμέσων ελεγχόμενο από υπολογιστή θα μπορεί εύκολα να χειριστεί οποιοδήποτε είδος πληροφορίας.

Συνήθως, ένα σύστημα πολυμέσων αποτελείται από έναν ή περισσότερους υπολογιστές για την παρουσίαση της πληροφορίας και την αλληλεπίδρασή με τον χρήστη. Η παρουσίαση γίνεται μέσω των περιφερειακών του υπολογιστή όπως είναι οι οθόνες και τα ηχεία. Οι υπολογιστές χρησιμοποιούνται επίσης συχνά και για την παραγωγή πολυμεσικής πληροφορίας, την παροχή μοιραζόμενου αποθηκευτικού χώρου για αυτήν και στη μετάδοση  της.

Στο παρελθόν, τα συστήματα πολυμέσων απαιτούσαν εξειδικευμένο και κατά κανόνα ακριβό υλικό που ήταν σχεδιασμένο ειδικά για κάποια εφαρμογή. Σήμερα, ένας υπολογιστής γενική χρήσης, όπως ένα PC, ή σε πιο απαιτητικές εφαρμογές ένας σταθμός εργασίας, μπορούν να εφοδιαστούν με περιφερειακά πολυμέσων και να αποτελέσουν την πλατφόρμα υλοποίησης ενός συστήματος πολυμέσων. Έτσι το κόστος είναι μικρότερο και το σύστημα αποκτά μεγαλύτερη ευελιξία.

2.2    Ολοκλήρωση

Το δεύτερο χαρακτηριστικό των συστημάτων πολυμέσων είναι ότι είναι κατά το δυνατό ολοκληρωμένα και όσον αφορά στην κατασκευή τους και το τρόπο λειτουργίας. Για να κατανοηθεί καλύτερα η έννοια της ολοκλήρωσης θα δούμε ένα παράδειγμα. Έστω ένας υπολογιστής που περιλαμβάνει πληκτρολόγιο, οθόνη και ηχεία και ότι ζητείται η υποστήριξη μιας κάμερας και ενός μικροφώνου για τη σύλληψη  της εικόνας και της φωνής του χειριστή. Τέλος, μικρά φιλμάκια βίντεο (πχ οδηγίες στα πλαίσια κάποιας εκπαιδευτικής εφαρμογής) πρέπει να παρουσιάζονται στο χρήστη. Ένα τέτοιο σύστημα μπορεί να υλοποιηθεί σε διαφόρους βαθμούς ολοκλήρωσης. Στη σύνθεση που μεγιστοποιεί το βαθμό ολοκλήρωσης το σύστημα μας θα έχει τα παρακάτω χαρακτηριστικά:

·       Όλες οι υπομονάδες που περιγράψαμε θα συνδέονται σε έναν μόνο υπολογιστή και θα ελέγχονται μόνο από αυτόν.

·       Ένας τύπος αποθηκευτικού μέσου, πχ μαγνητικό, θα χρησιμοποιείται για όλα τα είδη πληροφορίας.

·       Τα φιλμάκια βίντεο δεν θα παρουσιάζονται σε ξεχωριστή οθόνη αλλά κατευθείαν στην οθόνη του υπολογιστή.

Στις περιπτώσεις όπου δεν είναι δυνατή η παρουσίαση κάποιου τύπου πληροφορίας με κάποια υπάρχουσα συσκευή, η ολοκλήρωση έγκειται στη ενσωμάτωση της νέας συσκευής στο υπολογιστή και στην ομοιόμορφη αντιμετώπιση του από το λειτουργικό σύστημα. Για παράδειγμα, ένα σύστημα με ενσωματωμένα τα ηχεία και την κάμερα πάνω στην οθόνη, θεωρείται πιο ολοκληρωμένο σε σχέση με κάποιο που έχει την τα ηχεία και την κάμερα ως ανεξάρτητες συσκευές. Γενικά, μπορούμε να πούμε ότι η ιδέα που πρεσβεύουν τα πολυμέσα σε σχέση με την ολοκλήρωση είναι η εξής:

Τα συστήματα πολυμέσων στοχεύουν στη ελαχιστοποίηση των διαφορετικών υπολογιστών, οθονών και  αποθηκευτικών μέσων. Αυτός είναι ένας ακόμη λόγος που συνηγορεί υπέρ της ψηφιακής παρουσίασης, αποθήκευσης  και επεξεργασίας της πληροφορίας.

Στην ειδική περίπτωση των δικτυωμένων πολυμέσων, η ολοκλήρωση αποκτά ιδιαίτερη έννοια και σημασία. Όχι μόνο τα συστήματα που ενώνονται διαμέσου των δικτύων  πρέπει να είναι ολοκληρωμένα, αλλά και τα ίδια τα μέσα μεταφοράς. Δηλαδή, διαμέσου του ίδιου τηλεπικοινωνιακού διαύλου θα πρέπει να μπορούν να μεταδοθούν όλα τα είδη της πληροφορίας. Από τη στιγμή που όλα τα μέσα μπορούν να παρασταθούν σε ψηφιακή μορφή, κάποιος θα μπορούσε να παρατηρήσει ότι αν μπορούμε να μεταδώσουμε ένα είδος πληροφορίας μπορούμε να μεταδώσουμε τα πάντα. Αυτό είναι αλήθεια, με την προϋπόθεση όμως ότι δεν μας απασχολεί η ταχύτητα μετάδοσης. Όπως θα δούμε στο επόμενο μέρος, υπάρχουν μέσα, όπως η κινούμενη εικόνα, που καταλαμβάνουν εξαιρετικά μεγάλο όγκο. Έτσι, σε κατανεμημένες εφαρμογές πραγματικού χρόνου το είδος της πληροφορίας που μεταδίδεται έχει επίπτωση στις προδιαγραφές του δικτύου που πρέπει να χρησιμοποιηθεί. Δίκτυα που χειρίζονται εύκολα κείμενο και ήχο, είναι πιθανό να μην μπορούν να ικανοποιήσουν τις απαιτήσεις  που έχει η κινούμενη εικόνα. Για παράδειγμα, μια εφαρμογή τηλεδιάσκεψης απαιτεί τουλάχιστον 128Kbps για σχετικά χαμηλή ποιότητα εικόνας. Αντίθετα, σε εφαρμογές που μεταδίδεται απλό κείμενο και μερικές εικόνες μια τηλεφωνική σύνδεση με ένα modem ταχύτητας 14.400bps είναι συνήθως αρκετή. Αν και η πρόοδος στην τεχνολογία των δικτύων υπολογιστών υπόσχεται πολλά, σε πολλά υπάρχοντα εμπορικά συστήματα δεν υπάρχει αυτή η ολοκλήρωση. Σαν παράδειγμα, μπορούμε να θεωρήσουμε μια εκδοτική εφαρμογή όπου πολλοί χρήστες δουλεύουν ταυτόχρονα και από διαφορετικά μέρη. Ζητούμενο είναι η ανταλλαγή κειμένων και η συνομιλία μεταξύ των χρηστών. Αν το διαθέσιμο τοπικό δίκτυο είναι ικανό να μεταδίδει τα κείμενα, αλλά δεν επαρκεί για ποιοτικό ήχο, θα πρέπει να επιστρατευτεί και μια τηλεφωνική σύνδεση μεταξύ των υπολογιστών για τον ήχο.

2.3    Ψηφιακή Αναπαράσταση

Είδαμε ότι τα προηγούμενα δύο χαρακτηριστικά απαιτούν την αναπαράσταση της πληροφορίας σε ψηφιακή μορφή. Πως όμως φτάνουμε σε αυτήν την ψηφιακή αναπαράσταση και ποια είναι τα πλεονεκτήματα και μειονεκτήματα της; Στη συνέχεια αυτού του κεφαλαίου θα δώσουμε μια απάντηση σε αυτά τα δύο ερωτήματα. Όσον αφορά την μετατροπή της πληροφορίας σε ψηφιακή μορφή, θα επανέλθουμε με περισσότερες λεπτομέρειες στο 2ο Μέρος.

2.3.1    Η Πληροφορία ως Σήμα

Η πληροφορία που αντιλαμβανόμαστε μέσω των αισθήσεων μας και επεξεργάζεται ο εγκέφαλος μας, μπορεί να περιγραφεί ως μια ή περισσότερες φυσικές μεταβλητές η τιμή των οποίων είναι μια συνάρτηση του χρόνου και / ή του χώρου. Να σημειωθεί ότι ως πληροφορία εννοούμε την μορφή της διέγερσης που λαμβάνουμε και όχι το σημασιολογικό περιεχόμενο που αυτή μεταφέρει. Για παράδειγμα, όταν αναφερόμαστε σε ηχητική πληροφορία, η φυσική μεταβλητή περιγράφει την πίεση του αέρα στη θέση ενός παρατηρητή ως συνάρτηση του χρόνου. Αυτή η ηχητική πληροφορία έχει συνήθως και κάποια ερμηνεία, σημασιολογικό περιεχόμενο. Αν ακούμε μια ομιλία, οι λέξεις και οι ιδέες είναι το σημασιολογικό περιεχόμενο του ήχου. Το πως μπορούμε να παραστήσουμε τη σημασιολογική πληροφορία δεν θα μας απασχολήσει εδώ.

Αυτή η φυσική μεταβλητή που περιγράφει ένα φαινόμενο, μπορεί να μετρηθεί με κάποιο ειδικά κατασκευασμένο όργανο που ονομάζεται αισθητήρας. Ένας αισθητήρας μετατρέπει αυτή την φυσική ποσότητα, στην περίπτωση του ήχου την πίεση του αέρα, σε μια άλλη ποσότητα, όπως μια ηλεκτρική τιμή, που ονομάζεται σήμα. Αυτό το σήμα είναι τέτοιο ώστε να παριστά το φυσικό μέγεθος με πιστότητα και μπορεί εύκολα να μετρηθεί. Τα σήματα διακρίνονται σε δύο βασικές κατηγορίες:

Σχήμα 2-1. Η πληροφορία ως σήμα

Αναλογικό ονομάζεται ένα σήμα το οποίο είναι συνεχής συνάρτηση του χρόνου και / ή του χώρου. Τότε λέμε επίσης ότι το σήμα είναι ανάλογο της φυσική μεταβλητής που περιγράφει.

Ψηφιακό ονομάζεται ένα σήμα το οποίο αποτελείται από μια ακολουθία διακριτών τιμών που είναι κωδικοποιημένες στο δυαδικό σύστημα και εξαρτώνται από το χρόνο ή το χώρο.

2.3.2    Δειγματοληψία, Κβαντοποίηση και Κωδικοποίηση

Το αποτέλεσμα της ψηφιοποίησης (ή αλλιώς της Αναλογική / Ψηφιακή μετατροπής ή πιο απλά Α/Ψ) είναι ένα σύνολο λέξεων υπολογιστή που περιγράφουν το αναλογικό σήμα που παρέχει ο αισθητήρας. Η ψηφιοποίηση ενός αναλογικού σήματος γίνεται σε τρία βήματα. Πρώτα, γίνεται δειγματοληψία του σήματος. Αυτό σημαίνει ότι από το άπειρο πλήθος τιμών του συνεχούς σήματος, κρατάμε μόνο ένα σύνολο διακριτών τιμών, που συνήθως διαφέρουν κατά κάποιο σταθερό χρονικό διάστημα.

Οι τιμές ενός αναλογικού σήματος μπορούν να πάρουν οποιαδήποτε τιμή μέσα από το πεδίο τιμών του. Αφού το πεδίο αυτό είναι γενικά συνεχές, οι τιμές αυτές είναι άπειρες. Μια λέξη μήκους ν bits μπορεί να περιγράψει 2ν στάθμες μέσα από το πεδίο τιμών του σήματος. Δηλαδή, δεν γίνεται να περιγραφούν όλες οι δυνατές τιμές του σήματος, αλλά μόνο κάποιο πεπερασμένο υποσύνολο αυτών. Οι τιμές που θα περιγραφούν, επιλέγονται ανάλογα με την ακρίβεια και το μήκος του διαστήματος που θέλουμε να καλύψουμε. Είναι φανερό ότι αυτές οι δύο απαιτήσεις είναι αντικρουόμενες και ότι πρέπει να γίνει απαραίτητα κάποιος συμβιβασμός. Αφού επιλεχθούν οι στάθμες, αντιστοιχίζεται σε κάθε μια από αυτές μια λέξη, γίνεται δηλαδή η κωδικοποίηση. Το επόμενο βήμα είναι η κβαντοποίηση. Στην κβαντοποίηση, βρίσκουμε την πλησιέστερη στάθμη κάθε τιμής που προέκυψε από τη δειγματοληψία.

Σχήμα 2-2. Ψηφιοποίηση ενός αναλογικού σήματος

Η ψηφιοποίηση έχει πλέον ολοκληρωθεί αφού κάθε τιμή μπορεί να παρασταθεί με την λέξη που έχουμε αντιστοιχήσει στην πλησιέστερη στάθμη αυτής.

2.3.3    Αναλογική/Ψηφιακή και Ψηφιακή/Αναλογική Μετατροπή

Η ψηφιακή αναπαράσταση της πληροφορίας είναι απόλυτα κατανοητή από τον υπολογιστή αλλά δεν είναι καθόλου χρήσιμη στον άνθρωπο. Αυτό σημαίνει ότι για να γίνει η παρουσίαση της από ένα σύστημα πολυμέσων πρέπει πρώτα να μετατραπεί σε αναλογική. Η διαδικασία αυτή είναι η αντίστροφη της Α/Ψ και συμβολίζεται ως Ψ/Α. Κάθε τύπος πληροφορίας έχει διαφορετικές ανάγκες Α/Ψ και Ψ/Α μετατροπής:

Το κείμενο, τα γραφικά γενικά όλα τα μέσα που έχουν συντεθεί σε υπολογιστή, δεν χρειάζονται Α/Ψ μετατροπή αφού δημιουργούνται εξ΄ αρχής σε δυαδική μορφή. Για να τα δούμε όμως στην οθόνη, πρέπει να γίνει κατάλληλη Ψ/Α μετατροπή.

Αντίθετα ο ηχογραφημένος ήχος, το χειρόγραφο κείμενο και γενικά όλα τα captured media απαιτούν Α/Ψ και Ψ/Α.

Σχήμα 2-3. Μέθοδοι δημιουργίας και μετατροπής διαφόρων ειδών πληροφορίας

2.3.4    Πλεονεκτήματα της Ψηφιακής Αναπαράστασης

Το μεγαλύτερο πλεονέκτημα της ψηφιακής αναπαράστασης είναι η ομοιομορφία. Όπως έχουμε αναφέρει και παραπάνω, όλα τα είδη πληροφορίας μπορούν να έρθουν σε ψηφιακή μορφή και να αντιμετωπισθούν με τον ίδιο τρόπο και από το ίδιο υλικό (ίδια μέσα αποθήκευσης, ίδια δίκτυα...). Αυτό έχει ως συνέπεια τη δυνατότητα χρησιμοποίησης των ίδιων μέσων αποθήκευσης και μετάδοσης δηλαδή την επίτευξη μεγαλύτερου βαθμού ολοκλήρωσης. Να υπενθυμίσουμε σε αυτό το σημείο ότι στην  πράξη οι διαφορετικές απαιτήσεις μεγέθους αποθήκευσης και ταχύτητας μετάδοσης των διαφόρων μέσων διαταράσσουν αυτή την ομοιομορφία. Υπάρχουν όμως και άλλα πλεονεκτήματα.

Η μετάδοση ψηφιακών σημάτων αντί για αναλογικά έχει πολλά ακόμα πλεονεκτήματα πέραν της ολοκλήρωσης. Είναι λιγότερο ευαίσθητη στον θόρυβο, η διαδικασία αναγέννησης του μεταδιδόμενου σήματος είναι πιο εύκολη, μπορεί να υλοποιηθεί διαδικασία ανίχνευσης και διόρθωσης λαθών και, τέλος, η  κρυπτογράφηση της πληροφορίας είναι επίσης πιο εύκολη.

Η πληροφορία που βρίσκεται αποθηκευμένη στον υπολογιστή μπορεί να χρησιμοποιηθεί με διάφορους τρόπους:

·       να υποστεί επεξεργασία με στόχο την ανάλυση της σημασιολογίας της ή την βελτίωση της ποιότητας της

·       να δημιουργηθούν δομές δεδομένων που επιταχύνουν και διευκολύνουν την αναζήτηση

·       να χρησιμοποιηθεί εύκολα για την δημιουργία νέων πολυμεσικών εγγράφων

2.3.5    Μειονεκτήματα της Ψηφιακής Αναπαράστασης

Το κύριο μειονέκτημα της ψηφιακής αναπαράστασης συνεχών μέσων είναι η παραμόρφωση που εισάγει η διαδικασία δειγματοληψίας και κβαντοποίησης. Αφενός, αγνοώντας κάποιες τιμές του αναλογικού σήματος χάνουμε πληροφορία και αφετέρου, η προσέγγιση της πραγματικής τιμής του σήματος με μια από τις διαθέσιμες στάθμες περιέχει πάντοτε κάποιο ποσοστό λάθους. Αυτή η παραμόρφωση ελαττώνεται όσο αυξάνεται η συχνότητα δειγματοληψίας και το μήκος της λέξης. Τότε όμως αυξάνεται και ο όγκος που καταλαμβάνει η πληροφορία και κατά συνέπεια απαιτούνται μεγαλύτερα αποθηκευτικά μέσα, πιο γρήγορα μέσα μετάδοσης και ταχύτερες μονάδες επεξεργασίας. Η σημερινή τεχνολογία και οι προβλέψεις για το μέλλον δείχνουν ότι αυτό το μειονέκτημα θα ξεπεραστεί ακόμα και για τους πιο απαιτητικούς τύπους πληροφορίας.

2.4    Αλληλεπιδραστικότητα (Interactivity)

Η interactivity δεν είναι αναγκαία προϋπόθεση όπως οι προηγούμενες τρεις. Υπάρχουν αρκετές μοντέρνες εφαρμογές πολυμέσων οι οποίες έχουν όλα τα προηγούμενα χαρακτηριστικά χωρίς να προσφέρουν interactivity. Παρ’ όλα αυτά, τα περισσότερα συστήματα πολυμέσων προσφέρουν αυτό το χαρακτηριστικό γι’ αυτό και αξίζει μια σύντομη επισκόπηση.

2.4.1    Παθητική και Ενεργητική Παρουσίαση της Πληροφορίας

Μπορούμε να διακρίνουμε δύο τρόπους παρουσίασης της πληροφορίας σε έναν χρήστη:

·       Στην παθητική παρουσίαση, η πληροφορία ακολουθεί έναν προκαθορισμένο σχέδιο πορείας πάνω στο οποίο ο χρήστης δεν έχει κανένα ουσιαστικό έλεγχο. Τέτοιες παρουσιάσεις ονομάζονται και γραμμικές. Ο μόνος έλεγχος που παρέχεται στο χρήστη είναι η εκκίνηση και ο τερματισμός καθώς και ρυθμίσεις όπως η ένταση του ήχου.

·       Αντίθετα, στην interactive ή μη-γραμμική παρουσίαση, ο χρήστης μπορεί επιπλέον να καθορίσει την σειρά, την ταχύτητα και την μορφή της παρουσίασης της πληροφορίας σύμφωνα με τις προτιμήσεις τους. Αυτοί οι τρεις παράγοντες ονομάζονται βαθμοί προσαρμοστικότητας στις επιθυμίες του χρήστη. Ένα σύστημα πολυμέσων δεν προσφέρει απαραίτητα όλους αυτούς τους βαθμούς.

Να τονίσουμε εδώ ότι ένα interactive σύστημα προϋποθέτει κάποιο αυτόματο σύστημα παρουσίασης της πληροφορίας που δέχεται τις εντολές του χρήστη. Μια εφημερίδα μπορεί να διαβαστεί με οποιαδήποτε σειρά και ταχύτητα, οποιαδήποτε στιγμή αλλά δεν είναι όμως ένα interactive σύστημα. Ένα βίντεο  προσφέρει παρόμοιες δυνατότητες, διαμέσου όμως ενός αυτόματου μηχανισμού ελέγχου, οπότε μπορεί να χαρακτηριστεί ως interactive.

2.4.2    Γραμμική και Δομημένη Παρουσίαση της Πληροφορίας

Στην περίπτωση ενός βίντεο, μπορούμε να βέβαια να μετακινούμαστε από το ένα σημείο στο άλλο, αλλά δεν υπάρχει αποθηκευμένη κάποια δομή που να διευκολύνει και να επιταχύνει αυτή τη διαδικασία. Δηλαδή, ο μηχανισμός παρουσίασης της πληροφορίας ενός βίντεο είναι στη ουσία γραμμικός.

Ένα σύστημα πολυμέσων που υποστηρίζει δομημένη πληροφορία, προσφέρει πολύ περισσότερες δυνατότητες ελέγχου της ροής και της ταχύτητας. Η πληροφορία σε ένα τέτοιο σύστημα βρίσκεται αποθηκευμένη σε ένα μαγνητικό ή οπτικό μέσο και έχει εμπλουτιστεί με δείκτες που σχηματίζουν έναν πολύπλοκο σύμπλεγμα αλληλοσυνδεόμενων κόμβων.

2.4.3    Πλεονεκτήματα της Interactivity στην Παρουσίαση της Πληροφορίας

Ο βασικός στόχος για τον οποίο χρησιμοποιείται η interactivity είναι η προσαρμογή της παρουσίασης στις ατομικές ανάγκες του κάθε χρήστη. Το χαρακτηριστικό αυτό βρίσκει μεγάλη εφαρμογή σε εκπαιδευτικά συστήματα που, όπως θα δούμε αργότερα, υπόσχονται να αλλάξουν ριζικά την μορφή της εκπαιδευτικής πραγματικότητας  προσφέροντας εκπαίδευση προσαρμοζόμενη στις ικανότητες και προτιμήσεις του μαθητή.

Μια επιπλέον δυνατότητα που μπορεί να αξιοποιηθεί, είναι η καταγραφή των αποκρίσεων του χρήστη και η ανάλυση τους. Με αυτών τον τρόπο μπορούν να εξαχθούν συμπεράσματα για την αποδοχή του ίδιου του συστήματος αλλά και της πληροφορίας που παρουσιάζεται.

Interactivity και Εμπλουτισμός της Πληροφορίας από τον Χρήστη

Μέχρι τώρα η interactivity περιοριζόταν στον τρόπο παρουσίασης της πληροφορίας. Προχωρώντας ένα βήμα παραπάνω, υπάρχουν περιπτώσεις που ο χρήστης μπορεί να επεμβαίνει πιο ουσιαστικά.

·       Οι χρήστες μπορούν να σημειώνουν κομμάτια πληροφορίας και να τα σχολιάζουν είτε γραπτώς είτε προφορικά.

·       Οι χρήστες μπορούν να εισάγουν νέα πληροφορία. Για λόγους ασφάλειας, σε τέτοια συστήματα η υπάρχουσα πληροφορία δεν αλλάζει, απλώς συμπληρώνεται.

·       Κάποιοι χρήστες μπορεί να είναι εξουσιοδοτημένοι να αλλάζουν την ίδια την πληροφορία που περιέχει το σύστημα.

·       Η πιο σύνθετη μορφή αλληλεπίδρασης είναι η ανάλυση των ενεργειών και δεδομένων του χρήστη και η δημιουργία απαντήσεων από το σύστημα. Ένα παράδειγμα τέτοιου συστήματος είναι μια εκπαιδευτική εφαρμογή που όχι μόνο αφήνει ελεύθερο τον μαθητή να διαβάσει τα κομμάτια που επιθυμεί, αλλά του προτείνει και αντίστοιχες με αυτά που έχει διαβάσει ασκήσεις. Επιπλέον, έρευνες έχουν δείξει ότι ο άνθρωπος συγκρατεί το 80% αυτών που βλέπει, ακούει και κάνει ταυτόχρονα. Ένα τέτοιο σύστημα πολυμέσων μπορεί να παρουσιάζει στον χρήστη τις ασκήσεις, και να τον αφήνει να τις λύσει διορθώνοντας τον όπου χρειάζεται. Με αυτόν τον τρόπο αυξάνεται πολύ σημαντικά η αποτελεσματικότητα του εκπαιδευτικού συστήματος.



3. Ψηφιακή Αναπαράσταση Πληροφορίας

Όλα τα συστήματα πολυμέσων στηρίζονται στην ψηφιακή αναπαράσταση της πληροφορίας για τους λόγους που περιγράφηκαν στο Κεφάλαιο 2. Αυτό όμως δεν σημαίνει ότι ο τρόπος με τον οποίο γίνεται η ψηφιοποίηση είναι μοναδικός. Ανάλογα με το είδος του σήματος και το σκοπό της εφαρμογής η μεθοδολογία που ακολουθούμε διαφοροποιείται. Επειδή, όπως έχουμε τονίσει, η ψηφιακή μορφή της πληροφορίας έχει το μειονέκτημα ότι απαιτεί μεγάλους όγκους αποθήκευσης και ταχύτητας μετάδοσης, εκτός από την ψηφιοποίηση, απαιτείται και συμπίεση του σήματος. Σ’ αυτό το Κεφάλαιο θα περιγράψουμε συνοπτικά τις σπουδαιότερες τεχνικές ψηφιοποίησης και συμπίεσης.

 

3.1    Τεχνικές Ψηφιοποίησης

 

3.1.1    ΠΑΛΜΟΚΩΔΙΚΗ ΔΙΑΜΟΡΦΩΣΗ (PCM)

 

3.1.1.1       Εισαγωγή

Η μετάδοση σημάτων πληροφορίας, όπως τα σήματα φωνής και εικόνας, τα οποία είναι από τη φύση τους αναλογικά, απαιτεί τα σήματα αυτά να μετατραπούν σε ψηφιακά. Η χρήση της ψηφιακής αναπαράστασης των αναλογικών σημάτων προσφέρει τα παρακάτω πλεονεκτήματα :

1. Αντοχή (ruggedness) στο θόρυβο μετάδοσης και στην παρεμβολή,

2. Αποτελεσματική αναγέννηση (regenaration) του κωδικοποιημένου σήματος κατά μήκος της διαδρομής μετάδοσης και

3. Δυνατότητα ομοιόμορφου σχήματος (uniform format) μετάδοσης για διαφορετικά είδη σημάτων βασικής ζώνης.

Αυτά τα πλεονεκτήματα, ωστόσο, επιτυγχάνονται με το κόστος της αύξησης της απαίτησης σε εύρος ζώνης μετάδοσης και την αύξηση της πολυπλοκότητας του συστήματος. Με την αυξανόμενη διαθεσιμότητα διαύλων επικοινωνίας ευρείας ζώνης και σε συνδυασμό με την εμφάνιση της απαιτούμενης τεχνολογίας, η χρήση της PCM (pulse-code modulation) έχει γίνει πραγματικότητα.

 

3.1.1.2       Στοιχεία της Παλμοκωδικής Διαμόρφωσης

 Οι ουσιώδεις λειτουργίες του πομπού ενός συστήματος PCM είναι η δειγματοληψία (sampling), η κβαντοποίηση (quantizing), και η κωδικοποίηση (encoding).

Οι λειτουργίες κβαντοποίησης και κωδικοποίησης, συνήθως εκτελούνται με το ίδιο κύκλωμα, το οποίο ονομάζεται μετατροπέας αναλογικού σε ψηφιακό (analog - to - digital converter). Οι ουσιώδεις λειτουργίες του δέκτη είναι η αναγέννηση (regenaration) των εξασθενισμένων σημάτων, η αποκωδικοποίηση (decoding) και η αποδιαμόρφωση (demodulation) της ακολουθίας των κβαντισμένων σημάτων.

Η αναγέννηση συνήθως εμφανίζεται σε ενδιάμεσα στάδια κατά μήκος της διαδρομής μετάδοσης, όπου είναι απαραίτητο.

 

3.1.1.3       Δειγματοληψία

 Η διαδικασία της δειγματοληψίας βασίζεται στο θεώρημα δειγματοληψίας για σήματα περιορισμένου εύρους ζώνης. Το θεώρημα δειγματοληψίας εν ολίγοις έχει ως εξής :

Έστω το σήμα m(t), περιορισμένου εύρους ζώνης το οποίο δειγματοληπτείται κάθε Τ sec όπου Τ=1/2*fm και f­m η μέγιστη συχνότητά του. Το σήμα m(t) είναι δυνατόν να ανακτηθεί από τις τιμές των δειγμάτων του m(nTs), όπου n=ακέραιος και Ts o ρυθμός δειγματοληψίας, χωρίς παραμόρφωση αρκεί ο χρόνος δειγματοληψίας Ts να είναι αρκετά γρήγορος ώστε τουλάχιστον δύο δείγματα να λαμβάνονται στην περίοδο που αντιστοιχεί στη μέγιστη συχνότητα του σήματος.

Κατά την διαδικασία λοιπόν της δειγματοληψίας, λαμβάνονται δείγματα της εισερχόμενης κυματομορφής πληροφορίας με μια ακολουθία στενών ορθογώνιων παλμών. Για να εξασφαλιστεί η τέλεια ανακατασκευή της πληροφορίας στο δέκτη, ο ρυθμός της δειγματοληψίας πρέπει να είναι μεγαλύτερος από το διπλάσιο της υψηλότερης συνιστώσας συχνότητας W της κυματομορφής πληροφορίας σύμφωνα με το θεώρημα δειγματοληψίας. Στην πράξη, πριν να εισάγουμε το σήμα στο δειγματολήπτη χρησιμοποιείται ένα βαθυπερατό φίλτρο έτσι ώστε να απορρίπτονται συχνότητες μεγαλύτερες από W πριν από την δειγματοληψία.

Στην περίπτωση λοιπόν κατά την οποία θέλουμε να μεταδώσουμε σήμα ομιλίας, είναι αρκετό το εύρος συχνοτήτων 0-4000Hz. Επομένως χρησιμοποιούμε ένα βαθυπερατό φίλτρο το οποίο επιτρέπει τη διέλευση των συχνοτήτων στο φάσμα 0-4000Hz ενώ αποκόπτει τις υπόλοιπες συχνότητες. Η μέγιστη συχνότητα του σήματος πληροφορίας θα είναι fmax = 4000Hz. Σύμφωνα με το θεώρημα δειγματοληψίας θα έχουμε όλη την πληροφορία που περιέχει το φάσμα μιας συνδιάλεξης αν μεταδώσουμε από το φάσμα αυτό τουλάχιστο 8000 δείγματα ανά sec, η αλλιώς η συχνότητα δειγματοληψίας θα πρέπει να είναι ίση με 8000Hz.

 

3.1.1.4  Κβαντισμός  

Ένα συνεχές σήμα, όπως η φωνή, έχει συνεχές πεδίο τιμών πλάτους και συνεπώς τα δείγματά του έχουν συνεχές πεδίο τιμών πλάτους. Με άλλα λόγια μέσα στο πεπερασμένο πεδίο τιμών του σήματος βρίσκουμε έναν άπειρο αριθμό σταθμών πλάτους. Στην πραγματικότητα όμως δεν είναι απαραίτητο να μεταδίδουμε τα ακριβή πλάτη των δειγμάτων. Οποιαδήποτε ανθρώπινη αίσθηση (π.χ. το αυτί, το μάτι), σαν τελικός δέκτης, μπορεί να ανιχνεύσει πεπερασμένες διαφορές έντασης. Αυτό σημαίνει ότι το αρχικό συνεχές σήμα μπορεί να προσεγγιστεί από ένα σήμα το οποίο κατασκευάζεται από διακριτά πλάτη, επιλεγμένα από ένα διαθέσιμο σύνολο με βάση την ελαχιστοποίηση του σφάλματος. Η ύπαρξη ενός πεπερασμένου αριθμού διακριτών σταθμών πλάτους είναι μια βασική συνθήκη της PCM. Προφανώς εάν καθορίσουμε διακριτές στάθμες πλάτους με αρκετά μικρό βήμα μεταξύ τους, μπορούμε να κάνουμε το προσεγγιζόμενο σήμα να μη ξεχωρίζει πρακτικά από το αρχικό συνεχές σήμα.

Η μετατροπή ενός αναλογικού (συνεχούς) δείγματος του σήματος σε μια ψηφιακή (διακριτή) μορφή καλείται διαδικασία κβαντοποίησης (quantizing). Γραφικά, η διαδικασία κβαντοποίησης σημαίνει ότι μια ευθεία γραμμή που παριστάνει τη σχέση μεταξύ της εισόδου και της εξόδου ενός γραμμικού συνεχούς συστήματος αντικαθίσταται από μια κλιμακωτή (staicase) χαρακτηριστική. Η διαφορά μεταξύ των δύο γειτονικών διακριτών τιμών ονομάζεται κβάντο (quantum) ή μέγεθος βήματος (step - size). Τα σήματα που εφαρμόζονται σε έναν κβαντιστή (quantizer), ταξινομούνται σε στάθμες πλάτους (βήματα) και όλα τα σήματα εισόδου τα οποία βρίσκονται στο συν ή πλην μισό ενός κβάντου της μεσαίας τιμής μιας στάθμης, αντικαθίστανται στην έξοδο από την υπόψη μεσαία τιμή.

Οι διαφορές μεταξύ του αναλογικού σήματος στην είσοδο με το κβαντισμένο σήμα στην έξοδο ονομάζεται σφάλμα κβαντισμού (quantizing error) ή θόρυβος κβάντισης. Είναι φανερό ότι η μέγιστη στιγμιαία τιμή αυτού του σφάλματος είναι το μισό ενός κβάντου και το συνολικό εύρος της μεταβολής είναι από -μισό έως +μισό βήμα. Επίσης μπορεί να αποδειχθεί ότι η μέση τιμή του σφάλματος κβάντισης δίνεται από τη σχέση :

(3.1)   

όπου δ είναι το μέγεθος του κβάντου.

Η έξοδος του κβαντιστή μπορεί αναλυτικά να εκφραστεί στη μορφή Hi*δ όπου ±Hi=0, 1, 2... και δ όπως είπαμε το μέγεθος του κβάντου. Στην πιο απλή περίπτωση το δ είναι κανονικοποιημένο στην τιμή 1. Ένας κβαντιστής που έχει αυτή τη σχέση εισόδου - εξόδου καλείται τύπου μέσου πατήματος (mid - tread), επειδή η αρχή των αξόνων βρίσκεται στο μέσο ενός οριζόντιου τμήματος του σκαλοπατιού στο κλιμακωτό γράφημα.

Ένας άλλος τρόπος σχεδίασης του κβαντιστή, είναι να ορίσουμε την έξοδό του στη μορφή Hi*δ/2 όπου Hi=1, 3, 5... Αυτός ο κβαντιστής ονομάζεται τύπου μέσης ανύψωσης (mid - rizer), επειδή στην περίπτωση αυτή η αρχή των αξόνων βρίσκεται στο μέσο ενός κατακόρυφου τμήματος της κλιμακωτής σχέσης εισόδου - εξόδου.

Η διαδικασία κβαντοποίησης, όπως την περιγράψαμε πιο πάνω, χρησιμοποιεί ομοιόμορφη απόσταση μεταξύ των επιπέδων κβαντισμού. Σε κάποιες εφαρμογές, ωστόσο, είναι προτιμότερο να χρησιμοποιηθεί μεταβλητή απόσταση μεταξύ των επιπέδων κβαντισμού. Για παράδειγμα, η περιοχή των τάσεων που καλύπτονται από σήματα φωνής, από τα μέγιστα δυνατής φωνής μέχρι τα ασθενή διαστήματα της χαμηλής είναι της τάξης 1000 έως 1. Χρησιμοποιώντας έναν μη ομοιόμορφο κβαντιστή (nonuniform quantizer) με το χαρακτηριστικό ότι το μέγεθος του βήματος αυξάνει, καθώς η απόσταση από την αρχή των αξόνων της χαρακτηριστικής πλάτους εισόδου - εξόδου αυξάνει, το τελευταίο μεγάλο βήμα του κβαντιστή μπορεί να συμπεριλάβει όλες τις πιθανές περιπλανήσεις του σήματος φωνής στις μεγάλες στάθμες πλάτους, οι οποίες συμβαίνουν σχετικά σπάνια. Με άλλα λόγια, τα ασθενή διαστήματα, που χρειάζονται περισσότερη προστασία, προτιμούνται σε βάρος των ισχυρών διαστημάτων. Κατ ' αυτό τον τρόπο επιτυγχάνεται μια ποσοστιαία ομοιόμορφη ακρίβεια στο μεγαλύτερο τμήμα του πεδίου τιμών του σήματος εισόδου, με αποτέλεσμα να απαιτούνται λιγότερα βήματα από ότι στη περίπτωση που θα χρησιμοποιούνταν ομοιόμορφος κβαντιστής.

Η χρήση ενός μη ομοιόμορφου κβαντιστή είναι ισοδύναμη με τη διέλευση του σήματος βασικής ζώνης μέσω ενός συμπιεστή (compressor) και στη συνέχεια την εφαρμογή του συμπιεσμένου σήματος σε ομοιόμορφο κβαντιστή.  

Για να επαναφέρουμε τα δείγματα του σήματος στην αντίστοιχη σωστή στάθμη πρέπει να χρησιμοποιήσουμε μια διάταξη στο δέκτη με χαρακτηριστική συμπληρωματικής εκείνης του συμπιεστή. Μια τέτοια διάταξη ονομάζεται αποσυμπιεστής (expander). Στην ιδανική περίπτωση, οι νόμοι συμπίεσης και αποσυμπίεσης είναι ακριβώς αντίστροφοι έτσι ώστε εκτός από την επίδραση της κβαντοποίησης η έξοδος του αποσυμπιεστή να είναι ίση με την είσοδο του συμπιεστή. Ο συνδυασμός ενός συμπιεστή και ενός αποσυμπιεστή ονομάζεται συμπιεστής - αποσυμπιεστής (compander).

Σε πραγματικά συστήματα PCM, τα κυκλώματα συμπίεσης - αποσυμπίεσης δεν αναπαράγουν ένα ακριβές αντίγραφο των γραμμικών καμπυλών συμπίεσης. Μάλλον, παράγουν μια τμηματικά γραμμική (piecewise linear) προσέγγιση της επιθυμητής καμπύλης. Χρησιμοποιώντας έναν αρκετά μεγάλο αριθμό γραμμικών τμημάτων, η προσέγγιση μπορεί να πλησιάσει αρκετά την αληθινή καμπύλη συμπίεσης.  

 

3.1.1.5  Κωδικοποίηση

Συνδυάζοντας τις διαδικασίες δειγματοληψίας και κβαντοποίησης, ένα συνεχές σήμα βασικής ζώνης περιορίζεται σε ένα διακριτό σύνολο τιμών, αλλά όχι σε μορφή που να ταιριάζει καλά σε μετάδοση μέσω μίας γραμμής ή ενός ραδιοδιαύλου. Για να εκμεταλλευτούμε τα πλεονεκτήματα δειγματοληψίας και κβαντοποίησης απαιτείται η χρησιμοποίησης μίας διαδικασίας κωδικοποίησης (encoding process) για τη μετατροπή του διακριτού συνόλου των τιμών των δειγμάτων σε μια πιο κατάλληλη μορφή. Κάθε σχέδιο για την αναπαράσταση καθενός από αυτά τα διακριτά σύνολα τιμών σαν μια ιδιαίτερη διάταξη διακριτών γεγονότων ονομάζεται κώδικας (code). Ένα από τα διακριτά γεγονότα σε ένα κώδικα ονομάζεται στοιχείο του κώδικα (code element) ή σύμβολο (symbol). Για παράδειγμα η παρουσία ή η απουσία ενός παλμού είναι ένα σύμβολο. Μια ιδιαίτερη διάταξη συμβόλων, που χρησιμοποιείται σε ένα κώδικα, για την παράσταση μίας μόνο τιμής του διακριτού συνόλου ονομάζεται κωδική λέξη (codeword) ή χαρακτήρας (character).

Σε ένα δυαδικό κώδικα (binary code) κάθε σύμβολο μπορεί να πάρει μια από δύο διακριτές τιμές ή είδη, όπως η παρουσία ή η απουσία ενός παλμού. Τα δύο σύμβολα ενός δυαδικού κώδικα συνήθως συμβολίζονται με 0 και 1. Σε ένα τριαδικό κώδικα (ternary code), κάθε σύμβολο μπορεί να είναι μια από τρεις διακριτές τιμές ή είδη, και πάει λέγοντας για τους άλλους κώδικες. Ωστόσο, τα καλύτερα αποτελέσματα σε σχέση με την επίδραση του θορύβου σε ένα μέσο μετάδοσης, επιτυγχάνεται χρησιμοποιώντας δυαδικό κώδικα και αυτό επειδή ένα δυαδικό σύμβολο αντέχει μια σχετικά υψηλή στάθμη θορύβου και είναι εύκολο να αναγεννηθεί.

 

3.1.1.6  Αναγέννηση

Το πιο σημαντικό χαρακτηριστικό των συστημάτων PCM βρίσκεται στην ικανότητα να ελέγχουν τις επιδράσεις της παραμόρφωσης και του θορύβου που παράγονται κατά την μετάδοση μιας κυματομορφής PCM μέσω ενός διαύλου. Αυτή η δυνατότητα επιτυγχάνεται με την ανακατασκευή της κυματομορφής PCM μέσω μιας αλυσίδας αναγεννητικών επαναληπτών (regenerative repeaters) που είναι τοποθετημένοι σε αρκετά μικρή απόσταση κατά μήκος της διαδρομής μετάδοσης. Ο αναγεννητικός επαναλήπτης εκτελεί τρεις βασικές λειτουργίες. Την ισοστάθμιση (equalization), τον χρονισμό (timing) και τη λήψη απόφασης (decision making). Ο ισοσταθμιστής μορφοποιεί τους λαμβανόμενους παλμούς έτσι ώστε να αντισταθμίζει τις επιδράσεις παραμόρφωσης πλάτους και φάσης που παράγονται από τη χαρακτηριστική μετάδοσης του διαύλου. Το κύκλωμα χρονισμού περιέχει μια περιοδική ακολουθία παλμών, που παράγεται από τους λαμβανόμενους παλμούς, για τη δειγματοληψία των ισοσταθμισμένων παλμών σε χρονικές στιγμές όπου ο λόγος σήματος προς θόρυβο είναι μέγιστος. Η διάταξη απόφασης ενεργοποιείται όταν στο χρόνο δειγματοληψίας που καθορίζεται από το κύκλωμα χρονισμού, το πλάτος του ισοσταθμισμένου παλμού με το θόρυβο ξεπερνά μια προκαθορισμένη στάθμη τάσης. Έτσι για παράδειγμα, σε ένα σύστημα PCM με τροφοδοσία on - off, ο επαναλήπτης παίρνει μια απόφαση σε κάθε διάρκεια bit κατά πόσο υπάρχει ή όχι παλμός. Εάν η απόφαση είναι "ναι", μεταδίδεται ένας καινούργιος παλμός προς το επόμενο επαναλήπτη. Αν από την άλλη πλευρά η απόφαση είναι "όχι", μεταδίδεται μια καθαρή μηδενική στάθμη. Κατά αυτό τον τρόπο η συσσώρευση παραμόρφωσης και θορύβου σε ένα διάστημα μεταξύ επαναληπτών απαλείφεται πλήρως, με την προϋπόθεση ότι η παρενόχληση δεν είναι τόσο μεγάλη ώστε να προκαλέσει σφάλμα στη διαδικασία λήψης απόφασης. Στην ιδανική περίπτωση, εκτός από την καθυστέρηση, το αναδημιουργούμενο σήμα είναι ακριβώς το ίδιο όπως το αρχικά μεταδιδόμενο σήμα. Στην πράξη όμως, το αναδημιουργούμενο σήμα διαφέρει από το αρχικό σήμα για δύο κυρίως λόγους :

1.         Η παρουσία θορύβου μετάδοσης και η παρεμβολή περιστασιακά προκαλούν λανθασμένες αποφάσεις στον επαναλήπτη εισάγοντας έτσι λανθασμένα bit (bit errors) στο αναδημιουργούμενο σήμα.

2.         Εάν η απόσταση μεταξύ των λαμβανομένων παλμών αποκλίνει από την αρχική τιμή της, εισάγεται ένα παίξιμο (jitter) στη θέση του αναδημιουργούμενου παλμού προκαλώντας με αυτό τον τρόπο παραμόρφωση.

 

3.1.1.7  Αποκωδικοποίηση

Η πρώτη λειτουργία στον δέκτη είναι η αναγέννηση (επαναμορφοποίηση και καθαρισμός) των λαμβανόμενων παλμών. Αυτοί οι καθαροί παλμοί, στη συνέχεια, ομαδοποιούνται ξανά σε κωδικές λέξεις και αποκωδικοποιούνται (δηλαδή αντιστοιχίζονται) σε ένα κβαντισμένο σήμα PAM (διαμόρφωση πλάτους παλμών). Στη διαμόρφωση πλάτους παλμών (Pulse - Amplitude Modulation), τα πλάτη ισαπέχοντων ορθογώνιων παλμών μεταβάλλονται σύμφωνα με τις στιγμιαίες τιμές των δειγμάτων ενός συνεχούς σήματος πληροφορίας. Η διαδικασία αποκωδικοποίησης (decoding) περιλαμβάνει τη δημιουργία ενός παλμού, το πλάτος του οποίου είναι το γραμμικό άθροισμα όλων των παλμών στη κωδική λέξη, με τον κάθε παλμό να έχει βάρος την τιμή της θέσης του (20, 21, 22, 23,...) στον κώδικα.

 

3.1.1.8  Φιλτράρισμα

Η τελική λειτουργία στον δέκτη είναι η ανάκτηση της κυματομορφής σήματος περνώντας την έξοδο του αποκωδικοποιητή μέσω ενός βαθυπερατού φίλτρου ανακατασκευής, του οποίου η συχνότητα αποκοπής είναι ίση με το εύρος ζώνης W της πληροφορίας. Υποθέτοντας ότι η διαδρομή μετάδοσης είναι ελεύθερη από σφάλματα, το σήμα που ανακτάται δεν περιλαμβάνει θόρυβο, με εξαίρεση την αρχική παραμόρφωση που εισάγεται από την διαδικασία κβαντοποίησης.

 

3.1.1.9  Πολυπλεξία

Σε εφαρμογές που χρησιμοποιούν PCM, είναι φυσικό να πολυπλέκονται διάφορες πηγές πληροφορίας με διαίρεση στο χρόνο, ενώ κάθε πηγή κρατάει την ανεξαρτησία της, καθ ' όλη τη διαδρομή από τον πομπό στον δέκτη. Αυτή η ανεξαρτησία είναι υπεύθυνη για τη συγκριτική ευκολία με την οποία οι πηγές πληροφορίας μπορούν να βγούνε ή να ξαναμπούνε σε ένα σύστημα πολυπλεξίας με διαίρεση χρόνου. Καθώς ο αριθμός των ανεξάρτητων πηγών πληροφορίας αυξάνει, το διάστημα χρόνου που διατίθεται σε μία πηγή πρέπει να μειωθεί καθώς όλες πρέπει να εξυπηρετηθούν μέσα σε ένα χρονικό διάστημα ίσο με το αντίστροφο του ρυθμού δειγματοληψίας. Αυτό με τη σειρά του σημαίνει ότι μειώνεται η επιτρεπόμενη διάρκεια της κωδικής λέξης που παριστάνει ένα απλό δείγμα. Ωστόσο, η παραγωγή και μετάδοση των παλμών τείνει να γίνει δυσκολότερη καθώς η διάρκειά τους μειώνεται. Επιπλέον, εάν οι παλμοί γίνουν πολύ μικροί, τα σφάλματα στο μέσο μετάδοσης αρχίζουν να παρεμβάλλουν στην ορθή λειτουργία του συστήματος. Συνεπώς, στην πράξη είναι απαραίτητο να περιορίσουμε τον αριθμό των ανεξάρτητων πηγών πληροφορίας που μπορούν να περιληφθούν σε μια ομάδα διαίρεσης χρόνου.

 

3.1.1.10                Συγχρονισμός

Για να λειτουργήσει ικανοποιητικά ένα σύστημα PCM με πολυπλεξία διαίρεσης χρόνου, είναι απαραίτητο οι λειτουργίες χρονισμού στον δέκτη, εκτός από τον χρόνο που χάνεται στη μετάδοση και στην αναγέννηση, να ακολουθούν από κοντά τις αντίστοιχες λειτουργίες στον πομπό. Γενικά, αυτό ισοδυναμεί με ότι το τοπικό ρολόι στο δέκτη πρέπει να κρατάει τον ίδιο χρόνο με ένα σταθερό μακρινό ρολόι στον πομπό, εκτός του ότι το τοπικό ρολόι καθυστερεί κατά μια ποσότητα που αντιστοιχεί στο χρόνο που απαιτείται για τη μετάδοση του σήματος πληροφορίας από τον πομπό στον δέκτη. Μια διαδικασία για τον συγχρονισμό των ρολογιών πομπού και δέκτη είναι να προσαρτηθεί ένα στοιχείο του κώδικα ή παλμός στο τέλος ενός πλαισίου (frame) (το οποίο είναι η διαδοχή κωδικών λέξεων που προέρχονται από κάθε μία από τις ανεξάρτητες πηγές πληροφορίας και να μεταδίδει τον παλμό αυτό σε κάθε πλαίσιο. Σε μια τέτοια περίπτωση, ο δέκτης περιλαμβάνει ένα κύκλωμα το οποίο ψάχνει για το σχηματισμό εναλλασσόμενων 1 και 0, με ρυθμό το μισό του ρυθμού πλαισίων, και έτσι επιτυγχάνει συγχρονισμό μεταξύ του πομπού και του δέκτη.

Όταν η μετάδοση διακόπτεται είναι αρκετά απίθανο ότι τα ρολόγια πομπού και δέκτη θα συνεχίσουν να δείχνουν τον ίδιο χρόνο για αρκετό χρονικό διάστημα. Συνεπώς, κατά την εκτέλεση μιας διαδικασίας συγχρονισμού πρέπει να ορίσουμε μια διαφορετική διαδικασία για την ανίχνευση του παλμού συγχρονισμού. Η διαδικασία συνίσταται στην παρατήρηση στοιχείων του κώδικα ένα προς ένα, μέχρι να ανιχνευτεί ο παλμός συγχρονισμού. Δηλαδή μετά την παρατήρηση κάποιου συγκεκριμένου στοιχείου του κώδικα για αρκετό χρόνο ώστε να βεβαιωθούμε ότι δεν είναι παλμός συγχρονισμού, το ρολόι του δέκτη οπισθοχωρεί κατά ένα στοιχείο κώδικα και παρατηρείται το επόμενο στοιχείο κώδικα. Αυτή η διαδικασία αναζήτησης επαναλαμβάνεται μέχρις ότου ανιχνευτεί ο παλμός συγχρονισμού. Προφανώς, ο χρόνος που απαιτείται για τον συγχρονισμό εξαρτάται από την στιγμή κατά την οποία επανακαθίσταται η σωστή μετάδοση.

3.1.1.11                 Απαιτούμενο Εύρος Ζώνης για τα Συστήματα PCM

            Έστω ότι σε ένα σύστημα PCM χρησιμοποιούνται L στάθμες κβάντισης με :

(3.2)   

όπου n ο ακέραιος αριθμός ψηφίων του δυαδικού συστήματος. Στην περίπτωση αυτή χρειάζονται n παλμοί για την κωδικοποίηση κάθε κβαντισμένου δείγματος του αναλογικού σήματος m(t).

Αν το αναλογικό σήμα m(t) έχει μέγιστη συχνότητα fm και ρυθμό δειγματοληψίας fs³2fm τότε θα χρειαστούν nfs δυαδικοί παλμοί το δευτερόλεπτο. Δηλαδή αν το σήμα PCM είναι ένα σήμα βασικής ζώνης με συχνότητα fPCM, τότε ο απαιτούμενος ελάχιστος ρυθμός δειγματοληψίας είναι 2fPCM, όπου:

(3.3)   

Από την παραπάνω εξίσωση προκύπτει ότι το απαιτούμενο εύρος ζώνης συχνοτήτων για ένα σύστημα PCM εξαρτάται από το εύρος fm του αναλογικού σήματος και από τον αριθμό των παλμών n (bits) που χρησιμοποιούνται για τη μετάδοση των δειγμάτων.

 

3.1.2    Γραμμική και Λογαριθμική κωδικοποίηση

 Ανάλογα με το μήκος λέξης που χρησιμοποιούμε, προκύπτει ένα πλήθος σταθμών που πρέπει να αντιστοιχηθεί σε κάποιες τιμές. Αυτή η αντιστοίχηση μπορεί να γίνει με διάφορους τρόπους. Δύο διαδεδομένες τεχνικές είναι η γραμμική κωδικοποίηση και η λογαριθμική κωδικοποίηση.

Σύμφωνα με τη γραμμική κωδικοποίηση το πλήθος των διαθέσιμων σταθμών κατανέμεται εξίσου σε όλο το εύρος του πεδίου τιμών του σήματος. Για παράδειγμα, ας υποθέσουμε ότι θέλουμε να ψηφιοποιήσουμε μια τάση που παίρνει τιμές από 0 έως 1000V, χρησιμοποιώντας λέξεις των 8bit. Το πλήθος των διαθέσιμων σταθμών θα είναι 28=256. Για απλοποίηση των πράξεων προσεγγίζουμε τη μέγιστη τιμή της τάσης με το 1024. ’ρα, οι διαθέσιμες στάθμες θα απέχουν μεταξύ τους 1024/256=4V και οι αντίστοιχες τιμές θα είναι 0, 4, 8, ...1024V. Η γραμμική κωδικοποίηση, αν και απλή και λογική, δεν είναι ευρέως χρησιμοποιούμενη.

Αντίθετα, στη λογαριθμική κωδικοποίηση οι διάφορες στάθμες δεν ισαπέχουν καλύπτοντας ομοιόμορφα όλο το πεδίο τιμών του σήματος, αλλά ακολουθούν λογαριθμική κατανομή. Η λογαριθμική κωδικοποίηση αποτελεί την κύρια τεχνική κωδικοποίησης στην τηλεφωνία.

3.1.2.1       Τηλεφωνία PCM

Όπως είναι γνωστό πολλές φορές για τη μετάδοση ομιλίας είναι αρκετό το εύρος 0-4000 Hz. Έχουμε συνεπώς για το μεταδιδόμενο φάσμα μιας συνδιάλεξης μέγιστη συχνότητα fmax=4000 Hz. Σύμφωνα με το θεώρημα ομοιόμορφης δειγματοληψίας του Shannon θα έχουμε τότε όλη την πληροφορία που περιέχει το φάσμα 0-4000 Hz μιας συνδιάλεξης, αν μεταδώσουμε από το φάσμα αυτό τουλάχιστον 2 fmax δείγματα δηλαδή 8000 δείγματα ανά sec. Τα δείγματα αυτά σύμφωνα με το παραπάνω θεώρημα πρέπει να απέχουν ίσες αποστάσεις μεταξύ τους. Έτσι, εφόσον έχουμε 8000 δείγματα το δευτερόλεπτο, δηλαδή συχνότητα δειγματοληψίας ίση με 8000 Hz, η απόσταση μεταξύ δύο μεταδιδόμενων συνεχών δειγμάτων θα είναι ίση με 1/(8000 sec-1) = 125 μs.

Φαίνεται επίσης  η λήψη των ρευμάτων του ρεύματος της συνδιάλεξης αυτής μέσω μιας πύλης δειγματοληψίας που ανοίγει με τη βοήθεια ενός ρολογιού και αφήνει κάθε 125 μs να περάσει ένα δείγμα. Το σήμα που παίρνουμε τότε ονομάζεται σήμα διαμορφωμένο κατά πλάτος παλμού (σήμα PAM, Pulse Amplitude Modulation). Είναι προφανές ότι στην διαμόρφωση κατά πλάτος παλμού έχουμε μια σειρά παλμών που το πλάτος τους διαμορφώνεται από το αναλογικό σήμα. Εφόσον σύμφωνα με το θεώρημα δειγματοληψίας το ανωτέρω σήμα PAM περιέχει όλες τις πληροφορίες του αναλογικού σήματος μπορούμε να αναπαραγάγουμε από αυτό στη λήψη το αναλογικό σήμα. Η αναπαραγωγή γίνεται με ένα βαθυπερατό φίλτρο που έχει την ίδια ακριβώς συχνότητα διακοπής των 4000 Hz με το φίλτρο της δειγματοληψίας. Προϋπόθεση βεβαίως για την ακριβή αναπαραγωγή του αναλογικού σήματος είναι το να μην έχουμε κατά τη μετάδοση του σήματος PAM παραμόρφωσή του.

Έτσι για να αναπαραχθούν στη λήψη τα αναλογικά σήματα, στην περίπτωση διαμόρφωσης PAM, πρέπει να φτάνουν στη λήψη τα δείγματά τους με αρκετή ακρίβεια. Σε μεγάλες αποστάσεις δεν είναι πρακτικά δυνατό αυτό λόγω της παραμόρφωσης των παλμών κατά τη μεταφορά τους και των δυσκολιών που υπάρχουν για ενδιάμεση αναπαραγωγή τους (αναγέννησή τους) με ακρίβεια. Έτσι, παρά την απλότητά της, η διαμόρφωση PAM δεν χρησιμοποιείται όταν έχουμε μεταφορά σημάτων σε απόσταση. Στην περίπτωση αυτή χρησιμοποιούμε την παλμοκωδική διαμόρφωση, τη διαμόρφωση PCM (Pulse - Code Modulation) όπως ονομάζεται.

Πλεονεκτήματα του συστήματος PCM είναι το ότι η ποιότητα της μετάδοσης είναι σχεδόν ανεξάρτητη από την απόσταση γιατί είναι δυνατό με ενδιάμεσους αναγεννητές (repeaters, regenerators) να έχουμε αναγέννηση (αναπαραγωγή) του ψηφιακού σήματος. Αντίθετα με τους ενδιάμεσους ενισχυτές των αναλογικών σημάτων όπου ενισχύεται και ο θόρυβος, στους αναγεννητές των TDM - PCM συστημάτων, για την αναπαραγωγή ενός παλμού χρειάζεται να διακριθεί μόνο αν υπάρχει ή όχι παλμός. Έτσι λοιπόν, χρησιμοποιώντας αναγεννητές σε κατάλληλες αποστάσεις είναι δυνατό να έχουμε στη λήψη σήμα χωρίς καμία παραμόρφωση. Η λειτουργία της αναγέννησης είναι απλή. Χρειάζεται όπως είπαμε να διακριθεί μόνο εάν υπάρχει ή όχι παλμός. Οι αναγεννητές όμως διαθέτουν χρονοκυκλώματα (timing circuits) που η λειτουργία τους απαιτεί να υπάρχουν ψηφιακά σήματα με θετικούς και αρνητικούς (εναλλασσόμενους) παλμούς. Eτσι αν κατά τη μετάδοση του διπολικού σήματος RZ έχουμε μια μεγάλη σειρά από 0, διαταράσσεται η λειτουργία των χρονοκυκλωμάτων αυτών. Για την αντιμετώπιση του γεγονότος αυτού χρησιμοποιείται κατά τη μετάδοση κατάλληλος κώδικας. Eνας τέτοιος κώδικας είναι για παράδειγμα ο κώδικας ΗΒ3.

3.1.3    Ήχος Ποιότητας CD (Compact Disk-Digital Audio)

Και στην περίπτωση του CD-DA, η τεχνική ψηφιοποίησης που χρησιμοποιείται είναι η PCM και πιο συγκεκριμένα η γραμμική μέθοδος κωδικοποίησης. Η επιλογή αυτή έγινε γιατί αφενός, η μουσική δεν έχει τόσο περιορισμένο εύρος συχνοτήτων όσο η φωνή, και αφετέρου στο CD-DA υπάρχουν μεγάλες απαιτήσεις πιστότητας.

Το εύρος των συχνοτήτων των ήχων που μπορεί να ακούσει ο άνθρωπος είναι περίπου 20kHz. ’ρα, σύμφωνα με τη θεωρία του Nyquist, απαιτείται συχνότητα δειγματοληψίας τουλάχιστον 40kHz. Στην πράξη, χρησιμοποιείται η συχνότητα των 44,1 kHz. Κατά συνέπεια, απαιτείται η λήψη ενός δείγματος κάθε 23μs. Οι λέξεις που χρησιμοποιούνται για να παραστήσουν το πλάτος του σήματος στο CD-DA έχουν μήκος 16bit. Το bit rate που προκύπτει από αυτά τα δεδομένα πρέπει να πολλαπλασιαστεί με 2, γιατί το CD-DA υποστηρίζει στερεοφωνία. Πρακτικά αυτό σημαίνει ότι υπάρχουν δύο κανάλια, κάθε ένα από τα οποία ακολουθεί τις προδιαγραφές που έχουν αναφερθεί. Τελικά προκύπτει ότι το bit rate για το CD-DA είναι: 2*106*16/23=1,411 Mbps.

3.1.4    Ψηφιακή Τηλεόραση

Υπάρχουν δύο τρόποι για να γίνει η απεικόνιση της κινούμενης εικόνας σε ψηφιακή μορφή. Η πρώτη γίνεται χρησιμοποιώντας μια αναλογική κάμερα και ψηφιοποιώντας το προκύπτων αναλογικό σήμα. Ο δεύτερος τρόπος προϋποθέτει τη χρήση μιας ψηφιακής κάμερας, η οποία παρέχει το σήμα κατ’ ευθείαν σε ψηφιακή μορφή.

Στη συνέχεια, θα περιγράψουμε πως μπορεί να γίνει η ψηφιοποίηση του αναλογικού σήματος που παρέχει μια συνήθης κάμερα, έτσι ώστε να παραχθεί εικόνα με ποιότητα κατάλληλη για εφαρμογές στούντιο (π.χ. εισαγωγή ψηφιακών εφέ). Υπάρχουν και άλλα πρότυπα, όπως τηλεόραση υψηλής ευκρίνειας (high definition TV), ποιότητα εικόνας μετάδοσης (broadcast TV quality), ποιότητα βίντεο (VCR), ποιότητα τηλεδιάσκεψης (video conferencing).

Ο τρόπος που γίνεται η μετατροπή της εικόνας σε αναλογικό και στην συνέχεια ψηφιακό σήμα δεν είναι προφανής, όπως στον ήχο. Ας μην ξεχνάμε ότι η κινούμενη εικόνα έχει τις μεγαλύτερες απαιτήσεις σε ταχύτητα μεταφοράς, γεγονός που δυσκολεύει τους αναλογικούς τρόπους μετάδοσης και πολύ περισσότερο, όπως είναι φυσικό, τους ψηφιακούς. Αν δεν καταφύγουμε σε μεθόδους συμπίεσης, πρέπει τουλάχιστον να γίνει αποδοτική ψηφιοποίηση. Η ανθρώπινη όραση έχει κάποια ιδιαίτερα χαρακτηριστικά τα οποία μπορούμε να εκμεταλλευθούμε για να επιτύχουμε καλύτερη αξιοποίηση του διαθέσιμου εύρους ζώνης (bandwidth).

3.1.4.1       Φως, Χρώμα και Ανθρώπινη Όραση

Το φως είναι ηλεκτρομαγνητική ακτινοβολία, η οποία προκαλεί την οπτική αντίδραση του ανθρώπου. Για να είναι ορατή αυτή η ακτινοβολία, πρέπει να έχει μήκος κύματος λ μεταξύ 250nm και 780nm. Μια πηγή φωτός συνήθως παράγει ακτινοβολία που περιέχει πολλά μήκη κύματος. Στην ειδική περίπτωση που υπάρχει μόνο ένα μήκος κύματος λ, έχουμε μια μονοχρωματική πηγή. Η ενέργεια που έχει αυτή η πηγή ονομάζεται ένταση (intensity) και συμβολίζεται C. Στην γενικότερη περίπτωση, που υπάρχουν πολλά μήκη κύματος, ορίζουμε τη φασματική κατανομή (spectral distribution) C(λ), που περιγράφει την ένταση όλων των μηκών κύματος που αποτελούν την πηγή.

Η  ανθρώπινη όραση μπορεί να διακρίνει αποτελεσματικά τα διαφορετικά μήκη κύματος  μονοχρωματικού φωτός. Κάθε μήκος κύματος το βλέπουμε ως διαφορετικό χρώμα. Επιπλέον, δεν προκαλούν όλα τα χρώματα την ίδια αντίδραση. Η όραση μας είναι πιο ευαίσθητη, για παράδειγμα, στο κίτρινο παρά στο κόκκινο. Συμβολίζουμε την ευαισθησία της ανθρώπινης όρασης σε ένα χρώμα (φως κάποιου συγκεκριμένου μήκους κύματος λ) ως V(λ).

Σχήμα 3-1. Δύο διαφορετικές φασματικές κατανομές μπορούν να παράγουν την ίδια χρωματική αίσθηση

Ένα μέγεθος που σχετίζεται με την οπτική αντίληψη του ανθρώπου είναι η lightness, που υποδηλώνει πόσο μαύρο ή λευκό είναι ένα αντικείμενο. Με άλλα λόγια, περιγράφει την αίσθηση ότι ένα αντικείμενο αντανακλά η μεταδίδει περισσότερο η λιγότερο από το προσπίπτων φως. Αν ένα αντικείμενο αντανακλά λιγότερο από το 30% του προσπίπτοντος φωτός, το αντιλαμβανόμαστε ως μαύρο. Αν αντανακλά περισσότερο από το 80%, ως λευκό.

Ένα άλλο μέγεθος, η σχετική φωτεινότητα (brightness), περιγράφει την οπτική αντίληψη ότι μια περιοχή ή αντικείμενο εκπέμπει περισσότερο φως από τον περίγυρο της.

Τέλος, θα ορίσουμε ένα μέγεθος που δεν αποτελεί φυσικό χαρακτηριστικό της πηγής η του αντικειμένου που φωτίζεται, αλλά είναι πολύ χρήσιμο για την μετατροπή της εικόνας σε σήμα, την απόλυτη φωτεινότητα (luminance). Η απόλυτη φωτεινότητα ορίζεται ως το άθροισμα της οπτικής απόκρισης του ανθρώπου σε όλα τα μήκη κύματος της πηγής και συμβολίζεται ως L. Πιο αυστηρά η L θα δίδεται από τον τύπο:

(3.4)    

3.1.4.2       Σύνθεση χρωμάτων

Όπως είδαμε, τα χρώματα δεν είναι παρά ο τρόπος με τον οποίο αντιλαμβανόμαστε κάποια μήκη κύματος μονοχρωματικού φωτός. Το ίδιο αποτέλεσμα μπορούμε να έχουμε και με πολλές άλλες φασματικές κατανομές. Έχει βρεθεί, ότι οποιοδήποτε χρώμα μπορεί να συντεθεί ανακατεύοντας όχι περισσότερα από τρία άλλα χρώματα. Η τριάδα χρωμάτων που μπορεί να χρησιμοποιηθεί ως βάση κατασκευής των υπολοίπων χρωμάτων δεν είναι μοναδική. Στην πραγματικότητα, οποιαδήποτε τρία διαφορετικά χρώματα, κανένα από τα οποία δεν έχει παραχθεί από τα άλλα δύο, μπορεί να παίξει το ρόλο της βάσης που παράγει τα υπόλοιπα χρώματα.

’ρα, αν έχουμε τρία βασικά χρώματα Α, Β, Γ, οποιοδήποτε χρώμα Ζ μπορεί να παραχθεί αναμιγνύοντας α% από το Α, β% από το Β και γ% από το Γ. Μπορούμε δηλαδή να γράψουμε:

 (3.5)     

Αυτός ο κανόνας κρύβει μια παγίδα. Είναι πιθανό να χρειαστεί αρνητικός συντελεστής α, β ή γ για την παραγωγή κάποιου χρώματος. ’ρα στην πράξη δεν είναι δυνατή η παραγωγή οποιουδήποτε χρώματος από τρία άλλα.

Σχήμα 3-2. Οι κάμερες παράγουν σήμα που αποτελείται από τρεις συνιστώσες

Συνήθως τα βασικά χρώματα που χρησιμοποιούνται είναι το κόκκινο, το πράσινο και το μπλε (Red, Green, Blue-RGB). Οι κάμερες παράγουν τρία διαφορετικά συνεχή σήματα, ένα για κάθε χρώμα, η σύνθεση των οποίων δίνει την εικόνα. Η ίδια τριάδα σημάτων χρησιμοποιείται και κατά την απεικόνιση της εικόνας στις έγχρωμες τηλεοράσεις και στις οθόνες των υπολογιστών. Όμως, για να μεταδοθεί ή ψηφιοποιηθεί το σήμα της τηλεόρασης, η τριάδα αυτή σημάτων μετασχηματίζεται σε μια άλλη. Ο μετασχηματισμός αυτός βασίζεται στις ιδέες της απόλυτης φωτεινότητας ή απλά φωτεινότητας (luminance) και της chrominance.

3.1.4.3       Luminance and Chrominance

Η μέθοδος μετασχηματισμού του RGB σήματος σε σήματα φωτεινότητας και chrominance χρησιμοποιείται από τις πρώτες μέρες της έγχρωμης τηλεόρασης και διατηρείται μέχρι σήμερα. Μάλιστα, ακόμα και τα πρότυπα ψηφιακής τηλεόρασης στηρίζονται σε αυτό το μετασχηματισμό. Γιατί όμως καταφεύγουμε σε αυτόν το μετασχηματισμό;

Υπάρχουν δύο λόγοι. Ο πρώτος αφορά στην ευκολία μετάδοσης. Η ανθρώπινη όραση είναι γενικά πολύ πιο ευαίσθητη στη φωτεινότητα της εικόνας παρά στα χρώματα. Μετασχηματίζοντας το RGB σήμα σε ένα σήμα φωτεινότητας και δύο άλλα που μεταφέρουν τη χρωματική πληροφορία, μπορούμε να βελτιστοποιήσομε την ταχύτητα μετάδοσης της εικόνας. Τα δύο χρωματικά σήματα μπορούν να παρασταθούν και μεταδοθούν με μικρότερη ακρίβεια από ότι το σήμα φωτεινότητας, κάνοντας έτσι οικονομία του διαθέσιμου bandwidth. Ο δεύτερος λόγος είναι η διατήρηση της συμβατότητας με τα παλαιότερα συστήματα τηλεόρασης. Μια ασπρόμαυρη τηλεόραση θα αγνοήσει τα χρωματικά σήματα και θα απεικονίσει μόνο τη φωτεινότητα.

Σχήμα 3-3. Μετατροπή RGB σήματος σε YUV στις τηλεοράσεις

Η φωτεινότητα συμβολίζεται συνήθως με Υ. Τα δύο χρωματικά σήματα υπολογίζονται από τα σήματα διαφοράς χρώματος (color difference signal). Ένα σήμα διαφοράς χρωμάτων για κάποιο από τα βασικά χρώματα υπολογίζεται αφαιρώντας τη φωτεινότητα από το αντίστοιχο σήμα χρώματος.

Στην πράξη, δεν μεταδίδονται και τα τρία σήματα διαφοράς χρώματος, αλλά συνδυάζονται με κάποιο γραμμικό τρόπο, σχηματίζοντας τα δύο χρωματικά σήματα (chrominance signals). Οι μετασχηματισμοί που χρησιμοποιούνται στα δύο πρότυπα τηλεόρασης NTSC και PAL[1] είναι οι εξής:

·       Στο NTSC πρότυπο τα χρωματικά σήματα συμβολίζονται ως I και Q και υπολογίζονται ως εξής:

(3.6)   

(3.7)      

(3.8)   

·       Στο PAL πρότυπο τα χρωματικά σήματα συμβολίζονται ως U και V και υπολογίζονται ως εξής:

(3.9)   

(3.10)

(3.11)  

3.1.4.4       Ψηφιοποίηση στην ψηφιακή τηλεόραση ποιότητας στούντιο

Ο τρόπος με τον οποίο γίνεται η ψηφιοποίηση της τηλεόρασης έχει προτυποποιηθεί από τον International Telecommunications Union στην πρόταση ITU-R- 601. Στην συνέχεια θα περιγράψουμε τις βασικές αρχές που διέπουν τις διαδικασίες δειγματοληψίας και κβαντοποίησης.

Η πρώτη αρχή που επιβάλλει η διαδικασία δειγματοληψίας σύμφωνα με την ITU-R- 601, είναι ότι η θέση κάθε δείγματος σε όλα τα πλαίσια[2] είναι η ίδια. Δεν υπάρχει, δηλαδή, χρονική ολίσθηση των σημείων που δειγματολειπτούνται. Οι θέσεις των δειγμάτων είναι μάλιστα τέτοιες, ώστε να σχηματίζεται ένα ορθογώνιο πλέγμα. Δε δειγματολειπτούνται όλες οι γραμμές κάθε πλαισίου, αλλά εναλλάξ οι μονές με τις ζυγές. Αυτό γίνεται γιατί στην τηλεόραση χρησιμοποιείται η πλεκτή σάρωση[3] (interlaced scanning) της εικόνας.

Σχήμα 3-4. Τα σημεία δειγματοληψίας στην ψηφιακή τηλεόραση είναι σταθερά

Το αρχικό αναλογικό σήμα μπορεί να ακολουθεί είτε το αμερικάνικο πρότυπο NTSC είτε τα ευρωπαϊκά PAL και SECAM. Στο πρώτο από αυτά, η εικόνα έχει 525 γραμμές ενώ αποστέλλονται 30fps[4]. Στα άλλα δύο τα αντίστοιχα μεγέθη είναι 625 γραμμές και 25fps. Το πρότυπο ψηφιοποίησης έχει ως αρχή ότι οποιοδήποτε και να είναι το πρότυπο του αναλογικού σήματος, ο ρυθμός δειγματοληψίας πρέπει να είναι ο ίδιος. Για να συμβαίνει κάτι τέτοιο, πρέπει να διαλέξουμε συχνότητα σάρωσης της εικόνας που να είναι πολλαπλάσιο του 2,25MHz. Η  τελευταία αυτή συχνότητα προέκυψε ως το ελάχιστο κοινό πολλαπλάσιο των συχνοτήτων ανανέωσης των γραμμών στα δύο πρότυπα (525/2*60 και 625/2*25 αντίστοιχα).

Η συχνότητα δειγματοληψίας που έχει επιλεγεί είναι 13.5MHz για τη φωτεινότητα και 6.75MHz για τις δυο χρωματικές συνιστώσες. Με άλλα λόγια, ανεξάρτητα από την προέλευση του αναλογικού σήματος, το ψηφιακό σήμα θα περιέχει ένα δείγμα για τη φωτεινότητα κάθε 7,4nsec.

Σύμφωνα με την αρχή της μοναδικής συχνότητας δειγματοληψίας, ο αριθμός των δειγμάτων ανά γραμμή, ανάλογα με το πρότυπο τους αρχικού αναλογικού σήματος, που προκύπτει είναι: 858 δείγματα για το NTSC (858*525*30 = 13.500.000) και 864 για τα PAL και SECAM (864*625*25 = 13.500.000).

Το προκύπτον ψηφιακό σήμα θα αποτελείται από ακολουθίες με συχνότητα εμφάνισης των σημείων 13,5MHz και 6,75MHz για τη φωτεινότητα και τη χρωματική πληροφορία αντίστοιχα. Αυτό όμως δεν μπορεί να συμβαίνει στην πραγματικότητα, γιατί η ακτίνα που κάνει τη σάρωση θα καθυστερεί κατά την μεταγωγή από το τέλος κάθε γραμμής στην αρχή της επόμενης (οριζόντια επαναφορά), και από το τέλος κάθε πλαισίου στην αρχή του επόμενου (κάθετη επαναφορά). Σύμφωνα με τους αριθμούς που δώσαμε παραπάνω, η ακτίνα σάρωσης διαθέτει 858*7,4nsec ή 864*7,4nsec για να σαρώσει κάθε γραμμή. Αν συμπεριλάβουμε σε αυτά τα χρονικά διαστήματα και τους χρόνους επαναφοράς, προκύπτει ότι μπορούμε να έχουμε 720 δείγματα ανά γραμμή. Ο αριθμός αυτός υπολογίστηκε για τη φωτεινότητα. Για τις χρωματικές συνιστώσες θα είναι προφανώς ο μισός. Όσον αφορά στις γραμμές που σαρώνονται, μπορεί να βρεθεί ότι ο αριθμός τους θα είναι τελικά 486 στο NTSC και 576 στο PAL/SECAM.

Τέλος, όσον αφορά στην κβαντοποίηση των τιμών των δειγμάτων, χρησιμοποιούνται λέξεις των 8bits. Παρ’ όλα αυτά, δεν διατίθενται και οι 256 στάθμες για την κβαντοποίηση των δειγμάτων. Μερικές στάθμες φυλάσσονται για να αποθηκευτούν κάποιες άλλες πληροφορίες. Πιο αναλυτικά, για την φωτεινότητα υπάρχουν 220 διαφορετικές στάθμες,. Το μαύρο αντιστοιχεί στη στάθμη 16 και η μέγιστη τιμή φτάνει το 235. Η διαφορά χρώματος κινείται στο διάστημα 16 ως 240, με την τιμή 128 να αντιστοιχεί σε καθόλου χρώμα.

Σχήμα 3-5. Η δειγματοληψία ενός πλαισίου στην ψηφιακή τηλεόραση

 

3.2    Συμπίεση Δεδομένων

Σε αυτήν την ενότητα θα ασχοληθούμε με τις μεθόδους συμπίεσης που χρησιμοποιούνται σε εφαρμογές πολυμέσων. Δεν πρόκειται να επιχειρήσουμε αναλυτική περιγραφή αυτών, απλά θα δοθούν οι βασικές αρχές πάνω στις οποίες στηρίζονται.

   

3.2.1    Η ανάγκη για συμπίεση

Τα σημερινά αποθηκευτικά μέσα αδυνατούν να ικανοποιήσουν τις τεράστιες ανάγκες που επιβάλλουν οι εφαρμογές πολυμέσων που κάνουν ευρεία χρήση εικόνων, ήχου και βίντεο. Ένα CD-ROM, το οποίο έχει χωρητικότητα 650MB, χωρά 75 λεπτά ασυμπίεστου στερεοφωνικού ήχου ποιότητας CD αλλά μόλις 30δευτερόλεπτα ασυμπίεστης ψηφιακής τηλεόρασης. Ακόμα και οι μαγνητικοί δίσκοι, που φτάνουν τα 4GB, δεν επαρκούν, αφού μια ταινία 90 λεπτών απαιτεί γύρω στα 120GB.

Ψηφιοποιώντας μια φωτογραφία με μια λογική ανάλυση 2000´2000 σημείων, προκύπτουν 4εκατ. εικονοστοιχεία (pixels),  που αντιστοιχούν σε 10ΜΒ αποθηκευτικού χώρου. Αν αναλογιστούμε ότι ένα νοσοκομείο πρέπει να μπορεί να διατηρεί και προσπελαύνει μερικά εκατομμύρια ακτινογραφίες, καταλαβαίνουμε ότι, όσο γρήγορα και να αναπτύσσεται η τεχνολογία των αποθηκευτικών μέσων, χρειάζεται κάτι ακόμα για να υλοποιηθούν πραγματικές εφαρμογές πολυμέσων σε ευρεία κλίμακα.

 

3.2.2    Συμπίεση με απώλειες και χωρίς απώλειες

Τη λύση σε αυτό το πρόβλημα έρχεται να δώσει η συμπίεση. Στόχος της συμπίεσης είναι  ο περιορισμός του μεγέθους που καταλαμβάνει ένα ποσό πληροφορίας εις βάρος βέβαια της διαθεσιμότητας του, της υπολογιστικής ισχύος και πολύ συχνά και της ακρίβειας του περιεχομένου του.

Τα δύο πρώτα πράγματα που θυσιάζονται κατά την συμπίεση της πληροφορίας είναι η διαθεσιμότητα της και ένα ποσό υπολογιστικής ισχύος. Αυτό σημαίνει, ότι οι διαδικασίες συμπίεσης και αποσυμπίεσης έχουν υπολογιστικό κόστος, που μπορεί να είναι τόσο μεγάλο που να απαιτεί ειδικό υλικό για να γίνει σε πραγματικό χρόνο. Από την άλλη πλευρά, η συμπιεσμένη μορφή της πληροφορίας δεν είναι άμεσα αξιοποιήσιμη. Πρέπει να προηγηθεί το στάδιο της αποσυμπίεσης για να αποκτήσει ξανά το σημασιολογικό της περιεχόμενο. Συνήθως μας απασχολεί η ταχύτητα αποσυμπίεσης και όχι τόσο αυτή της συμπίεσης. Στις περισσότερες εφαρμογές η συμπίεση γίνεται μια φορά στο στάδιο της κατασκευής και με χρήση ειδικού υλικού, ενώ η αποσυμπίεση γίνεται από τους χρήστες που έχουν στην διάθεση τους υπολογιστές γενικής χρήσης.

Διακρίνουμε δύο τύπους αλγορίθμων συμπίεσης:

·       Αλγόριθμοι συμπίεσης χωρίς απώλειες ή αντιστρεπτοί (lossless compression)

          Αυτό το είδος αλγορίθμων έχει το ιδιαίτερο χαρακτηριστικό ότι η διαδικασία συμπίεσης δεν αλλοιώνει καθόλου την πληροφορία. Δηλαδή, μετά την αποσυμπίεση, η πληροφορία επανέρχεται ακριβώς στην μορφή που είχε πριν. Συνήθως, αυτοί οι αλγόριθμοι εφαρμόζονται σε περιπτώσεις που δεν υπάρχει κανένα περιθώριο απωλειών. Για παράδειγμα, αν η πληροφορία που μεταφέρεται είναι ένα πρόγραμμα υπολογιστή, ένα και μόνο αλλοιωμένο bit μπορεί να είναι αρκετό να καταστήσει το πρόγραμμα άχρηστο.

·       Αλγόριθμοι συμπίεσης με απώλειες ή μη αντιστρεπτοί (lossy compression)

          Αν, για παράδειγμα, η πληροφορία περιγράφει μια φωτογραφία, είναι δυνατόν να επιτύχουμε καλύτερη συμπίεση κάνοντας μερικές υποχωρήσεις όσον αφορά στην πιστότητα του συμπιεσμένου σήματος. Είναι φανερό ότι σε τέτοιες περιπτώσεις το σημασιολογικό περιεχόμενο ουσιαστικά δεν μεταβάλλεται αλλά υπεισέρχεται η έννοια της μείωσης της ποιότητας. Το ψηφιακό σήμα ως ακολουθία bits σαφώς και μεταβάλλεται.  

 

3.2.3    Κωδικοποίηση εντροπίας και πηγής

Μια απλοποιημένη ταξινόμηση των τεχνικών συμπίεσης είναι η εξής:  κωδικοποίηση εντροπίας (entropy encoding) και κωδικοποίηση πηγής (source encoding).

3.2.3.1       Κωδικοποίηση εντροπίας

Η κωδικοποίηση εντροπίας αναφέρεται σε τεχνικές, οι οποίες δεν λαμβάνουν υπ’ όψη τους το είδος της πληροφορίας που πρόκειται να συμπιεστεί. Με άλλα λόγια, αυτές οι τεχνικές αντιμετωπίζουν την πληροφορία ως μια απλή ακολουθία bits. Γι΄ αυτό το λόγο, η κωδικοποίηση εντροπίας μπορεί να εφαρμοσθεί ανεξάρτητα από το είδος της πληροφορίας. Επιπλέον, οι τεχνικές κωδικοποίησης εντροπίας προσφέρουν κωδικοποίηση  χωρίς απώλειες.

Ας δούμε ένα παράδειγμα. Μπορούμε να αντικαθιστούμε κάθε ακολουθία 10 διαδοχικών μηδενικών που βρίσκουμε με ένα ειδικό χαρακτήρα ακολουθούμενο από τον αριθμό 10. Με αυτόν τον τρόπο, μειώνουμε το μήκος της ακολουθίας χωρίς να κάνουμε καμία υπόθεση για την σημασία των μηδενικών, αλλά και χωρίς να αλλοιώνεται το σήμα.

Οι τεχνικές κωδικοποίησης εντροπίας διαχωρίζονται σε δύο βασικές κατηγορίες:

·       Περιορισμός των επαναλαμβανόμενων ακολουθιών (Suppression of repetitive sequences)

·       Στατιστική Κωδικοποίηση (Statistical encoding)

3.2.3.2       Κωδικοποίηση Πηγής

Η διαφορά αυτής της τεχνικής είναι ότι οι μετασχηματισμοί τους οποίους υφίστανται το αρχικό σήμα εξαρτώνται άμεσα από το τύπο του. Για παράδειγμα, ο λόγος χαρακτηρίζεται από συχνά διαστήματα σιωπής, που μπορούν να περιγραφούν με πιο αποτελεσματικό τρόπο. Δηλαδή, οι μετασχηματισμοί του σήματος κάνουν χρήση των ιδιαίτερων σημασιολογικών χαρακτηριστικών που μεταφέρει το σήμα.

Γενικά, αυτές οι τεχνικές μπορούν να παράγουν μεγαλύτερα ποσοστά συμπίεσης σε σχέση με την κωδικοποίηση εντροπίας. Μειονεκτούν όμως στη σταθερότητα, γιατί το ποσοστό συμπίεσης που επιτυγχάνουν διαφοροποιείται ανάλογα με το αντικείμενο που συμπιέζεται. Πάντως, η κωδικοποίηση πηγής μπορεί να λειτουργήσει και με απώλειες και χωρίς απώλειες.

Οι τεχνικές κωδικοποίησης πηγής διακρίνονται σε τρεις τύπους:

·       Κωδικοποίηση μετασχηματισμού (transform encoding)

·       Διαφορική ή προβλεπτική κωδικοποίηση (differential or predictive encoding)

·       Διανυσματική κβαντοποίηση (vector quantization)

Να σημειωθεί ότι οι δυο παραπάνω κατηγορίες κωδικοποίησης δεν αποκλείουν η μια την άλλη. Υπάρχουν αλγόριθμοι που συνδυάζουν τεχνικές και των δυο κατηγοριών για να επιτύχουν καλύτερα αποτελέσματα.

 

3.2.4    Περιορισμός των ακολουθιών επαναλαμβανόμενων χαρακτήρων

Σχήμα 3-6. Παραδείγματα περιορισμού των επαναλαμβανόμενων χαρακτήρων

Αυτή η μέθοδος κωδικοποίησης εντροπίας είναι από τις παλαιότερες και πιο απλές που χρησιμοποιούνται. Η ιδέα είναι ότι σε μια τυχαία ακολουθία από bits είναι να πιθανό να εμφανιστούν κάποια τμήματα που αποτελούνται από κάποιο επαναλαμβανόμενο χαρακτήρα. Αυτά τα τμήματα μπορούν να αντικατασταθούν από το χαρακτήρα, ένα ειδικό χαρακτήρα, που ονομάζεται σημαία, και το πλήθος των επαναλήψεων του χαρακτήρα σε αυτά. Η κωδικοποίηση αυτή έχει την παρακάτω σημασία: Κάθε φορά που συναντάται η σημαία, ο χαρακτήρας που προηγείται αυτής πρέπει να επαναληφθεί όσες φορές υποδεικνύει ο αριθμός που ακολουθεί τη σημαία.

Αυτή η μορφή που περιγράψαμε μπορεί να γίνει πιο αποδοτική, αν έχουμε συχνά εμφανιζόμενες ακολουθίες μηδενικών. Σ’ αυτές τις περιπτώσεις απαιτείται απλώς μια σημαία (που θα σημαίνει “επαναλαμβανόμενα μηδενικά”) και ο αριθμός των επαναλήψεων. Και στις δύο περιπτώσεις, το μήκος των ακολουθιών πρέπει να είναι τέτοιο, ώστε να υπάρχει ουσιαστικό όφελος από αυτήν την αντικατάσταση.

 

3.2.5    Στατιστική Κωδικοποίηση

Και η στατιστική κωδικοποίηση είναι μια μέθοδος που χρησιμοποιείται πολύ συχνά. Η βασική αρχή αυτής της τεχνικής βρίσκεται στο εντοπισμό των πιο συχνά εμφανιζόμενων ακολουθιών χαρακτήρων και στην κωδικοποίηση τους με λιγότερα bits. Δηλαδή οι σπάνια εμφανιζόμενες ακολουθίες θα έχουν μεγαλύτερους κωδικούς, ενώ οι συχνές μικρότερους.

Είναι φανερό ότι η μέθοδος απαιτεί την ύπαρξη λεξικού, όπου αποθηκεύονται οι ακολουθίες που αντιστοιχούν σε κάθε κωδικό για να μπορεί να γίνει η αποσυμπίεση. Καθοριστικής σημασίας για την επίδοση του αλγόριθμου είναι η στατιστική επεξεργασία των δεδομένων, για την ανεύρεση των ακολουθιών που θα κωδικοποιηθούν με μικρούς κωδικούς. Στην απλούστερη περίπτωση, το λεξικό είναι σταθερό, ενώ στην πιο σύνθετη το βρίσκουμε κάθε φορά που γίνεται η συμπίεση κάποιας ποσότητας δεδομένων.

Η στατιστική κωδικοποίηση παίρνει δύο μορφές: αντικατάσταση προτύπων (pattern substitution) και κωδικοποίηση Huffman (Huffman encoding).

3.2.5.1       Αντικατάσταση προτύπων

Η μέθοδος της αντικατάστασης προτύπων χρησιμοποιείται αποκλειστικά για κείμενα. Συχνά εμφανιζόμενα πρότυπα (ακολουθίες χαρακτήρων, λέξεις) αντικαθιστώνται με λίγους χαρακτήρες. Για παράδειγμα, θα μπορούσαμε να κωδικοποιήσουμε αυτές τις σημειώσεις αντικαθιστώντας τη λέξη “πολυμέσα” με τους χαρακτήρες “*π”. Σε  μια τέτοια περίπτωση, το λεξικό προκύπτει από ανάλυση του κειμένου, ενώ κάποιες λέξεις είναι εκ των προτέρων γνωστό ότι θα εμφανιστούν σίγουρα.

3.2.5.2       Κωδικοποίηση Huffman

Η κωδικοποίηση Huffman αποτελεί μια γενίκευση τις στατιστικής κωδικοποίησης. Για κάποιο ρεύμα δεδομένων υπολογίζεται η συχνότητα εμφάνισης κάθε χαρακτήρα. Από αυτήν την συχνότητα, ο αλγόριθμος του Huffman υπολογίζει το ελάχιστο μήκος κωδικού που πρέπει να δοθεί σε κάθε χαρακτήρα και πραγματοποιεί τη βέλτιστη ανάθεση κωδικών. Αυτοί οι κωδικοί αποθηκεύονται στο λεξικό.

Η  μέθοδος του Huffman χρησιμοποιείται στη συμπίεση ακίνητης και κινούμενης εικόνας. Ανάλογα με τις λεπτομέρειες τις υλοποίησης, ένα νέο λεξικό δημιουργείται για κάθε εικόνα ή ομάδα εικόνων. Στην περίπτωση της κινούμενης εικόνας, το λεξικό μπορεί να επαναδημιουργείται για κάθε πλαίσιο ή σειρά πλαισίων. Σε κάθε περίπτωση, η διαδικασία συμπίεσης πρέπει να αποθηκεύει το λεξικό για να είναι δυνατή η αποσυμπίεση.

 

3.2.6    Κωδικοποίηση μετασχηματισμού

Η κωδικοποίηση μετασχηματισμού είναι ο πρώτος τύπος κωδικοποίησης πηγής που εξετάζουμε. Όπως έχουμε εξηγήσει, η κωδικοποίηση πηγής λαμβάνει υπ’ όψη και τις ιδιότητες του σήματος που πρόκειται να συμπιεστεί. Η κωδικοποίηση μετασχηματισμού χρησιμοποιείται συνήθως στη συμπίεση εικόνων. Η βασική της αρχή είναι η εξής:

Στη κωδικοποίηση μετασχηματισμού, το σήμα υφίσταται ένα μαθηματικό μετασχηματισμό από το αρχικό πεδίο του χρόνου ή του χώρου σε ένα αφηρημένο πεδίο το οποίο είναι πιο κατάλληλο για συμπίεση. Αυτή η διαδικασία είναι αντιστρεπτή, δηλαδή υπάρχει ο αντίστροφος μετασχηματισμός που θα επαναφέρει το σήμα στην αρχική του μορφή.

 Ένας τέτοιος μετασχηματισμός είναι ο μετασχηματισμός Fourier. Μέσω του μετασχηματισμού Fourier μια συνάρτηση του χρόνου f(t) μπορεί να μετασχηματιστεί σε μια g(λ) στο πεδίο των συχνοτήτων. Η νέα αυτή συνάρτηση παρέχει το πλάτος (ή συντελεστή) g των συχνοτήτων λ που απαρτίζουν την αρχική συνάρτηση. Στην περίπτωση των εικόνων χρησιμοποιείται μια ειδική μορφή του μετασχηματισμού Fourier, o διακριτός συνημιτονικός μετασχηματισμός Fourier, και το σημαντικό σημείο που εκμεταλλευόμαστε είναι το εξής:

Στη φασματική (στο πεδίο των συχνοτήτων) αναπαράσταση των εικόνων, οι συχνότητες περιγράφουν πόσο γρήγορα μεταβάλλονται τα χρώματα και η απόλυτη φωτεινότητα.

Εκτός από τον μετασχηματισμό Fourier υπάρχουν και άλλοι, όπως οι μετασχηματισμοί των Hadamar, Haar και των Karhunen-Loeve. Ανάλογα με τις ιδιότητες του τύπου της πληροφορίας που θέλουμε να συμπιέσουμε, επιλέγουμε και τον καταλληλότερο μετασχηματισμού.

Σχήμα 3-7. Η βασική αρχή της κωδικοποίησης μετασχηματισμού

Αφού επιλεχθεί και εκτελεστεί ο μετασχηματισμός, βρίσκουμε τους πιο σημαντικούς από τους συντελεστές και τους περιγράφουμε με μεγάλη ακρίβεια. Τους λιγότερο σημαντικούς μπορούμε να τους περιγράψουμε με μικρότερη ακρίβεια ή και να τους αγνοήσουμε τελείως. Κάνοντας κάτι τέτοιο η διαδικασία συμπίεσης έχει απώλειες. Παρ’ όλα αυτά, οι μετασχηματισμοί από μόνοι τους είναι αντιστρεπτοί.

3.2.7    Διαφορική ή προβλεπτική κωδικοποίηση

Η διαφορική κωδικοποίηση αποτελεί τη δεύτερη από τις μεθόδους κωδικοποίησης πηγής που θα περιγράψουμε. Η βασική αρχή της είναι η εξής:

  Μόνο η διαφορά ανάμεσα στην πραγματική τιμή ενός δείγματος και στην προβλεπόμενη τιμή του κωδικοποιείται.

Αυτή η διαφορά ονομάζεται διαφορά πρόβλεψης ή παράγοντας λάθους. Από αυτήν προκύπτει και η εναλλακτική ονομασία αυτής της τεχνικής που είναι προβλεπτική κωδικοποίηση. Η τεχνική αυτή μπορεί να υλοποιηθεί με ποικίλους τρόπους, ανάλογα με την μέθοδο που χρησιμοποιείται για την εκτίμηση των τιμών των δειγμάτων.

Η διαφορική κωδικοποίηση είναι κατάλληλη για σήματα, οι διαδοχικές τιμές των οποίων αναμένεται να διαφέρουν, αλλά όχι πολύ. Κατά συνέπεια, η διαφορική κωδικοποίηση μπορεί να χρησιμοποιηθεί για συμπίεση κινούμενης εικόνας (όπου μόνο οι διαφορές μεταξύ των διαδοχικών πλαισίων μπορούν να αποστέλλονται) ή ήχου.

Διακρίνουμε τρεις μορφές διαφορικής κωδικοποίησης: απλή διαφορική παλμοκωδική διαμόρφωση (differential pulse code modulation-DPCM), δέλτα διαμόρφωση (delta modulation) και προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (adaptive pulse code modulation-ADPCM).

 

3.2.7.1       Απλή διαφορική παλμοκωδική διαμόρφωση

 

Η διαφορική παλμοκωδική διαμόρφωση είναι η πιο απλή από τις τρεις μορφές διαφορικής κωδικοποίησης. Ο μηχανισμός που χρησιμοποιείται για την πρόβλεψη των τιμών των δειγμάτων είναι σταθερός σε όλη τη διάρκεια της κωδικοποίησης. Η προβλεπόμενη τιμή κάθε δείγματος είναι απλά η τιμή του προηγούμενου δείγματος. Δηλαδή για τη χρονική στιγμή t θα κωδικοποιηθεί η διαφορά των δειγμάτων δt-δt-1 όπου ως προβλεπόμενη τιμή έχει χρησιμοποιηθεί η τιμή του δείγματος δt-1 τη χρονική στιγμή t-1.

 

3.2.7.2       Δέλτα διαμόρφωση

 

Η δέλτα διαμόρφωση αποτελεί μια ειδική μορφή της DPCM. Ο μηχανισμός πρόβλεψης είναι ακριβώς ο ίδιος. Η διαφορά έγκειται στον τρόπο κωδικοποίησης των διαφορών:

Στη δέλτα διαμόρφωση, η διαφορά μεταξύ της προβλεπόμενης και της τρέχουσας τιμής του δείγματος κωδικοποιείται με ένα μόνο bit.

Σχήμα 3-8. Τρία είδη διαφορικής κωδικοποίησης

Αυτό σημαίνει ότι κάθε δείγμα μπορεί να είναι είτε μεγαλύτερο είτε μικρότερο κατά ένα κβάντο από το προηγούμενο του. Αυτός ο περιορισμός οδηγεί σε μεγάλη οικονομία αλλά αν το σήμα αλλάζει γρήγορα θα υπάρχει μεγάλη απώλεια πληροφορίας. ’ρα η δέλτα διαμόρφωση είναι κατάλληλη για σήματα χαμηλών συχνοτήτων.

3.2.7.3       Προσαρμοστική διαφορική παλμοκωδική διαμόρφωση

Η προσαρμοστική διαφορική παλμοκωδική διαμόρφωση (ADPCM) είναι μια πιο σύνθετη μορφή DPCM.

Στην ADPCM, αντί να χρησιμοποιείται ένας σταθερός μηχανισμός πρόβλεψης, χρημοποιείται ένας δυναμικός μηχανισμός που προσαρμόζεται ανάλογα με τα χαρακτηριστικά του προς δειγματοληψία σήματος.

Κατά τα άλλα, όπως και στην απλή DPCM, μόνο η διαφορά μεταξύ της πραγματικής και της προβλεπόμενης τιμής κάθε δείγματος μεταδίδεται.

 

3.2.8    Διανυσματική κβαντοποίηση

Η διανυσματική κβαντοποίηση αποτελεί ίσως την πιο ελπιδοφόρα τεχνική κωδικοποίησης πηγής. Αποτελεί μια ειδική περίπτωση της μεθόδου αντικατάστασης προτύπων που περιγράψαμε παραπάνω. Τα βασικά χαρακτηριστικά λειτουργίας της είναι τα ακόλουθα:

·       Το ρεύμα δεδομένων χωρίζεται σε τμήματα που ονομάζονται διανύσματα. Για παράδειγμα, αν τα δεδομένα μας αποτελούν μια εικόνα, κάθε διάνυσμα μπορεί να είναι ένα τετράγωνο ή παραλληλόγραμμο τμήμα της εικόνας. Υποθέτουμε ότι όλα τα διανύσματα έχουν το ίδιο μικρό μέγεθος και ότι αποτελούνται από v οκτάδες.

·       Υπάρχει ένας πίνακας που περιέχει ένα σύνολο από πρότυπα διανύσματα. Αυτός ο πίνακας αποτελεί το λεξικό της μεθόδου και πρέπει να είναι διαθέσιμο τόσο κατά την συμπίεση, όσο και την αποσυμπίεση των δεδομένων. Το λεξικό μπορεί να είναι προκαθορισμένο, δηλαδή το ίδιο σε όλες τις διαδικασίες συμπίεσης ή δυναμικό. Στην τελευταία περίπτωση, κάθε φορά που ξεκινά η συμπίεση των δεδομένων, ένα νέο λεξικό δημιουργείται.

·       Η συμπίεση έγκειται στην αντικατάσταση κάθε διανύσματος της αρχικής πληροφορίας με το πιο ταιριαστό από τα πρότυπα του λεξικού. Κάνοντας χρήση του λεξικού, αντί για ολόκληρα τα πρότυπα, μόνο η ετικέτα τους ή ο αύξων αριθμός τους στο λεξικό είναι απαραίτητο να αποθηκευτεί.

’ρα η βασική αρχή αυτής της μεθόδου είναι: 

Τα δεδομένα χωρίζονται σε διανύσματα. Αντί να μεταδίδεται η πραγματική πληροφορία, μεταδίδεται η ετικέτα των πιο ταιριαστών προτύπων μέσα από ένα λεξικό.

Η δυσκολία της μεθόδου επικεντρώνεται στη δημιουργία ενός λεξικού που περιέχει πρότυπα που μοιάζουν  όσον το δυνατόν περισσότερο με τα εμφανιζόμενα διανύσματα. Αν κάτι τέτοιο δεν συμβαίνει, θα έχουμε μεγάλη παραμόρφωση των δεδομένων. Πάντως, στη γενική περίπτωση, αναμένεται κάποια, έστω μικρή, απόκλιση από τα αρχικά δεδομένα..

Σχήμα 3-9. Η βασική αρχή της διανυσματικής κβαντοποίησης

Για να επιλυθεί το πρόβλημα της ύπαρξης διανυσμάτων που διαφέρουν σημαντικά από όλα τα πρότυπα του λεξικού, υπολογίζεται η διαφορά μεταξύ αυτών των διανυσμάτων και των αντίστοιχων πιο ταιριαστών προτύπων. Αυτή η διαφορά μεταδίδεται μαζί με την ετικέτα του πιο ταιριαστού προτύπου, οπότε μπορεί να συντεθεί μια ικανοποιητική προσέγγιση των προβληματικών διανυσμάτων. Η ποιότητα της προσέγγισης αυτής μπορεί να είναι όσο καλή θέλουμε και εξαρτάται από τον τρόπο υπολογισμού και μετάδοσης της διαφοράς.  Δηλαδή η διανυσματική κβαντοποίηση ανήκει είτε στις μεθόδους συμπίεσης με απώλειες είτε στις μεθόδους χωρίς απώλειες.

Σχήμα 3-10. Η βασική αρχή της διανυσματική κβαντοποίησης με μετάδοση όρου λάθους

Η διανυσματική κβαντοποίηση είναι πολύ αποτελεσματική για την κωδικοποίηση τύπων πληροφορίας, των οποίων τα χαρακτηριστικά είναι γνωστά και άρα μπορούν να κατασκευαστούν για αυτά ικανοποιητικά λεξικά. Ο λόγος είναι ένα είδος πληροφορίας που έχει αυτήν την ιδιότητα.

3.2.9    Συμπίεση με fractals

Θα ολοκληρώσουμε την παρουσίαση των βασικών τεχνικών συμπίεσης με λίγα λόγια για μια πιο νέα τεχνική συμπίεσης, την συμπίεση με χρήση fractals.

Η γεωμετρία των fractals θεμελιώθηκε από τον B. Mandelbrot. Ο B. Mandelbrot παρατήρησε ότι η κλασσική γεωμετρία που μελετούσε απλά σχήματα με βάση της γραμμές και τους κύκλους, δεν μοιάζει με την γεωμετρία που συναντάται στη φύση. Στη φύση, τα περισσότερα σχήματα είναι εξαιρετικά σύνθετα αλλά προκύπτουν από την επανάληψη σε διαφορετικές κλίμακες και γωνίες του ιδίου βασικού σχήματος. Αυτού του είδους οι γεωμετρικοί σχηματισμοί ονομάζονται fractals. Οι διαφορετικές μορφές που μπορεί να πάρει ένα fractal περιγράφονται με μαθηματικούς τύπους που ονομάζονται, μετασχηματισμοί fractal (fractal transformations).

Οι πρώτες χρήσεις των fractals ήταν στη δημιουργία εικόνων. Τα τελευταία χρόνια μελετώνται και τρόποι εφαρμογής αυτής της θεωρίας για την συμπίεση εικόνων. Η βασική αρχή αυτών των μεθόδων είναι η εξής:

Η εικόνα χωρίζεται σε μικρά τμήματα. Στη συνέχεια, αναζητούνται περιοχές της εικόνας που μπορούν να προκύψουν, με ικανοποιητική ακρίβεια, με μετασχηματισμό fractal κάποιου τμήματος. Αυτή η διαδικασία επαναλαμβάνεται για όλα τα τμήματα της εικόνας. Στόχος είναι να περιγραφεί αυτή η εικόνα με ένα σύνολο τέτοιων μετασχηματισμών των μικρών τμημάτων που θα καταλαμβάνουν πολύ λιγότερο χώρο από την αρχική εικόνα.

Μπορούμε να παρατηρήσουμε κάποια ομοιότητα με την μέθοδο της διανυσματικής κβαντοποίησης. Το σύνολο των μαθηματικών μετασχηματισμών παίζει το ρόλο ενός εικονικού λεξικού (virtual code-book), που εξαρτάται άμεσα από την εικόνα που συμπιέζεται και πρέπει να μεταδίδεται ολόκληρο από τη διαδικασία συμπίεσης σε αυτήν της αποσυμπίεσης. Χαρακτηρίζεται εικονικό, γιατί προκύπτει με βάση τους μετασχηματισμούς fractal κατά το στάδιο της αποσυμπίεσης.

Αν και ακόμα δεν έχει ωριμάσει αυτή η τεχνική, οι ειδικοί ευελπιστούν ότι μπορεί να επιτύχει λόγους συμπίεσης της τάξης 1000:1. Περά όμως από την νεότητα, η τεχνική αυτή έχει ένα ακόμα μειονέκτημα. Η διαδικασία συμπίεσης είναι εξαιρετικά επίπονη και απαιτεί άφθονη υπολογιστική ισχύ. Αντίθετα, η αποσυμπίεση δεν έχει τέτοιες δυσκολίες.

3.2.10                        Συμμετρία των τεχνικών συμπίεσης

Η fractal συμπίεση και γενικότερα η διανυσματική κβαντοποίηση, είναι χαρακτηριστικές περιπτώσεις ασύμμετρων τεχνικών συμπίεσης. Η ασυμμετρία αυτή αναφέρεται στη διαφορά πολυπλοκότητας και ταχύτητας μεταξύ των διαδικασιών συμπίεσης και αποσυμπίεσης.

Η ασυμμετρία αποτελεί ένα μείζον πρόβλημα εφαρμογή των τεχνικών συμπίεσης στην τεχνολογία των πολυμέσων γιατί δυσχεραίνει την υλοποίηση ορισμένων εφαρμογών. Για παράδειγμα, η μετάδοση σε πραγματικό χρόνο ήχου και βίντεο δεν επιτρέπει μεγάλες χρονικές καθυστερήσεις. Επιπλέον, πολλές interactive εφαρμογές δεν αντέχουν μεγάλες καθυστερήσεις συμπίεσης. Κατά συνέπεια, εφαρμογές όπως η τηλεδιάσκεψη, αναγκαστικά υλοποιούνται με μικρότερα ποσοστά συμπίεσης.

Οι μεγάλοι λόγοι συμπίεσης που επιτυγχάνουν οι ασύμμετρες τεχνικές, τις κάνουν ιδανικές για εφαρμογές όπου η πληροφορία συμπιέζεται μια φορά κατά την αποθήκευση της και στην συνέχεια ζητείται μονάχα η προβολή της. Για παράδειγμα, τέτοιες εφαρμογές είναι οι εκπαιδευτικοί τίτλοι που κυκλοφορούν σε CD-ROM.



4. Κείμενο, Εικόνα, Ήχος, Video

Σύμφωνα με τον ορισμό των πολυμέσων, το κύριο χαρακτηριστικό τους είναι η ολοκλήρωση πολλών τύπων πληροφορίας σε μία εφαρμογή. Ποιοι είναι όμως αυτοί οι τύποι πληροφορίας; Πως και με ποια μορφή χρησιμοποιούνται στις εφαρμογές πολυμέσων; Αυτά τα ερωτήματα θα μας απασχολήσουν σε αυτό το κεφάλαιο.

4.1    Κείμενο

Το κείμενο (text) ήταν ο πρώτος τρόπος απεικόνισης της πληροφορίας σε υπολογιστή και παραμένει μέχρι σήμερα ο κυρίαρχος. Η αδυναμία των αρχικών υπολογιστών να χειριστούν αποτελεσματικά ήχο, εικόνες και video όχι μόνο καθιέρωσε το απλό κείμενο σαν το αποκλειστικό μέσο επικοινωνίας ανθρώπου-υπολογιστή, αλλά είχε και κάποιες  παρενέργειες που γίνονται σήμερα ορατές σε πολλές εφαρμογές πολυμέσων. Για παράδειγμα, το πρότυπο ASCII περιορίζει σημαντικά τη δημιουργία πολυγλωσσικών εφαρμογών, με αποτέλεσμα πολλά συστήματα πολυμέσων να χρησιμοποιούν όχι προτυποποιημένες και πλήρεις λύσεις. ’σχετα με τα όποια προβλήματα παρουσιάζονται σήμερα, είναι φανερό, αλλά και αναμενόμενο αν αναλογιστούμε τη σπουδαιότητα της γραφής στην εξέλιξη των πολιτισμών, ότι το κείμενο αποτελεί βασικό φορέα πληροφορίας  που δεν πρέπει να παραμελείται σε μια εφαρμογή πολυμέσων. Το ζητούμενο δεν είναι η εξάλειψη του κειμένου, αλλά η αποτελεσματική ολοκλήρωση του με τα άλλα είδη πληροφορίας.

4.1.1    Αναπαράσταση κειμένου

Στο παρελθόν, οι δύο βασικές χρήσεις του κειμένου ήταν η συγγραφή των προγραμμάτων υπολογιστή και η εισαγωγή δεδομένων σε αυτά. Και οι δυο λειτουργίες απαιτούσαν ένα περιορισμένο σύνολο χαρακτήρων. Με την πάροδο του χρόνου και την εξέλιξη της τεχνολογίας νέες εφαρμογές προστέθηκαν στο ρεπερτόριο των υπολογιστών και νέοι τρόποι αλληλεπίδρασης με τον υπολογιστή εφευρέθηκαν. Αυτή η πορεία δημιούργησε ποικίλους τρόπους αναπαράστασης του κειμένου: από απλές κωδικοποιήσεις χαρακτήρων μέχρι λεπτομερείς γλώσσες  περιγραφής σελίδας.

4.1.1.1       ASCII (American Standard Code for Information Interchange)

Είναι η πιο απλή αλλά και πιο διαδεδομένη μέθοδος αναπαράστασης κειμένου στους υπολογιστές. Αναπτύχθηκε από τον Αμερικάνικο Οργανισμό Προτυποποίησης και είναι μια απλή κωδικοποίηση χαρακτήρων των 7-bits. Σαν συνέπεια, οι χαρακτήρες που περιλαμβάνει είναι το λατινικό αλφάβητο και κάποια ειδικά σύμβολα. Είναι προφανές ότι δεν υπάρχει πρόνοια για την υποστήριξη άλλων γλωσσών. Κάθε κωδική λέξη ASCII, αν και μήκους 7-bits, συνήθως αποθηκεύεται σε ένα byte. Οι πλεονάζοντες 128 χαρακτήρες χρησιμοποιούνται για την αναπαράσταση όχι-ASCII χαρακτήρων. Αυτοί οι χαρακτήρες μπορεί να είναι κάποια ειδικά σύμβολα ή χαρακτήρες  άλλων αλφάβητων. Δυστυχώς, ο καθορισμός του περιεχομένου αυτών των θέσεων δεν έχει προτυποποιηθεί, γεγονός που οδηγεί σε πληθώρα ασυμβατοτήτων μεταξύ εφαρμογών ακόμα και της ίδιας χώρας προέλευσης.

4.1.1.2       Κωδικοσελίδες (character sets) του ISO

Τα πρότυπα του ISO (International Organisation for Standardization) έχουν ως στόχο την αδυναμία του ASCII να υποστηρίξει άλλες γλώσσες πλην της αγγλικής. Για παράδειγμα, το πρότυπο ‘ISO Latin’ (ISO 1987b) είναι ένα υπερσύνολο του προτύπου ASCII το οποίο παρέχει κωδικοποίηση για τις περισσότερες ευρωπαϊκές γλώσσες. Υπάρχουν πρότυπα και για γλώσσες με μη-λατινικό αλφάβητο που αναπτύσσονται σε συνεργασία του ISO με εθνικούς οργανισμούς προτυποποίησης. Οι κωδικοποιήσεις του ISO αρχίζουν να διαδίδονται ευρέως και χρησιμοποιούνται, για παράδειγμα, στο X Windows System, στο PostScript και σε διεθνείς εκδόσεις αρκετών πακέτων λογισμικού.

4.1.1.3       Mark-up κείμενο

Το τυπωμένο κείμενο μπορεί να θεωρηθεί ότι μεταφέρει δύο είδη πληροφοριών: τη μορφή του κειμένου πάνω στη σελίδα και το νοηματικό του περιεχόμενο. Οι απλές κωδικοποιήσεις που είδαμε παραπάνω είναι αρκετές για την μετάδοση του νοηματικού περιεχόμενου (τουλάχιστον στις πιο διαδεδομένες γλώσσες), αλλά δεν καθορίζουν τον τρόπο παρουσίασης του κειμένου.

Μια λύση στο παραπάνω πρόβλημα είναι η μίξη του κανονικού κειμένου με οδηγίες παρουσίασης (tags). Το κείμενο που προκύπτει ονομάζεται markup. Για παράδειγμα, στο σύστημα troff που συναντάται στη πλατφόρμα UNIX:

.ce

Aυτή είναι μια γραμμή

σημαίνει ότι η πρόταση ‘Αυτή είναι μια γραμμή’ πρέπει να κεντραριστεί στη σελίδα. Η μέθοδος αυτή μπορεί να χρησιμοποιηθεί για τη δημιουργία κειμένων με πολύπλοκη μορφή, όπως επιστημονικά κείμενα με πίνακες, εξισώσεις και ειδικά σύμβολα.

H SGML (Standardised General Markup Language) είναι ένα παράδειγμα τέτοιας γλώσσας, που αποτελεί μάλιστα και πρότυπο του ΙSO. Σε συστήματα UNIX χρησιμοποιείται πολύ συχνά και η γλώσσα TEX η χρήση της οποίας διευκολύνεται από το σύστημα LATEX.

4.1.1.4       Δομημένο κείμενο

Όταν χρησιμοποιείται μια markup γλώσσα, η δομική πληροφορία του κειμένου γίνεται δυσδιάκριτη. Υπάρχουν απεικονίσεις που διευκολύνουν την επεξεργασία ενός κειμένου χρησιμοποιώντας κατάλληλες για την αναπαράσταση της δομής του κειμένου δομές δεδομένων. Για παράδειγμα, το κείμενο μπορεί να θεωρηθεί ότι χωρίζεται σε μέρη, τα μέρη σε κεφάλαια, τα κεφάλαια σε παραγράφους κ.ο.κ. και να χρησιμοποιηθεί μια δενδρική δομή αναπαράστασης. Παρόλο που υπάρχουν κάποια πρότυπα, κάθε πακέτο που κάνει χρήση δομημένου κειμένου χρησιμοποιεί το δικό του τρόπο αναπαράστασης.

4.1.1.5       Hypertext

Το παραδοσιακό κείμενο έχει μια στοιχειώδη ιεραρχική δομή (μέρη, κεφάλαια, παραγράφους), αλλά παραμένει βασικά γραμμικό με την έννοια ότι συνήθως διαβάζεται σειριακά από την αρχή προς το τέλος και τα άλματα σε σημεία ειδικού ενδιαφέροντος είναι δύσκολα. Το hypertext καταργεί αυτή τη γραμμικότητα, διαμερίζοντας το κείμενο σε κόμβους (nodes) που συνδέονται μεταξύ τους σχηματίζοντας ένα γράφο. Ένας κόμβος μπορεί να είναι μια υπεξήγηση, υποσημείωση ή ακόμα και κάποιο άλλο σχετικό κείμενο. Με τη χρήση ενός ειδικού προγράμματος παρουσίασης υπερκειμένου (hypertext browser), ο αναγνώστης μπορεί να ακολουθεί τους συνδέσμους του γράφου ανάλογα με τα ενδιαφέροντα και τις απορίες που έχει.

Η δυσκολία με το hypertext είναι ο τρόπος αναπαράστασης και χειρισμού των συνδέσμων. Βρίσκει κανείς συνδέσμους μιας η διπλής κατεύθυνσης, συνδέσμους που οδηγούν σε άλλους κόμβους ή τμήματα του ίδιου κόμβου ακόμα και συνδέσμους που δεν οδηγούν σε κείμενο αλλά σε κάποια εικόνα, ήχο ή video.

Ευρύτατη διάδοση γνωρίζει σήμερα η HTML (Hypertext Markup Language) η οποία, όπως υποδηλώνει το όνομα της, αποτελεί μια markup γλώσσα για τη περιγραφή hypertext κειμένων. Η γλώσσα αυτή χρησιμοποιείται στο WWW (World Wide Web), μια δικτυακή εφαρμογή που θα περιγράψουμε με λεπτομέρεια σε επόμενο κεφάλαιο.

4.1.2    Χειρισμός Κειμένου

Λίγο ή πολύ όλοι όσοι χρησιμοποιούν υπολογιστή έχουν βρεθεί στην ανάγκη να χειριστούν κείμενο. Οι πράξεις που σχετίζονται με το κείμενο ποικίλουν από πολύ απλές πράξεις μεταξύ χαρακτήρων μέχρι πολύπλοκους αλγόριθμους κρυπτογράφησης. Ας δούμε πιο αναλυτικά τις πράξεις πάνω σε κείμενο που μας ενδιαφέρουν.

4.1.2.1       Πράξεις χαρακτήρων

Πρόκειται για τις πιο απλές και δομικές πράξεις που έχουν ως ορίσματα απλούς χαρακτήρες. Στην πράξη, ένας απλός χρήστης δεν έχει συχνά την ανάγκη τέτοιων πράξεων. Είναι όμως απαραίτητες για έναν προγραμματιστή που υλοποιεί συνθετότερες πράξεις για τις ανάγκες κάποιου προγράμματος.

4.1.2.2       Πράξεις συμβολοσειρών

Το αμέσως επόμενο επίπεδο πράξεων έχει ως ορίσματα ακολουθίες χαρακτήρων δηλαδή συμβολοσειρών. Τέτοιες πράξεις είναι η λεξικογραφική σύγκριση, η συνένωση, αναζήτηση χαρακτήρων κλπ. Και αυτές οι πράξεις προσφέρονται από όλες τις γλώσσες προγραμματισμού όπου και γίνεται η μεγαλύτερη χρήση τους.

4.1.2.3       Επεξεργασία (Editing) κειμένου

Η συγγραφή ενός κειμένου σε υπολογιστή προϋποθέτει ένα πρόγραμμα που να επιτρέπει την εισαγωγή και διαγραφή χαρακτήρων καθώς και την αποθήκευση του κειμένου σε μορφή αρχείου υπολογιστή. Τέτοια προγράμματα είναι πολύ κοινά και υπάρχουν σε όλες τις υπολογιστικές πλατφόρμες. Πολλοί editors κειμένου έχουν περισσότερες δυνατότητες: επιτρέπουν επιλογή και κατόπιν αποκοπή ή αντιγραφή και επικόλληση (selection, cut/copy, paste) τμημάτων κειμένου, αναγνωρίζουν και δημιουργούν αυτόματα κάποια στοιχεία της δομής του κειμένου όπως παραγράφους, αριθμημένες λίστες κλπ.

4.1.2.4       Φορμάρισμα κειμένου

Φορμάρισμα ονομάζεται η διαδικασία επιβολής κάποιων χαρακτηριστικών εμφάνισης στο κείμενο. Σήμερα, το φορμάρισμα γίνεται σχεδόν αποκλειστικά με τη χρήση interactive εφαρμογών στις οποίες κάθε αλλαγή στο φορμάρισμα εμφανίζεται στην οθόνη ακριβώς όπως θα τυπωθεί στον εκτυπωτή. Αυτό το μοντέλο ονομάζεται WYSIWYG (What You See is What You Get). Αυτά τα προγράμματα ονομάζονται επεξεργαστές κειμένου (word processors) και εκτός από τις λειτουργίες φορμαρίσματος προσφέρουν και όλες τις λειτουργίες ενός editor. Επιπλέον, δίνουν την δυνατότητα μίξης του κειμένου με εικόνες, διαγράμματα ακόμα και ήχους ή άλλα μη εκτυπώσιμα αντικείμενα, δημιουργώντας έτσι ένα νέο είδος κειμένου: το ηλεκτρονικό πολυμεσικό κείμενο (multimedia document).

H έξοδος ενός προγράμματος φορμαρίσματος κειμένου μπορεί να είναι μια bitmap εικόνα του φορμαρισμένου κειμένου ή η περιγραφή του σε μια λεπτομερή γλώσσα περιγραφής σελίδας (Page Description Language). Η πιο διαδεδομένη γλώσσα περιγραφής σελίδας είναι η PostScript  (Adobe Systems Inc.) που χρησιμοποιείται ευρέως από εκτυπωτές laser και άλλες μονάδες εξόδου υψηλής ανάλυσης.

Το πιο βασικό στοιχείο φορμαρίσματος ενός κειμένου είναι η επιλογή των γραμματοσειρών  (fonts). Μια γραμματοσειρά ανήκει σε μια οικογένεια γραμματοσειρών (typeface), δηλαδή σε ένα σύνολο γραμματοσειρών με καθορισμένο στυλ εμφάνισης για κάθε χαρακτήρα. Διαφέρει από τις άλλες γραμματοσειρές της οικογένειας σε ένα από τα παρακάτω στοιχεία:

·       το μέγεθος, το οποίο μετριέται σε στιγμές  (points=1/72 inches)

·       οι χαρακτήρες είναι έντονοι ή όχι (bold)

·       οι χαρακτήρες είναι πλάγιοι ή όχι

·       οι χαρακτήρες είναι υπογραμμισμένοι ή όχι

·       συνδυασμός των παραπάνω

Οι γραμματοσειρές χωρίζονται σε δυο βασικές κατηγορίες:

·       Χαρτογραφικές (bitmap fonts): οι πρώτες γραμματοσειρές είχαν αυτή τη μορφή. Αν και η επεξεργασία και εκτύπωση αυτών είναι γρήγορη, χάνουν σε ανεξαρτησία από τη μονάδα εξόδου, απαιτήσεις χώρου αποθήκευσης και ποιότητα μετά από κάποιο μετασχηματισμό (όπως μεγέθυνση ή περιστροφή).

·       Διανυσματικές: η περιγραφή αυτών των γραμματοσειρών γίνεται με μαθηματικό τρόπο, γεγονός που διορθώνει τα ελαττώματα των χαρτογραφικών γραμματοσειρών αλλά αυξάνει το χρόνο εκτύπωσης. Αυτή τη λογική ακολουθούν οι τύποι γραμματοσειρών PostScript Type 1 και TrueType που χρησιμοποιούνται στη γλώσσα PostScript και στην πλατφόρμα MS Windows αντίστοιχα.

4.1.2.5       Αναζήτηση

Τα περισσότερα προγράμματα επεξεργασίας κειμένου προσφέρουν λειτουργίες αναζήτησης προτύπων. Τα πρότυπα αυτά μπορεί να είναι απλές λέξεις  ή λέξεις που περιέχουν χαρακτήρες ειδικής σημασίας (wild cards). Τέτοια πρότυπα περιγράφονται συνήθως με τη χρήση κανονικών μορφών (regular expressions).

Ιδιαίτερο ενδιαφέρον παρουσιάζει η αναζήτηση σε μεγάλους όγκους κειμένου. Σε αυτές τις περιπτώσεις δεν ενδιαφέρει η ανεύρεση κάποιων προτύπων, αλλά κειμένων που αναφέρονται σε κάποιο συγκεκριμένο θέμα. Αυτά τα θέματα ερευνούνται από την Επιστήμη της Πληροφορίας (Information Science).

4.1.2.6       Συμπίεση

Η συμπίεση κειμένων δεν είναι τόσο μεγάλης σημασίας σε σχέση με την περίπτωση της εικόνας και του ήχου. Σε ειδικές ,περιπτώσεις όπου γίνεται αναγκαία η συμπίεση, εφαρμόζονται οι τεχνικές αντικατάστασης προτύπων και η κωδικοποίηση Huffman. (Bell et al. 1989)

4.1.2.7       Κρυπτογράφηση

Μεγάλο ενδιαφέρον έχει παρουσιαστεί τελευταία για την κρυπτογράφηση, κυρίως λόγω της μεγάλης διάδοσης των δικτύων και την γενίκευση της χρήσης του ηλεκτρονικού ταχυδρομείου και την εισχώρηση εμπορικών εφαρμογών στο WWW. 

Μια διαδεδομένη μέθοδος κρυπτογράφησης είναι η DES (Data Encryption Standard) που αναπτύχθηκε από την IBM για την αμερικάνικη κυβέρνηση. Πολύ συχνά (και με καλύτερα αποτελέσματα) χρησιμοποιούνται οι αλγόριθμοι με δημόσιο κλειδί (public key). Η ιδέα στην οποία στηρίζονται αυτοί οι αλγόριθμοί είναι η εξής:

Η διαδικασία κρυπτογράφησης μπορεί πολύ εύκολα να βρεθεί με δεδομένο ένα δημόσιο κλειδί το οποίο γνωστοποιεί ο παραλήπτης στους αποστολείς. Αντίθετα, η αποκρυπτογράφηση δεν μπορεί να γίνει μόνο με το δημόσιο κλειδί, αλλά απαιτείται και το ιδιωτικό κλειδί (private key) το οποίο γνωρίζει μόνο ο παραλήπτης.

4.2    Εικόνα

4.2.1    Εικόνες και Εφαρμογές

Η  εικόνα έχει γίνει απαραίτητο στοιχείο κάθε σύγχρονης εφαρμογής. Ακόμα και σε περιπτώσεις όπου η εικόνα δεν αποτελεί αντικείμενο της εφαρμογής, οι απαιτήσεις για απλά και κατανοητά interfaces εισάγουν αναπόφευκτα την εικόνα. Υπάρχουν διάφορα είδη εικόνας, κάθε ένα εκ των οποίων είναι κατάλληλο για ορισμένα είδη εφαρμογών.

 Το πιο απλό, σε σχέση με την πολυπλοκότητα της απεικόνισης του στον υπολογιστή, είναι οι διτονικές (bitonal) εικόνες. Χαρακτηριστικό αυτής της κατηγορίας είναι η ύπαρξη μόνο δύο χρωμάτων (μαύρο και άσπρο συνήθως). Οι διτονικές εικόνες βρίσκουν εφαρμογή σε προγράμματα οργάνωσης επιχειρήσεων και οργανισμών όπου παρουσιάζεται η ανάγκη αρχειοθέτησης εγγράφων, αποδείξεων, επιταγών κ.λ.π. Αυτές οι εικόνες προέρχονται από scanning των εγγραφών και αποθηκεύονται σε ειδικού σκοπού συστήματα διαχείρισης βάσεων δεδομένων. ’λλες περιπτώσεις όπου παρουσιάζονται συχνά διτονικές εικόνες είναι τα τεχνικά σχέδια, τα διαγράμματα, οι χάρτες κ.λ.π.

Στο επόμενο επίπεδο έχουμε τις εικόνες συνεχούς τόνου (continuous tone images). Αυτές ορίζονται, σε αντίθεση με της διτονικές, ως οι εικόνες στις οποίες τα γειτονικά σημεία δεν διαφέρουν σημαντικά μεταξύ τους δηλαδή χαρακτηρίζονται από ομαλές τονικές διαβαθμίσεις. Υπάρχουν δύο είδη εικόνων συνεχούς τόνου: κλίμακας του γκρίζου (gray scale) και έγχρωμες (colour). Το πρώτο είδος βρίσκει παρόμοιες εφαρμογές με τις διτονικές. Η διαφορά είναι ότι τα έγγραφα μπορούν τώρα να έχουν και εικόνες οι οποίες αποδίδονται με διαβαθμίσεις του γκρίζου. Για παράδειγμα, ιατρικές φωτογραφίες αποτέλεσμα ακτινογραφιών ή υπερηχογραφημάτων μπορούν να αποδοθούν ικανοποιητικά από εικόνες κλίμακας του γκρίζου. Οι έγχρωμες εικόνες, όπως είναι φυσικό, βρίσκουν τη μεγαλύτερη χρήση και έχουν το μεγαλύτερο ενδιαφέρον. Χρησιμοποιούνται τόσο σε επαγγελματικές όσο και σε εκπαιδευτικές και ψυχαγωγικές εφαρμογές.

Αναμφισβήτητα, οι χρήση εικόνας βελτιώνει της υπάρχουσες εφαρμογές. Σε συνδυασμό όμως και με άλλες τεχνολογίες, όπως η αναγνώριση προτύπων και τα έμπειρα συστήματα, ανοίγουν το δρόμο για εντελώς νέες εφαρμογές. Ένα παράδειγμα είναι η αυτόματη  ταυτοποίηση ατόμων με βάση τα δακτυλικά αποτυπώματα ή κάποια φωτογραφία, εφαρμογή που είναι χρήσιμη σε συστήματα ασφαλείας.

4.2.2    Σύλληψη Εικόνων

Η σύλληψη των εικόνων γίνεται συνήθως με χρήση scanner. Ένας scanner αποτελείται από μια πηγή φωτός, ένα χώρο τοποθέτηση του εγγράφου και έναν ανιχνευτή φωτός. Το φως που εκπέμπει η πηγή διαπερνά το έγγραφο και φτάνει στο δέκτη. Ανάλογα με την αλλοίωση που έχει υποστεί το φως, δημιουργείται ένα ηλεκτρικό σήμα που βρίσκεται σε  αντιστοιχία με την μορφή της εικόνας. Στο τέλος, το ηλεκτρικό αυτό σήμα ψηφιοποείται. Το αποτέλεσμα είναι ένας πίνακας εικονοστοιχείων (pixels). Το μέγεθος του πίνακα εξαρτάται από το είδος της εικόνας:

·       Για διτονικές εικόνες αρκεί ένα bit για κάθε στοιχείο του πίνακα (ένα pixel είναι είτε άσπρο είτε μαύρο).

·       Αν μια εικόνα κλίμακας του γκρίζου έχει n διαβαθμίσεις, το μέγεθος του κάθε στοιχείου θα είναι (2n-1)bits.

·       Οι έγχρωμες εικόνες συντίθεται από μια τριάδα βασικών χρωμάτων, άρα απαιτούνται (3*(2n-1))bits για εικόνα με n χρώματα.

Επιπλέον, το μέγεθος του πίνακα εξαρτάται και από την πυκνότητα (density) που ορίζεται ως ο αριθμός των εικονοστοιχείων ανά ίντσα προς μια κατεύθυνση. Αυτό το μέγεθος ονομάζεται και ανάλυση (resolution) και μετριέται σε dpi (dots per inch). Η ανάλυση που επιλέγεται κατά την σύλληψη σχετίζεται άμεσα από την μονάδα εξόδου που θα χρησιμοποιηθεί και συνήθως είναι λίγο μεγαλύτερη αυτής ώστε να εξοικονομείται χώρος χωρίς να αλλοιώνεται η ποιότητα. Τυπικές τιμές είναι 70dpi για τις οθόνες, 600dpi για τους εκτυπωτές laser και 1000dpi για offset printing.

Εκτός από scanners, στη σύλληψη εικόνων υψηλής ανάλυσης (2,200*1,700) χρησιμοποιούνται και κάμερες. Ένας άλλος τρόπος σύλληψης είναι από video με χρήση ψηφιοποιητή (video digitiser) ή ενός frame grabber.

4.2.3    Συμπίεση

Έχουμε ήδη συζητήσει την αναγκαιότητα συμπίεσης των εικόνων. Παρακάτω, παραθέτουμε ένα ακόμα παράδειγμα που αφορά τη σύλληψη μιας σελίδας A4 με διάφορους τρόπους και αναλύσεις. Το παράδειγμα αυτό δείχνει τόσο την επίδραση που έχει το είδος και η ανάλυση της εικόνας στο μέγεθος της όσο και το μεγάλο μέγεθος που απαιτεί η ψηφιοποίηση εικόνων.

Ανάλυση

(dpi)

Διτονική

(ΜΒ)

Κλίμακας του Γκρίζου με

4-6 bits/pixel

(ΜΒ)

Έγχρωμη με

32-128 bits/pixel

(ΜΒ)

200

0.48

1.9-7.7

15-61

300

1.09

4.4-17.4

35-140

400

1.93

7.7-30.9

62-247

Πίνακας 4-1. Απαιτήσεις αποθηκευτικού χώρου για σελίδα Α4 χωρίς συμπίεση

Στην ειδική περίπτωση εικόνων που προέρχονται από τη σύλληψη εγγράφων, μπορεί να μειωθεί το μέγεθος της εικόνας χωρίς συμπίεση. Αυτό επιτυγχάνεται αν μετατραπεί το κείμενο σε κώδικα ASCII. Αυτή η μετατροπή προϋποθέτει τεχνικές OCR και παρουσιάζει επιπλέον το πλεονέκτημα ότι το κείμενο που εξάγεται μπορεί να υποστεί περαιτέρω επεξεργασία. Σε αντιστοιχία με το κείμενο, εικόνες που περιέχουν γραμμικά σχέδια μπορούν να παρασταθούν πιο αποτελεσματικά διανυσματοποιώντας τα γραφικά αντικείμενα που υπάρχουν σε αυτή. Αυτό σημαίνει αναπαράσταση των γεωμετρικών σχημάτων της εικόνας με μαθηματικές εκφράσεις. Εικόνες που περιέχουν απλά σχήματα μπορούν να παρασταθούν πολύ αποτελεσματικά με αυτή τη μέθοδο (μέχρι και 200:1 βελτίωση). Δεν συμβαίνει όμως το ίδιο για πολύπλοκες εικόνες.

Όταν οι εικόνες δεν έχουν κάποιο από τα παραπάνω χαρακτηριστικά, καταφεύγουμε αναγκαστικά σε τεχνικές συμπίεσης. Οι τεχνικές που εφαρμόζονται για την συμπίεση εικόνων είναι: η κωδικοποίηση εντροπίας (π.χ. περιορισμός των επαναλαμβανόμενων χαρακτήρων), η κωδικοποίηση μετασχηματισμού (συνήθως εφαρμόζεται ο διακριτός συνημιτονικός μετασχηματισμός Fourier) και η διανυσματική κβαντοποίηση. Συνήθως αυτές οι τεχνικές δεν εφαρμόζονται ανεξάρτητα αλλά σε συνδυασμό.

4.2.3.1  Το πρότυπο JPEG

Το JPEG είναι ένα πρότυπο του ISO το οποίο σχεδιάστηκε από την ομάδα Joint Photographic Expert Group σε συνεργασία με την Διεθνή Ένωση Τηλεπικοινωνιών (International Telecommunication Union, ITU-TS). Πρόκειται ίσως για το σημαντικότερο και πιο αποτελεσματικό πρότυπο συμπίεσης εικόνας, το οποίο κερδίζει συνεχώς έδαφος στις εφαρμογές πολυμέσων σε όλες τις πλατφόρμες. Γι’ αυτόν τον λόγο, θα σταθούμε στις γενικές αρχές του λίγο παραπάνω. Με δυο λόγια θα μπορούσαμε να περιγράψουμε το JPEG ως εξής:

To JPEG είναι ένα πρότυπο συμπίεσης εικόνων συνεχούς τόνου, είτε έγχρωμων είτε κλίμακας του γκρίζου. Χρησιμοποιεί ένα συνδυασμό τεχνικών διακριτού συνημιτονικού μετασχηματισμού Fourier, κβαντοποίησης, περιορισμού των επαναλαμβανόμενων χαρακτήρων και κωδικοποίησης Huffman και υποστηρίζει διάφορους τρόπους λειτουργίας. Μπορεί να έχει απώλειες με διάφορους συνδυασμούς λόγου συμπίεσης-ποιότητας ή και να λειτουργεί  χωρίς απώλειες.

Το JPEG έχει τέσσερις ρυθμούς λειτουργίας:

·       Διαδοχική κωδικοποίηση (sequential encoding)

          Σε αυτόν το ρυθμό λειτουργίας το JPEG λειτουργεί με απώλειες και γίνεται μια μόνο σάρωση της εικόνας από αριστερά προς τα δεξιά και από πάνω προς τα κάτω. Πρόκειται για τον συνηθέστερο ρυθμό λειτουργίας.

·       Προοδευτική κωδικοποίηση (progressive encoding)

          Και αυτός ο ρυθμός λειτουργίας παρουσιάζει απώλειες. Η κωδικοποίηση γίνεται όμως με διαδοχικά περάσματα.

·       Κωδικοποίηση χωρίς απώλειες (lossless encoding)

          Αντίθετα με τις υπόλοιπες περιπτώσεις, το αποτέλεσμα αυτού του τρόπου συμπίεσης είναι πλήρως αντιστρέψιμο.

·       Ιεραρχική κωδικοποίηση (hierarchical encoding)

          Η κωδικοποίηση συνίσταται από διάφορα επίπεδα ευκρίνειας, τα οποία μπορούν να αποκωδικοποιηθούν ξεχωριστά.

Στη συνέχεια θα περιγράψουμε, σε συντομία, πως γίνεται η συμπίεση όταν εφαρμόζεται η διαδοχική κωδικοποίηση. Τα βήματα  που ακολουθούνται είναι τα εξής:

·       Προετοιμασία των τμημάτων (data blocks)

          Όπως έχουμε δει, η εικόνα μπορεί να συντεθεί με διάφορους τρόπους. Κάθε pixel μπορεί να αντιστοιχεί στην τετράδα RGB ή YUV (Ευρωπαϊκή τηλεόραση) ή YIQ (Αμερικανική και Ιαπωνική τηλεόραση) και σε άλλες. Επίσης γνωρίζουμε ότι κάποιες από τις συνιστώσες αυτές είναι μικρότερης σημασίας, οπότε μπορούν να δειγματοληφθούν με μικρότερη συχνότητα. Το πρότυπο JPEG μπορεί να χειριστεί μέχρι και 255 χρωματικές συνιστώσες. Οι μετασχηματισμοί που ακολουθούν στο επόμενο βήμα δεν εφαρμόζονται σε ολόκληρη την εικόνα αλλά σε τμήματα μεγέθους 8*8 pixels. Αν για παράδειγμα έχουμε μια εικόνα 640*480 pixels που παριστάνεται με χρήση της τριάδας YUV θα έχουμε: έναν πίνακα 640*480 για τη συνιστώσα Υ (luminance) που θα χωριστεί σε 4800 τμήματα, δύο πίνακες 320*240 για τις δυο χρωματικές συνιστώσες (υπετέθη δειγματοληψία με το 1/4 της συχνότητας της φωτεινότητας) που θα χωριστούν σε 1200 τμήματα.

·       Βήμα κωδικοποίησης πηγής: Διακριτός Συνημιτονικός Μετασχηματισμός Fourier (ΔΣΜΦ) και κβαντοποίηση.

          Σε κάθε ένα από τα τμήματα που προέκυψαν από το προηγούμενο βήμα εφαρμόζεται ο ΔΣΜΦ. Στο πεδίο της συχνότητας, και εφόσον ικανοποιείται η προϋπόθεση για εικόνες συνεχούς τόνου, οι συντελεστές χαμηλών συχνοτήτων είναι πιο σημαντικοί. Πριν γίνει η κωδικοποίηση, οι συντελεστές του ΔΣΜΦ κανονικοποιούνται διαιρώντας τους με κάποιες προκαθορισμένες τιμές που περιέχονται στον πίνακα κβαντισμού (quantization table). Οι τιμές αυτές μεγαλώνουν όσο μεγαλώνει η συχνότητα, επιτυγχάνοντας με αυτόν τον τρόπο την επικέντρωση του ενδιαφέροντος στις χαμηλές συχνότητες. O συντελεστής μηδενικής συχνότητας κάθε τμήματος δεν επηρεάζεται καθόλου από την κανονικοποίηση (τιμή πίνακα κβαντοιποίησης=0) και ονομάζεται DC συντελεστής. Στην συνέχεια ακολουθεί η κωδικοποίηση των κανονικοποιημένων συντελεστών του ΔΣΜΦ με την τεχνική DPCM. Το προβλεπόμενο λάθος για κάθε τμήμα  είναι η DC τιμή του προηγούμενου τμήματος.

·       Κωδικοποίηση εντροπίας: περιορισμός των επαναλαμβανόμενων χαρακτήρων, κωδικοποίηση Huffman

          Οι κβαντοποιημένες τιμές μπαίνουν στη σειρά χρησιμοποιώντας το σχήμα zig-zag που έχει ως στόχο την μεγιστοποίηση της πιθανότητας εμφάνισης ίδιων γειτονικών τιμών. Τέλος, εφαρμόζεται η κωδικοποίηση Huffman ή μια πιο πολύπλοκη μορφή κωδικοποίησης πηγής που ονομάζεται αριθμητική κωδικοποίηση.

Βασικό χαρακτηριστικό του JPEG είναι ότι το αποτέλεσμα της συμπίεσης μπορεί να διαφέρει ανάλογα με τις απαιτήσεις που έχουμε για την ποιότητα της εικόνας και το λόγο συμπίεσης. Προφανώς, όσο μεγαλύτερος είναι ο λόγος συμπίεσης τόσο χειρότερη είναι η εικόνα. Τυπικές τιμές για το λόγο συμπίεσης είναι:

·       10:1 έως 20:1 - Υψηλή ποιότητα εικόνας με μικρή ή μη παρατηρήσιμη διαφορά από την αρχική εικόνα

·       30:1 έως 50:1 - Μέτρια ποιότητα

·       60:1 έως 100:1 - Κακή ποιότητα

Να σημειωθεί ότι η ποιότητα της συμπιεσμένης εικόνας κρίνεται με βάση τις παρατηρήσεις ενός ανθρώπου. Αυτό σημαίνει ότι η συμπίεση εκμεταλλεύεται τη φυσιολογία της ανθρώπινης όρασης. Αν μια εικόνα συμπιεσμένη κατά JPEG χρησιμοποιηθεί σε μια εφαρμογή αναγνώρισης προτύπων (για παράδειγμα ιατρική) τα αποτελέσματα μπορεί να διαφέρουν σημαντικά. Το JPEG αλλοιώνει την εικόνα αλλά με τέτοιο τρόπο που να μην γίνεται εύκολα αντιληπτό από τον άνθρωπο. Επιπλέον, οι παραπάνω λόγοι συμπίεσης αφορούν εικόνες σχετικά απλές, δηλαδή χωρίς πολλές ακμές και γωνίες. Εικόνες με γραμμικά σχέδια, κείμενο ή με δυο μόνο χρώματα δεν θα συμπιεστούν καλά.

Τέλος, να συμπληρωθεί ότι η αποσυμπίεση ακολουθεί ακριβώς την αντίστροφη πορεία και απαιτεί χοντρικά τον ίδιο χρόνο με την συμπίεση.

4.2.3.2  Fractal Image Compression (Απειροστική Συμπίεση Εικόνας)

Ας αναφέρουμε πρώτα κάποια βασικά στοιχεία σχετικά με την τεχνική αυτή:

1.         Είναι μια καινούρια και πολλά υποσχόμενη τεχνολογία. Το αν είναι ανώτερη της συμπίεσης JPEG είναι ανοιχτό σε διάλογο.

2.         Είναι μέθοδος συμπίεσης χωρίς απώλειες.

3.         Τα απειροστικά τμήματα στην απειροστική συμπίεση εικόνας είναι επαναλαμβανόμενα συστήματα συναρτήσεων ( Iterated Function Systems).

4.         Είναι μια μορφή κβαντικού διανύσματος, κάτι που χρειάζεται ειδική ορολογία για να καταλάβουμε.

5.         Η αύξηση της ανάλυσης είναι ένα πανίσχυρο σημείο της μεθόδου αλλά δεν είναι κάτι το μαγικό που πετυχαίνει συμπίεση 1000:1.

6.         Η συμπίεση είναι αργή, η αποσυμπίεση είναι γρήγορη.

7.         Η τεχνολογία είναι πατενταρισμένη.

Τα απειροστικά τμήματα που χρησιμοποιούνται στην απειροστική συμπίεση της εικόνας δεν είναι αυτά που γνωρίζουμε από την ανάλυση, αλλά από τη θεωρίας της επαναλαμβανόμενης συνάρτησης. Ο μαθηματικός Heinz-Otto Peitgen μας δίνει μια ωραία εισαγωγή στη θεωρία αυτή χρησιμοποιώντας μεταφορικά ένα αντιγραφικό μηχάνημα πολλαπλής ελάττωσης (Multiple Reduction Copying Machine). Το MRCM υποτίθεται πως είναι ένα απλό αντιγραφικό μηχάνημα, με τις εξής διαφορές :

Υπάρχουν πολλές ρυθμίσεις των φακών που μπορούν να δημιουργήσουν πολλές επικαλυπτόμενες κόπιες του αρχικού.

Κάθε μία ρύθμιση των φακών μειώνει το μέγεθος του αρχικού.

Το αντιγραφικό λειτουργεί με βρόγχο ανάδρασης, με την έξοδο της κάθε βαθμίδας να είναι είσοδος στην επόμενη. Η αρχική είσοδος μπορεί να είναι οτιδήποτε.

Το πρώτο είναι αυτό που κάνει το IFS να είναι σύστημα. Το τρίτο είναι αυτό που το κάνει επαναλαμβανόμενο. Όσο για το δεύτερο, υπονοεί ότι οι συναρτήσεις μιας επαναλαμβανόμενης συνάρτησης είναι συστολικές.

To IFS λοιπόν, είναι μια ομάδα συστολικών μετασχηματισμών που σχεδιάζουν από ένα συγκεκριμένο ορθογώνιο φυσικού σχεδίου σε μικρότερα τμήματα αυτού του ορθογωνίου.

ΑΠΩΛΕΙΑ ΚΛΙΜΑΚΑΣ ΚΑΙ ΑΥΞΗΣΗ ΤΗΣ ΑΝΑΛΥΣΗΣ

Όταν μία συσκευή, όπως η φωτογραφική μηχανή ή ο scanner, παίρνει μία εικόνα, χρησιμοποιεί μία κλίμακα που καθορίζεται από τη στοιχειώδη ανάλυση αυτής της συσκευής. Αν χρησιμοποιήσουμε κάποιο πρόγραμμα για να μεγεθύνουμε αυτή την εικόνα, από ένα σημείο και μετά δεν βλέπουμε κάτι παραπάνω σε λεπτομέρεια, παρά μόνο μεγαλύτερα εικονοστοιχεία.

Μία απειροστική εικόνα είναι διαφορετική. Με κάθε επανάληψη, η λεπτομέρεια που δημιουργείται είναι έξοχη σε μεγαλύτερη ανάλυση. Οριακά, λεπτομέρεια που αντιστοιχεί με ακρίβεια στην πραγματικότητα, δημιουργείται σε όλα τα επίπεδα ανάλυσης, μέχρι και το άπειρο. Επειδή δεν υπάρχει όριο στο οποίο να σταματούν οι απειροστικές εικόνες, θεωρούμε ότι δεν έχουν κλίμακα.

Πρακτικά, αυτό σημαίνει ότι αν μεγεθύνουμε μία απειροστική εικόνα, θα εξακολουθεί να δείχνει “όπως πρέπει” χωρίς τα φαινόμενα που εμφανίζει η μεγέθυνση των εικονοστοιχείων. Η σημαντικότητα των παραπάνω έχει δημιουργήσει μερικές διαφωνίες και γι’ αυτό θα πρέπει να πούμε τα παρακάτω:

Η Iterated Systems υποστηρίζει τα εξής: Πάρτε ένα πορτραίτο που είναι, ας πούμε, μια ασπρόμαυρη εικόνα κι έχει μέγεθος 250x250 pixel, με ένα byte ανά pixel. Την περνάτε από το δικό της πρόγραμμα κι έχετε ένα αρχείο μεγέθους 2500 byte (συντελεστής συμπίεσης = 25:1). Μεγεθύνετε τώρα τα μαλλιά του ατόμου της φωτογραφίας τέσσερις φορές. Τι βλέπετε; Μια εικόνα που μοιάζει πάλι με μαλλιά. Επομένως, είναι σα να έχετε μια εικόνα μεγέθους 1000x1000. ’ρα και ο συνολικός συντελεστής συμπίεσης που καταφέρατε να πάρετε είναι 25x16=400.

Αλλά τα πράγματα δεν είναι ακριβώς έτσι. Η λεπτομέρεια που παίρνουμε δεν διατηρήθηκε από την αρχική, αλλά δημιουργήθηκε. Με λίγη τύχη μοιάζει με αυτό που θα ‘πρεπε να μοιάζει αλλά μην είστε και πολύ σίγουροι. Αν για παράδειγμα μεγεθύνουμε το πρόσωπο, δε θα δούμε τους πόρους του.

Αντικειμενικά, αυτό που προσφέρει η απειροστική συμπίεση εικόνας είναι μια αναπτυγμένη μορφή παρεμβολής. Αυτό είναι κάτι χρήσιμο κι ελκυστικό. Χρήσιμο για παράδειγμα, σε όσους ασχολούνται με τη δημιουργία γραφικών ή σ’ εκείνους που θέλουν να τυπώσουν σε μια συσκευή υψηλής ανάλυσης. Όμως δεν προσφέρει εξωπραγματικούς συντελεστές συμπίεσης.

Με βάση τα παραπάνω, πρέπει να απαντήσουμε στο ερώτημα τι εννοούμε με τον όρο αύξηση της ανάλυσης. Πρόκειται για τη διαδικασία που συμπιέζουμε μια εικόνα, την μεγεθύνουμε σε μια μεγαλύτερη ανάλυση και τη σώνουμε, άσχετα με το αν χρησιμοποιούμε το IFS. Με άλλα λόγια, η συμπιεσμένη απειροστικά εικόνα είναι κάποιο μέσο για να πετύχουμε το σκοπό μας και όχι ο ίδιος ο σκοπός.

ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΤΑΧΥΤΗΤΑΣ

Η ουσία της διαδικασίας της συμπίεσης είναι ο συνδυασμός κάθε μπλοκ περιοχής σε ένα κυρίαρχο μπλοκ έτσι ώστε η διαφορά με το αρχικό να είναι ελάχιστη. Αυτό χρειάζεται πολύ ψάξιμο.

Στην πραγματικότητα, δεν υπάρχει κανόνας που να λέει ότι τα μπλοκ περιοχής πρέπει να είναι τετράγωνα, ούτε καν ορθογώνια. Αυτό είναι μια απλή παραδοχή που κάναμε για να κατανοήσουμε το πρόβλημα. Γενικά, η μέθοδος για να βρεθούν καλά PIFS για οποιαδήποτε εικόνα, περιλαμβάνει τα πέντε παρακάτω θέματα :

·         Να χωριστεί η εικόνα σε μπλοκ περιοχών.

·         Να μορφοποιηθεί η ομάδα των κυρίαρχων μπλοκ.

·         Να επιλεγούν οι τύποι των μετασχηματισμών που θα μελετηθούν.

·         Να επιλεγεί ένα μέτρο απόστασης μεταξύ των μπλοκ περιοχών.

·         Να καθοριστεί μια μέθοδος για το ταίριασμα των μπλοκ περιοχών στο κυρίαρχο μπλοκ.

Πολλές πιθανές λύσεις υπάρχουν για κάθε θέμα. Οι επιλογές που πρότεινε ο Jacquin στην εργασία του είναι:

Ένα τετράγωνο δύο επιπέδων με 8x8 εικονοστοιχεία για τα μπλοκ μεγάλων περιοχών και 4x4 για εκείνα των μικρών.

Τα κυρίαρχα μπλοκ είναι μεγέθους 16x16 και 8x8 pixels με βήμα δείγματος μεγέθους 4 (τέσσερα). Οι οκτώ ισομετρικές συμμετρίες επεκτείνουν το κυρίαρχο μπλοκ σε ένα εικονικό μπλοκ οκτώ φορές μεγαλύτερο.

Οι επιλογές στο τελευταίο θέμα υποδεικνύουν μία συρρίκνωση κατά δύο σε κάθε κατεύθυνση, με μια πιθανή περιστροφή ή αντιστροφή και μετά μια μορφοποίηση της περιοχής της εικόνας.

Χρησιμοποιείται το σφάλμα ελαχίστου τετραγώνου.

Τα μπλοκ κατηγοριοποιούνται με βάση το πόσο λεία είναι, πόσο απέχουν απ’ το κέντρο, αν έχουν απλές ή σύνθετες άκρες. Για ένα δοσμένο μπλοκ περιοχής η κατάλληλη κατηγορία διαλέγεται.

Η σημαντικότητα της κατηγοριοποίησης μπορεί να φανεί αν υπολογίσουμε το συνολικό μέγεθος του κυρίαρχου μπλοκ. Ας υποθέσουμε ότι η εικόνα χωρίζεται σε μπλοκ 4x4. Μια εικόνα 256x256 περιέχει συνολικά (256-8+1)2 = 62.001 διαφορετικά 8x8 κυρίαρχα μπλοκ. Συμπεριλαμβάνοντας και τις 8 ισομετρικές συμμετρίες αυξάνει το μέγεθος αυτό σε 496.008. Υπάρχουν (256-4+1)2 = 64.009 4x4 μπλοκ περιοχών, που μας κάνουν ένα μέγιστο 31.748.976.072 πιθανών συνδυασμών να εξεταστούν. Ακόμα και σε γρήγορους σταθμούς εργασίας το ψάξιμο είναι απελπιστικά αργό. Το να αυξηθεί η ταχύτητα του ψαξίματος είναι η κύρια πρόκληση που έχει να αντιμετωπίσει η απειροστική συμπίεση εικόνας.

ΟΜΟΙΟΤΗΤΕΣ ΜΕ ΤΗΝ ΔΙΑΝΥΣΜΑΤΙΚΗ ΚΒΑΝΤΟΠΟΙΗΣΗ (VECTOR QUANTIZATION (VQ))

Για την κοινότητα της VQ, ένα διάνυσμα είναι ένα μικρό ορθογώνιο από pixels. Η βασική υπόθεση της διανυσματικής κβαντοποίησης είναι ότι μερικά πρότυπα εμφανίζονται πολύ πιο συχνά από άλλα. Eτσι η έξυπνη ιδέα είναι να αποθηκεύσουμε λίγα από αυτά τα πρότυπα σε ξεχωριστό αρχείο που ονομάζουμε κωδικό-βιβλίο (codebook). Το πως ακριβώς θα φτιαχτεί ένα τέτοιο βιβλίο είναι ολόκληρη ιστορία. Το βασικό είναι ότι σε κάθε στοιχείο του βιβλίου (κάθε κυρίαρχο μπλοκ) έχει δοθεί ένας αριθμός. Τότε, κάθε εικόνα χωρίζεται σε έναν απλό πίνακα. Κάθε στοιχείο του πίνακα (κάθε μπλοκ περιοχής) αναπαριστάται στο βιβλίο της κωδικοποίησης. Το να αποσυμπιεστεί ένα VQ αρχείο σημαίνει να φτιάξουμε την εικόνα αντιστοιχώντας τα νούμερα σε αυτά του βιβλίου. Η ομοιότητα με την απειροστική είναι προφανής, με μερικές σημαντικές διαφορές.

·         Τα μπλοκ περιοχών και τα κυρίαρχα μπλοκ της VQ έχουν το ίδιο μέγεθος. Τα κυρίαρχα IFS μπλοκ είναι πάντα μεγαλύτερα.

·         Στη VQ τα κυρίαρχα μπλοκ αντιγράφονται απ’ ευθείας. Τα κυρίαρχα IFS μπλοκ υποβάλλονται πρώτα σε μια ρύθμιση φωτεινότητας και αντιστάθμιση.

·         Στη VQ εκτός από την εικόνα που κωδικοποιείται, αποθηκεύεται και το βιβλίο με τους κωδικούς. Στο IFS το βιβλίο αυτό δεν αποθηκεύεται, αλλά δημιουργείται μόνο κατά τη διάρκεια των επαναλήψεων. Γι’ αυτό και χαρακτηρίζεται εικονικό και δεν έχει καμία έννοια στον προσδιορισμό του IFS.

·         Στη VQ το βιβλίο με τους κωδικούς χρησιμοποιείται από πολλές εικόνες. Στο IFS κάθε εικόνα έχει το δικό της εικονικό βιβλίο με κωδικούς.

Υπάρχει επίσης και μια έκδοση της VQ που ονομάζεται διανυσματική κβαντοποίηση ρυθμιζόμενης μορφής στην οποία επιτρέπεται η ρύθμιση της φωτεινότητας και αντιστάθμιση. Αυτό είναι ότι πιο κοντινό υπάρχει στην απειροστική συμπίεση εικόνας.

ΣΥΝΤΕΛΕΣΤΕΣ ΣΥΜΠΙΕΣΗΣ

Τυπικές τιμές συντελεστών συμπίεσης που πετυχαίνονται είναι από 4:1 μέχρι 100:1. Κάτω από τις ίδιες συνθήκες, οι έγχρωμες εικόνες μπορούν να συμπιεστούν σε μεγαλύτερο βαθμό από τις ασπρόμαυρες. Το μέγεθος ενός αρχείου απειροστικής εικόνας εξαρτάται πολύ από τον αριθμό των μετασχηματισμών των PIFS.

Για ευκολία, και προκειμένου να μπορέσουμε να κάνουμε σύγκριση με το JPEG, ας υποθέσουμε ότι μια εικόνα μεγέθους 256x256x8 χωρίζεται σε μπλοκ των 8x8. Υπάρχουν 1024 μπλοκ περιοχής και κατά συνέπεια 1024 μετασχηματισμοί για να αποθηκευτούν. Πόσα bits χρειάζονται για το καθένα;

            Στις περισσότερες υλοποιήσεις, τα κυρίαρχα μπλοκ είναι δύο φορές μεγαλύτερα από τα μπλοκ περιοχής. Aρα η διαστηματική συστολή είναι συνεχής και μπορεί δύσκολα να κωδικοποιηθεί στο πρόγραμμα αποσυμπίεσης. Αυτά που πρέπει να αποθηκευτούν είναι :

Η x θέση του κυρίαρχου μπλοκ           8     6

Η y θέση του κυρίαρχου μπλοκ           8     6

Η ρύθμιση της φωτεινότητας              8     5

Η αντιστάθμιση της φωτεινότητας      8     6

Ο δείκτης συμμετρίας                          3     3

Σύνολο :                                            35    26   bits

Στην πρώτη στήλη, ένα byte δίνεται σε κάθε αριθμό εκτός από το δείκτη συμμετρίας. Το μέγιστο όριο συμπίεσης είναι επομένως (8x8x8)/35=14,63. Στη δεύτερη στήλη, τα κυρίαρχα μπλοκ έχουν περιοριστεί στις προηγούμενες συντεταγμένες μείον δυο. Επίσης, πειράματα έχουν δείξει ότι 5 bits για τη ρύθμιση και 6 για την αντιστάθμιση εξακολουθούν να έχουν καλά οπτικά αποτελέσματα. Έτσι, το όριο της συμπίεσης είναι τώρα 19,69 αξιοσημείωτο αλλά όχι εξωπραγματικό.

Υπάρχουν κι άλλες, πιο περίπλοκες, τεχνικές για να μειωθούν κι άλλο τα bits. Η πιο κοινή είναι να χρησιμοποιηθεί μια δομή τετραγωνικού δέντρου δύο ή τριών επιπέδων για τον καθορισμό της θέσης. Με αυτό τον τρόπο λείες επιφάνειες μπορούν να αναπαρασταθούν με μεγάλα μπλοκ περιοχής (υψηλή συμπίεση), ενώ μικρότερα μπλοκ χρησιμοποιούνται αναγκαστικά για τις λεπτομέρειες.

ΠΟΙΟΤΗΤΑ : ΑΠΕΙΡΟΣΤΙΚΟΤΗΤΑ ΕΝΑΝΤΙΟΝ JPEG

Η μεγάλη ειρωνεία για την επιτροπή κωδικοποίησης είναι ότι μεγάλη φροντίδα δίνεται προκειμένου να μετρηθεί ακριβώς και να προσδιορισθεί το ποσοστό λάθους σε μία συμπιεσμένη εικόνα, και γίνεται μεγάλη προσπάθεια προκειμένου να μειωθεί το λάθος που μετριέται το οποίο πολύ συχνά είναι αμφίβολο. Αυτές οι μετρήσεις περιλαμβάνουν λόγο σήματος προς θόρυβο, μέθοδο ελαχίστων τετραγώνων και απόλυτη τιμή του λάθους. Ένα απλό παράδειγμα είναι η συνεχής μετακίνηση (shift): προσθέτουμε την τιμή 10 σε κάθε pixel. Σταθερές μετρήσεις λάθους υποδεικνύουν μεγάλη παραμόρφωση, αλλά η εικόνα έχει γίνει ελάχιστα πιο φωτεινή.

Με σεβασμό σε αυτές τις αμφίβολες μετρήσεις λάθους, και με το φόβο της υπεραπλούστευσης, τα αποτελέσματα αποκαλύπτουν τα ακόλουθα :

Για μικρούς συντελεστές συμπίεσης το JPEG είναι καλύτερο, για υψηλούς συντελεστές η απειροστική κωδικοποίηση είναι καλύτερη. Το διαχωριστικό σημείο διαφέρει, αλλά συνήθως είναι γύρω στο 40:1. Η τιμή αυτή προμηνύει ανωτερότητα του JPEG αφού έτσι κι αλλιώς πέρα από αυτό το βαθμό συμπίεσης οι εικόνες έχουν συνήθως τέτοια αταξία που δεν αξίζει να χρησιμοποιηθεί.

Υποστηρικτές της απειροστικής συμπίεσης υποστηρίζουν ότι ο λόγος σήματος προς θόρυβο δεν είναι καλό μέτρο για τη μέτρηση του λάθους και ότι η παραμορφωμένη εικόνα που δίνει είναι πολύ πιο “φυσική”, από τα τετράγωνα μπλοκ του JPEG, τόσο στις χαμηλές όσο και στις υψηλές αναλύσεις. Αυτό είναι ένα λογικό επιχείρημα αλλά σε καμία περίπτωση δεν είναι αποδεκτό παγκόσμια. Iσως αυτό που χρειάζεται η επιτροπή κωδικοποίησης να είναι ένας τρόπος που θα μετρά με ακρίβεια και αντικειμενικότητα την εντύπωση που δίνει το σήμα (εδώ η εικόνα) στον άνθρωπο. Μέχρι τότε τα μάτια σας είναι οι καλύτεροι κριτές.

4.2.4    Image file formats

Δυστυχώς, δεν υπάρχει κάποιο πρότυπο αποθήκευσης εικόνων (format) που να χρησιμοποιείται αποκλειστικά. Σε κάθε πλατφόρμα και για κάθε είδος εφαρμογής υπάρχουν διαφορετικά formats. Μερικά συνηθισμένα formats είναι τα εξής:

·       TIFF

          Το TIFF (Tagged Image File Format) αναπτύχθηκε από τις εταιρείες Aldus και Microsoft και χρησιμοποιείται ευρέως στην ανταλλαγή εικόνων. Το TIFF αποτελείται από ένα σύνολο εικόνων, με μια κεφαλίδα (header) να καθορίζει τις παραμέτρους της κωδικοποίησης. Δεν περιλαμβάνει αλγορίθμους συμπίεσης.

·       JPEG

          Το JPEG ως πρότυπο συμπίεσης δεν αντιστοιχεί σε κάποιο συγκεκριμένο format εικόνας. Υπάρχουν δύο formats εικόνας που χρησιμοποιούν αυτό το πρότυπο συμπίεσης: το JIF (JPEG Interchange Format) και το TIFF 6.0 που αποτελεί επέκταση του απλού TIFF.

·       BMP

          Πρόκειται για το format που υποστηρίζουν εγγενώς τα MS Windows γι’ αυτό και συναντάται πολύ συχνά. Πρόκειται ίσως για το πιο απλό format, το οποίο δεν προσφέρει καμιά δυνατότητα συμπίεσης. Απλώς περιγράφει το τρόπο με τον οποίο θα αποθηκευτούν τα bits της εικόνας σε ένα αρχείο ο οποίος είναι μάλιστα ανεξάρτητος της μονάδας εξόδου.

·       GIF

          Αναπτύχθηκε από την CompuServe με στόχο τη διευκόλυνση της ανταλλαγής εικόνων μέσω δικτύου. Υποστηρίζει συμπίεση εικόνας που βασίζεται στο αλγόριθμο LZW (Lempel-Ziv-Welch). Ο αλγόριθμος αυτός ανήκει στην κατηγορία των διανυσματικών τεχνικών συμπίεσης και λειτουργεί χωρίς απώλειες. Οι λόγοι συμπίεσης που επιτυγχάνει είναι 4:1 αλλά περιορίζεται σε εικόνες βάθους χρώματος των 8bits (256 χρώματα).

          Σαν θετικά στοιχεία μπορούμε να παραθέσουμε τα εξής:

·       λειτουργεί χωρίς απώλειες για εικόνες βάθους 8bits

·       είναι ιδανικός για εικόνες με πολλές ακμές και γωνίες όπως γραμμικά σχέδια.

·       χρησιμοποιείται ευρέως και ελεύθερα

          Τα μειονεκτήματα του είναι:

·       δεν είναι κατάλληλο για εικόνες με πολλά χρώματα

·       οι λόγοι συμπίεσης είναι μικροί και δεν μπορούν να ανταλλαχθούν με ποιότητα εικόνας

·       δεν μπορεί να χρησιμοποιηθεί για κινούμενη εικόνα

·       δεν είναι ανεξάρτητος από την ανάλυση της εικόνας

4.2.5    Γραφικά και Εικόνα

Σύμφωνα με όσα είπαμε παραπάνω, οι εικόνες δεν είναι παρά πίνακες από pixels. Δεν υπάρχει καμία πληροφορία για τη δομή των απεικονιζόμενων αντικειμένων και κατά συνέπεια δεν μπορούμε να επέμβουμε στο περιεχόμενο της. Τα προγράμματα επεξεργασίας εικόνας προσφέρουν χειρισμούς όπως: αλλαγή χρώματος κάποιων pixels με διάφορα γεωμετρικά εργαλεία, αποκοπή, αντιγραφή και επικόλληση ομάδων pixels, υπέρθεση κειμένου, εφαρμογή φίλτρων (πχ  όξυνση των ακμών, αλλαγή των χρωμάτων ...), εφαρμογή γεωμετρικών μετασχηματισμών (πχ περιστροφή) και τέλος μετατροπή από ένα format εικόνας σε άλλο. Όλες αυτές οι ενέργειες στην ουσία αφορούν τα pixels. Ακόμα και σε περιπτώσεις που το αποτέλεσμα έχει αλλαγμένο σημασιολογικό περιεχόμενο (πχ μοντάζ που αλλάζει το πρόσωπο ενός ατόμου της φωτογραφίας), η επέμβαση γίνεται με εργαλεία που δε αναγνωρίζουν δομή στην εικόνα. Γι’ αυτό και τέτοιοι χειρισμοί γίνονται δύσκολα και πάντα με τη μεσολάβηση του ανθρώπου ο οποίος αντιλαμβάνεται πολύ εύκολα τα αντικείμενα μιας εικόνας.

Σ’ αυτό ακριβώς το σημείο βρίσκεται και διαφορά των γραφικών από την εικόνα. Τα γραφικά, περιέχουν πληροφορία που αφορά τη δομή των αντικειμένων. Μια εικόνα γραφικών δεν είναι ένας πίνακας pixels αλλά μια συλλογή από αντικείμενα. Συνήθως τα γραφικά δημιουργούνται εξ’ αρχής με τη βοήθεια του υπολογιστή. Πιο σπάνια, προέρχονται από εικόνες από τις οποίες εξήχθησαν αντικείμενα με χρήση τεχνικών αναγνώρισης προτύπων.

Η αναπαράσταση των γραφικών γίνεται με διάφορους τρόπους. Ας δούμε μερικούς:

·       Γεωμετρικά Μοντέλα (Geometric Models)

          Υπάρχει μια συλλογή δομικών σχημάτων (geometric primitives) είτε 2-διάστατων είτε 3-διάστατων όπως ευθείες, κύκλοι, ελλείψεις, σφαίρες, κώνοι. Μετακινώντας, συνδυάζοντας και μετασχηματίζοντας (περιστροφή, μεγέθυνση...) τα δομικά αυτά σχήματα με κατάλληλο τρόπο, συντίθεται η ζητούμενη εικόνα. Έχουν προταθεί κάποια πρότυπα αυτής της κατηγορίας όπως το GKS (Graphics Kernel System, ISO 1985), το PHIGS (Programmer’s Hierarchical Interactive Graphic System, ISO 1989a) και το OpenGL (OpenGL Architecture Review board, 1993). Το GKS είναι ένα από τα πρώτα 3-διάστατα πρότυπα γραφικών. Το PHIGS παρουσιάζει μεγαλύτερη ποικιλία δομικών σχημάτων ενώ η επέκταση του το PEX (PHIGS Extensions to X)  χρησιμοποιείται στα X Windows. Τέλος, το OpenGL αποτελεί τη μεταφέρσιμη (portable) έκδοση βιβλιοθηκών που χρησιμοποιεί η Silicon Graphics.

·       Στερεά Μοντέλα (Solid Models)

          Ειδικές τεχνικές έχουν αναπτυχθεί για την μοντελοποίηση στερεών. Στην Κατασκευαστική Γεωμετρία Στερεών (Constructive Solid Geometry) τα στερεά προκύπτουν ως συνδυασμός ένωσης, διαφοράς και τομής κάποιων βασικών στερεών. Μια άλλη μέθοδος είναι η περιστροφή 2-διάστατων καμπυλών.

·       Φυσικά Μοντέλα (Physically Based Models)

          Αληθοφανείς εικόνες μπορούν να δημιουργηθούν από φυσικά αριθμητικά μοντέλα που περιγράφουν τις δυνάμεις, πιέσεις και καταπονήσεις των αντικειμένων.

         

·       Εμπειρικά Μοντέλα (Empirical Models)

          Πολλά φυσικά φαινόμενα είναι τόσο πολύπλοκα που είναι δύσκολο να περιγραφούν με κάποιους από τους προηγούμενους τρόπους. Σ’ αυτές τις περιπτώσεις, εφαρμόζονται τεχνικές που στηρίζονται στην παρατήρηση και την εμπειρία. Για παράδειγμα, fractals χρησιμοποιούνται για τη μοντελοποίηση βουνών και άλλων στοιχείων της επιφάνειας της γης και σύνολα σωματιδίων που περιγράφονται στατιστικά χρησιμοποιούνται για την δημιουργία φωτιάς και εκρήξεων.

·       Σχεδιαστικά Μοντέλα (Drawing Models)

          Σε αυτήν την κατηγορία, θεωρείται ότι υπάρχει μια νοητή κινητή σχεδιαστική κεφαλή. Περιγράφοντας τις κινήσεις και τις ενέργειες αυτής της κεφαλής, απεικονίζεται η εικόνα. Η PostScript ακολουθεί αυτή τη φιλοσοφία.

Όσον αφορά στα formats που χρησιμοποιούνται για την αποθήκευση γραφικών, υπάρχει το πρότυπο του ISO CGM (Computer Graphics Metafile) αλλά τα διάφορα σχεδιαστικά πακέτα συνήθως χρησιμοποιούν δικά τους formats.

Το μεγάλο πλεονέκτημα των γραφικών ότι υπάρχει μεγάλη ευχέρεια παρεμβάσεων. Συνήθεις χειρισμοί γραφικών εικόνων είναι:

·       οι δομικές, δηλαδή η εισαγωγή, αφαίρεση και μετακίνηση αντικειμένων

·       η σκίαση (shading) αντικειμένων

·       η χαρτογράφηση, δηλαδή  αντιστοίχηση μιας εικόνας στην επιφάνεια ενός αντικειμένου. Η χαρτογράφηση υφής (texture mapping) δίνει σε γεωμετρικά αντικείμενα την υφή κάποιου υλικού.

·       η αλλαγή του φωτισμού

·       το rendering, δηλαδή η μετατροπή του μοντέλου σε μια εικόνα με την επιθυμητή ανάλυση, βάθος χρώματος και μέγεθος.

Ο όρος ανάλυση (resolution) έχει επιπλέον τη σημασία: το μέγεθος μιας εικόνας σε εικονοστοιχεία.

4.3    Ήχος

4.3.1    Ήχος και Εφαρμογές

Μέχρι σήμερα, η βιομηχανία των υπολογιστών δεν έχει επιδείξει ιδιαίτερα μεγάλο ενδιαφέρον για τον ήχο στις εφαρμογές πολυμέσων. Αυτό οφείλεται κυρίως στην εστίαση των προσπαθειών στην εισαγωγή του video αλλά και στη δυσκολία καθορισμού της χρησιμότητας του ήχου σε επαγγελματικές εφαρμογές (business applications). Σαν αποτέλεσμα, ο ήχος στα πολυμέσα περιορίζεται στις ψυχαγωγικές και εκπαιδευτικές εφαρμογές.

Παρ’ όλα αυτά, είναι φανερό ότι ο ήχος, κατάλληλα συνδυασμένος με τα άλλα είδη πληροφορίας, μπορεί να κάνει μια εφαρμογή πολυμέσων πιο αποτελεσματική. Ιδιαίτερα σε εκπαιδευτικές εφαρμογές και περίπτερα πληροφοριών (information kiosks) η αφήγηση και ο σχολιασμός των όσων παρουσιάζονται στην οθόνη βοηθά στην μετάδοση του μηνύματος ενώ η κατάλληλη ηχητικά υπόκρουση καθιστά την παρακολούθηση της εφαρμογής πιο ευχάριστη. Το μοναδικό χαρακτηριστικό του ήχου να γίνεται αντιληπτός χωρίς να έχουμε την προσοχή μας εστιασμένη, καθιστά τα ηχητικά σήματα αναντικατάστατα στην απόσπαση της προσοχής του χρήστη.

Υπάρχουν ορισμένες κατηγορίες εφαρμογών όπου ο ήχος αποτελεί την καρδιά του συστήματος. Εφαρμογές που έχουν ως αντικείμενο την μουσική ή ακόμα εφαρμογές που προορίζονται για ανθρώπους με προβλήματα όρασης κάνουν εκτενή και αποτελεσματική χρήση του ήχου.

Με την πρόοδο της τεχνολογίας, το ενδιαφέρον για την εφαρμογή της αναγνώρισης και σύνθεσης ομιλίας σε επαγγελματικές εφαρμογές μεγαλώνει. Ήδη έχουν εμφανιστεί τα πρώτα δείγματα συστημάτων χειρισμού ενός υπολογιστή με προφορικές εντολές  και υπαγόρευσης κειμένου στον υπολογιστή.

4.3.2    Σύλληψη (capture) και Συμπίεση

Ένας ψηφιοποιητής ήχου (sound digitiser) χρησιμοποιείται για τη σύλληψη σε ψηφιακή μορφή αναλογικού σήματος ήχου από κασέτες, δίσκους, και δίσκους CD. Εναλλακτικά, η μουσική μπορεί να ηχογραφηθεί μέσω μικροφώνου συνδεδεμένου στον υπολογιστή ή να συντεθεί μέσω μουσικών οργάνων που επικοινωνούν με τον υπολογιστή διαμέσου ενός MIDI interface.

4.3.3    Μουσική και υπολογιστές

Κάθε ήχος μπορεί να αποθηκευτεί στον υπολογιστή ως ψηφιοποιημένο ηχητικό σήμα. Αυτό το σήμα μπορεί να είναι συμπιεσμένο ή ασυμπίεστο. Σε κάθε όμως περίπτωση δεν περιέχει καμία σημασιολογική πληροφορία για τον ήχο που περιγράφει. Αυτή η μορφή αναπαράστασης του ήχου είναι το αντίστοιχο της χαρτογραφικής απεικόνισης των εικόνων. Σε αναλογία με τα γραφικά, υπάρχει για τη μουσική το πρότυπο MIDI (Musical Instrument Digital Interface).

Το πρότυπο αυτό αναπτύχθηκε στη αρχή της δεκαετίας του 80. Το MIDI καθορίζει πως κωδικοποιούνται τα διάφορα στοιχεία μιας μουσικής παρτιτούρας καθώς και τα όργανα που συμμετέχουν. Υπάρχει η δυνατότητα χρησιμοποίησης 127 οργάνων και ηχητικών εφέ. Το MIDI περιέχει και πρότυπα για την επικοινωνία μουσικών οργάνων με υπολογιστή. Ένας υπολογιστής με MIDI interface μπορεί να χειριστεί συσκευές που ακολουθούν αυτό το πρότυπο όπως ηλεκτρονικά synthesizers. Στις πιο πολλές κάρτες ήχου που προσφέρουν MIDI, η σύνθεση των ήχων των οργάνων γίνεται συνήθως με FM σύνθεση που δεν δίνει καλά αποτελέσματα. Σε πολλές όμως περιπτώσεις, περιέχουν αποθηκευμένα σε μνήμη ROM δείγματα πραγματικών οργάνων με αποτέλεσμα η μουσική MIDI να μοιάζει αρκετά με πραγματική.

Τα πλεονεκτήματα και μειονεκτήματα του MIDI έναντι της ψηφιοποιημένης μουσικής είναι ανάλογα με αυτά των εικόνων έναντι των γραφικών. Υπάρχει μεγαλύτερη ευελιξία στην επεξεργασία της μουσικής MIDI ενώ απαιτείται και σημαντικά μικρότερος αποθηκευτικός χώρος. Από την άλλη πλευρά, υπάρχει υπολογιστικό κόστος για να μετατραπεί η συμβολική αναπαράσταση MIDI σε ακουστή κυματομορφή. Επίσης, το αποτέλεσμα εξαρτάται από τη συσκευή εξόδου και συνήθως είναι υποδεέστερο της ψηφιοποιημένης μουσικής.

4.3.4    Ομιλία και υπολογιστές

Η εκμετάλλευση της ομιλίας σε εφαρμογές υπολογιστών αναμένεται να είναι πολύ σημαντικότερη σε σχέση με τη μουσική. Αρκετές εταιρείες όπως η Apple η Microsoft και η Creative Labs παρέχουν λογισμικό και κάρτες ήχου που κάνουν χρήση της ομιλίας. Για παράδειγμα, το Windows Sound System της Microsoft αποτελείται από μια κάρτα ήχου 16bit, μικρόφωνο, ακουστικά και λογισμικό που στοχεύει σε επαγγελματικές εφαρμογές (business applications). Το λογισμικό πακέτο περιλαμβάνει εργαλεία αναγνώρισης φωνής για τον προφορικό έλεγχο του συστήματος, σύνθεση φωνής και δυνατότητα εισαγωγής ηχητικών αντικειμένων σε εφαρμογές που υποστηρίζουν το πρότυπο OLE.

Ένα άλλο χαρακτηριστικό παράδειγμα που υποδηλώνει το μέλλον αυτής της τεχνολογίας είναι το Personal Dictation System της IBM που έχει ενσωματωθεί στο λειτουργικό της σύστημα OS/2. Υποστηρίζει υπαγόρευση 70 έως 100 λέξεων το λεπτό ενώ το σύστημα χρησιμοποιείται για το προφορικό χειρισμό του συστήματος OS/2 και των εφαρμογών του.

Η τεχνολογία αναγνώρισης ομιλίας, έχει προχωρήσει σημαντικά. Τυπικές επιδόσεις των σημερινών εργαλείων αναγνώρισης ομιλίας είναι 30000 λέξεις για σύστημα εκπαιδευμένο σε συγκεκριμένο ομιλητή και όταν οι λέξεις προφέρονται καθαρά και με μικρές παύσεις ανάμεσα τους. Αντίθετα, αν ο λόγος είναι συνεχής και ο ομιλητής άγνωστος, το λεξιλόγιο των συστημάτων πέφτει στις 400 λέξεις. Αν και αυτές οι επιδόσεις δίνουν σημαντικές πρακτικές εφαρμογές, χρειάζεται ακόμα δουλειά για να μπορούν τα συστήματα αυτά να δουλεύουν αποτελεσματικά στις μη ιδανικές συνθήκες της καθημερινής εργασίας σε ένα γραφείο.

4.3.5    Συμπίεση

Ο ήχος είναι γενικά δύσκολο να συμπιεστεί γιατί η ακοή είναι πιο ευαίσθητη στις αλλοιώσεις του ήχου σε σχέση με την όραση. Εξαιτίας του ενδιαφέροντος για συμπίεση του ήχου στην τηλεφωνία, έχουν αναπτυχθεί πολλές τεχνικές αποτελεσματικής κωδικοποίησης της ομιλίας. Στην μουσική τα πράγματα είναι πιο δύσκολα γιατί και οι απαιτήσεις ποιότητας είναι μεγαλύτερες και το εύρος ζώνης της είναι σημαντικά μεγαλύτερο από αυτό της ανθρώπινης φωνής.

Στον παρακάτω πίνακα παρουσιάζονται οι συχνότητες δειγματοληψίας και το μήκος της λέξης κατά την κβαντοποίηση για διάφορα πρότυπα συμπίεσης ήχου. Εκτός από την κατάλληλη επιλογή αυτών των παραμέτρων ανάλογα με τις απαιτήσεις της εφαρμογής, περαιτέρω συμπίεση μπορεί να επιτευχθεί με αφαίρεση των σιωπηλών τμημάτων και με καλύτερες μεθόδους κωδικοποίησης όπως: μη γραμμική PCM όπως λογαριθμική ή μ-law, διαφορική PCM και προσαρμοστική διαφορική PCM.

Συχνότητα Δειγματοληψίας

(kHz)

Κβαντοποίηση

(bits)

Τεχνική Κωδικοποίησης

Ποιότητα

44.1

16

PCM

Hi-fi

37.8

8

ADPCM

Hi-fi

37.8

8

ADPCM

FM μετάδοση (μουσική)

18.9

 

ADPCM

AM μετάδοση (ομιλία)

8

8

PCM

Τηλεφωνική

Πίνακας 4-2. Ηχητική ποιότητα και μέθοδος ψηφιοποίησης

4.3.6    Πρότυπα

4.3.6.1       Οπτικοακουστική Τηλεφωνία (Audiovisual Telephony)

Η οικογένεια προτύπων H.320 που δημοσιεύτηκαν από την ITU-TS και καλύπτουν εφαρμογές teleconferencing και videophony αποτελούν τη βάση επικοινωνίας μεταξύ συσκευών διαφορετικών κατασκευαστών. Το πρότυπο υποστηρίζει τόσο τηλεπικοινωνιακά δίκτυα όσο και δίκτυα υπολογιστών. Στην οικογένεια αυτή περιλαμβάνονται και τη σειρά προτύπων ITU-G για συμπίεση ήχου. Τα χαρακτηριστικά αυτών των προτύπων φαίνονται στον επόμενο πίνακα.

Πρότυπο

Περιγραφή

G.711

PCM συχνοτήτων φωνής

G.722

ADPCM με συχνότητα 7kHz και απαιτούμενο εύρος ζώνης 64Kbits/s

G.728

CELP κωδικοποίηση που απαιτεί 16Kbits/s

Πίνακας 4-3. Πρότυπα για κωδικοποίηση ήχου

4.3.6.2       Τα πρότυπα MPEG

Η ομάδα Moving Pictures Experts Group (MPEG) του ISO/IEC αναπτύσσει πρότυπα για video και ήχο από το 1988. Το πρότυπο που προέκυψε από την πρώτη φάση είναι το MPEG-1 ενώ η έρευνα συνεχίζεται στο MPEG-2. Για κάποιο χρονικό διάστημα υπήρχε σε εξέλιξη το MPEG-3 αλλά εγκαταλείφθηκε και ένα τμήμα του ενσωματώθηκε στο MPEG-2.

Κάθε ένα από αυτά στοχεύει σε εφαρμογές με διαφορετικές απαιτήσεις ποιότητας και εύρους ζώνης και εκτός από τεχνικές συμπίεσης κινούμενης εικόνας περιέχει και ένα κομμάτι που αναφέρεται στην συμπίεση του ήχου. Οι τεχνικές συμπίεσης ήχου δεν περιορίζονται στη φωνή αλλά είναι σχεδιασμένες για τη γενικότερη περίπτωση της μουσικής.

Στη συνέχεια θα περιγράψουμε σε συντομία τα βασικά χαρακτηριστικά του ηχητικού κομματιού του MPEG-1 ενώ στην επόμενη ενότητα θα επεκταθούμε και στη κινούμενη εικόνα.

MPEG-1

Με δυο λόγια θα μπορούσαμε να περιγράψουμε το MPEG-1 ως εξής:

Το ηχητικό κομμάτι του MPEG-1 δεν αποτελεί έναν αλγόριθμο συμπίεσης, αλλά μια οικογένεια τριών διαφορετικών τεχνικών κωδικοποίησης και συμπίεσης ήχου. Αυτές οι οικογένειες ονομάζονται MPEG-Audio Layer-1, Layer-2, Layer-3.

Και οι τρεις αυτές τεχνικές στηρίζονται στην ίδια αρχή: η συμπίεση γίνεται συνδυάζοντας ένα είδος κωδικοποίησης μετασχηματισμού και sub-band division. Οι διαφορές αυτών των τριών στρωμάτων  εντοπίζονται στο τελικό στάδιο της κβαντοποίησης.

Τα βασικά βήματα που ακολουθούνται είναι:

·       Χωρισμός του φάσματος σε 32 τμήματα (sub-bands)

·       Εφαρμόζεται στο σήμα ένας ταχύς μετασχηματισμός Fourier (Fast Fourier Transform)

·       Ένα ψύχο-ακουστικό μοντέλο εφαρμόζεται στο μετασχηματισμένο σήμα για να υπολογιστεί το ελάχιστο επίπεδο θορύβου που γίνεται αντιληπτό από το μέσο ακροατή

To MPEG-1 προβλέπει δύο ηχητικά κανάλια. Αυτά μπορούν να απλά (μονοφωνικά), διπλά (δύο μονοφωνικά κανάλια), απλά στερεοφωνικά (ένα κανάλι μεταφέρει το αριστερό ηχητικό σήμα και το άλλο το δεξί) ή από κοινού στερεοφωνικά (joint stereo, το ένα κανάλι μεταφέρει το άθροισμα και το άλλο τη διαφορά των σημάτων). Το πρότυπο χρησιμοποιεί 16bits για την κωδικοποίηση των δειγμάτων ενώ η συχνότητα δειγματοληψίας είναι 44.1kHz, 48kHz ή 32kHz.

Οι επιδόσεις κάθε στρώματος είναι:

·       MPEG-Audio Layer-1: επιτρέπει την κατασκευή πολύ απλών κωδικοποιητών και αποκωδικοποιητών θυσιάζοντας βέβαια ένα μέρος της ποιότητας. Ως αποτέλεσμα, η ηχητική ποιότητα είναι μέτρια ενώ το bandwidth που απαιτείται είναι αυξημένο: 192 ή 256Kbps ανά κανάλι.

·       MPEG-Audio Layer-2: ο αλγόριθμος αυτή της κατηγορίας έχει βελτιστοποιηθεί για ένα εύρος ζώνης 96 ή 128Kbps ανά μονοφωνικό κανάλι. Η ποιότητα είναι εφάμιλλη του CD.

·       MPEG-Audio Layer-3: έχει την καλύτερη επίδοση από τα τρία στρώματα. Η ποιότητα του είναι  υποδεέστερη αλλά πολύ κοντά σε αυτή του CD. Το βασικό του πλεονέκτημα είναι ότι απαιτεί μόνο 64Kbps. Σε σύγκριση με MPEG-Audio Layer-2 στα 64Kbps λειτουργεί πολύ καλύτερα.

Να σημειωθεί ότι αυτά τα στρώμα έχουν προς τα πίσω συμβατότητα, δηλαδή μια συσκευή MPEG-Audio Layer-3 αποκωδικοποιεί και δεδομένα κωδικοποιημένα κατά MPEG-Audio Layer-1 ή 2.

MPEG-2

To MPEG-2 έχει ως στόχο τη μετάδοση ψηφιακής τηλεόρασης και video telephony μέσω οπτικών ινών, δορυφορικών καναλιών, ISDN και άλλων δικτύων. Το bandwidth που απαιτεί βρίσκεται στα 3-10 Mbits/s. Βασική επέκταση που επιφέρει στο MPEG-1 είναι η εισαγωγή διακριτών surround-sound καναλιών καθώς και μερικών καναλιών χαμηλής ταχύτητας για σχολιασμό η υποστήριξη πολλών γλωσσών.

4.4    Video

4.4.1    Video και Εφαρμογές

Η παρουσίαση των πρώτων εφαρμογών για προσωπικούς υπολογιστές που έκαναν χρήση video δημιούργησε ένα πολύ μεγάλο ενδιαφέρον. Παρ’ όλα αυτά, ο τρόπος με τον οποίο θα χρησιμοποιηθεί αυτή η νέα τεχνολογία στο μέλλον δεν είναι ακόμα ξεκάθαρος. Οι υπάρχουσες εφαρμογές μπορούν να χωριστούν σε δυο κατηγορίες: αναπαραγωγή αποθηκευμένου οπτικοακουστικού υλικού και πραγματικού χρόνου οπτικοακουστική επικοινωνία.

Η πρώτη κατηγορία είναι πιο καλά καθορισμένη και ήδη ευρέως χρησιμοποιούμενη. Υπάρχουν πολλές εκπαιδευτικές και ψυχαγωγικές εφαρμογές στις οποίες μέρος της πληροφορίας βρίσκεται σε μορφή video  που αναπαράγεται ανάλογα με τις ανάγκες της εφαρμογής. Τέτοιου είδους δικτυακές εφαρμογές είναι ακόμα περιορισμένες λόγω τεχνολογικών προβλημάτων. Μια πιθανή εφαρμογή είναι η χρήση εξυπηρετητών που θα αποθηκεύουν μεγάλες βιβλιοθήκες video-clips και θα τα μεταδίδουν κατόπιν αιτήσεως του χρήστη (video-on-demand).

Η οπτικοακουστική επικοινωνία μπορεί να είναι ένας-προς-έναν, όπως για παράδειγμα η συνομιλία δύο ατόμων μέσω υπολογιστή που είναι εφοδιασμένος με κάμερα και συνδεδεμένος σε  δίκτυο. Σε σύγκριση με τις εξειδικευμένες συσκευές τηλεδιάσκεψης, αυτά τα  συστήματα προσωπικών υπολογιστών υστερούν σημαντικά σε ποιότητα. Η ανάλυση της εικόνας, το βάθος χρώματος και ο ρυθμός ανανέωσης των πλαισίων είναι πολύ μικρά. Κατά συνέπεια, για εφαρμογές που  η οπτική επαφή είναι σημαντική, για παράδειγμα η συνέντευξη ενός νέου υπαλλήλου, τα συστήματα αυτά δεν είναι κατάλληλα. Υπάρχουν όμως περιπτώσεις που η ποιότητα βρίσκεται σε δεύτερη μοίρα και τα συστήματα αυτά βρίσκουν εφαρμογή. H ενημέρωση ενός διευθυντή από υπαλλήλους που εργάζονται σε διαφορετικά σημεία μέσω ενός κοινού χώρου εργασίας (shared workspace) είναι ένα παράδειγμα τέτοιας εφαρμογής.

Σε πολλές περιπτώσεις το μοντέλο επικοινωνίας ένας-προς-πολλούς είναι πιο κατάλληλο. Για παράδειγμα, οι υπάλληλοι μιας εταιρείας ή οι φοιτητές ενός πανεπιστημίου μπορούν να παρακολουθούν ένα σεμινάριο που γίνεται σε κάποια άλλη τοποθεσία λαμβάνοντας την εικόνα μέσω δικτύου και αναπαράγοντας την στον υπολογιστή τους. Αυτές οι εφαρμογές έχουν το μεγάλο μειονέκτημα ότι για να σταλεί το σήμα σε  πολλούς παραλήπτες απαιτούνται ταχύτατα δίκτυα και εξυπηρετητές.

4.4.2    Σύλληψη Video

Μια οθόνη τηλεόρασης μπορεί να μοιάζει φαινομενικά με αυτήν του υπολογιστή αλλά στην ουσία υπάρχουν πολλά διαφορετικά στοιχεία. Τα υποσυστήματα γραφικών των υπολογιστών συνθέτουν την εικόνα με την τριάδα βασικών χρωμάτων  RGB. Αντίθετα, στις τηλεοράσεις το σύνθετο σήμα αποτελείται από τη φωτεινότητα και τις δυο χρωματικές συνιστώσες. Επιπλέον, η σάρωση στην τηλεόραση είναι πλεκτή ενώ οι ρυθμοί ανανέωσης και το μέγεθος του πλαισίου ποικίλουν από πρότυπο σε πρότυπο αλλά σε κάθε  περίπτωση διαφέρουν από αυτά του υπολογιστή. ’ρα για να γίνει η μετατροπή του τηλεοπτικού σήματος ή του σήματος video σε μορφή κατάλληλη για υπολογιστή απαιτείται ειδικό υλικό.

Το υλικό αυτό πέρασε διάφορα στάδια εξέλιξης κάθε ένα εκ των οποίων κυριάρχησε έναντι των προκατόχων του. Επίσης, είναι φανερή η μετακίνηση προς τα διεθνή πρότυπα.

4.4.2.1       Κάρτες Υπέρθεσης Video (video overlay boards)

Το μόνο που προσέφερε αυτή η πρώτη γενιά καρτών ήταν παρουσίαση της εικόνας σε κάποιο τμήμα της οθόνης και στοιχειώδεις δυνατότητες συγχρονισμού για την μίξης της εικόνας με κείμενο και γραφικά. Δεν ψηφιοποιούσαν το σήμα, απλά το απεικόνιζαν απευθείας στην οθόνη. Οι δυνατότητες επέμβασης πάνω σε αυτό ήταν ελάχιστες.

4.4.2.2       Ψηφιοποιητές

Αυτές οι συσκευές δέχονται σήμα PAL ή NTSC από κάποια αναλογική πηγή (video player, videodisk, camera) και το ψηφιοποιούν. Παρέχουν διάφορες δυνατότητες editing, όπως για παράδειγμα απομόνωση κάποιων πλαισίων και αποθήκευση τους ως ακίνητες εικόνες, αλλαγή του μεγέθους, των χρωμάτων και της φωτεινότητας της εικόνας και άλλα. Η παρουσίαση στην οθόνη μπορεί να γίνει σε παράθυρο οποιουδήποτε μεγέθους και σε οποιαδήποτε θέση.

4.4.2.3       Κάρτες Συμπίεσης

Το  1989 η Intel παρουσίασε το DVI, ένα δικό της πρότυπο για εφαρμογές κινούμενης εικόνας, ακολουθούμενο από μια σειρά επεξεργαστών και καρτών που επέτρεπαν τη σε πραγματικό χρόνο συμπίεση και αποθήκευση σε σκληρό δίσκο του σήματος ενός ψηφιοποιητή.

Πιο πρόσφατα προϊόντα με παρόμοιες δυνατότητες υποστηρίζουν τα διεθνή πρότυπα για συμπίεση εικόνας JPEG και MPEG. Αν και το JPEG είναι ουσιαστικά ένα πρότυπο συμπίεσης ακίνητης εικόνας, στη πράξη βρέθηκε ότι μπορεί να χρησιμοποιηθεί αποτελεσματικά και για την συμπίεση κινούμενης εικόνας. Η συμπίεση γίνεται σε κάθε πλαίσιο ξεχωριστά σαν να ήταν μια ακίνητη εικόνα. Αυτό σημαίνει ότι το editing σε επίπεδο πλαισίου είναι πολύ απλό. Το πρότυπο αυτό είναι γνωστό ως MJPEG (Motion JPEG). Όπως έχουμε ήδη πει, το MPEG σχεδιάστηκε εξ΄ αρχής για εφαρμογές κινούμενης εικόνας που χρησιμοποιούν αποθηκευτικά μέσα όπως το CD-ROM.

4.4.3    Τεχνικές Συμπίεσης

Στην προηγούμενη ενότητα είδαμε με ποιο τρόπο εντοπίζεται και απορρίπτεται το χωρικό(πλεόνασμα πληροφορίας μιας εικόνας. Στην κινούμενη εικόνα, υπάρχει ένα ακόμα είδος πλεονάσματος το χρονικό πλεόνασμα. Πιο συγκεκριμένα, όταν κινείται ένα αντικείμενο τα διαδοχικά πλαίσια μοιάζουν σημαντικά. Κάποια τμήματα των πλαισίων δεν επηρεάζονται καθόλου από την κίνηση ενώ κάποια άλλα πιθανόν να αλλάζουν απλώς θέση με μικρή ή και καμία αλλαγή του περιεχομένου τους.

Ένας αλγόριθμος συμπίεσης κινούμενης εικόνας μπορεί να στηρίζεται μόνο στην εξάλειψη του χωρικού πλεονάσματος ή να συνδυάζει εξάλειψη και των δύο ειδών πλεονασμάτων. Το MJPEG είναι ένα παράδειγμα της πρώτης κατηγορίας και το MPEG της δεύτερης. Πλεονέκτημα των αλγορίθμων της πρώτης κατηγορίας είναι η ευκολία επέμβασης στην εικόνα σε επίπεδο πλαισίου και η ανθεκτικότητα σε λάθη κατά την μετάδοση μέσω δικτύου. Αυτό συμβαίνει γιατί κάθε πλαίσιο είναι ανεξάρτητο από τα υπόλοιπα και κάθε λάθος επηρεάζει μόνο αυτό. Αντίθετα σε τεχνικές όπως το MPEG υπάρχει συσχέτιση κάθε πλαισίου με τα προηγούμενα του, οπότε και είναι δύσκολο να γίνει η εξαγωγή των πλαισίων και κάθε λάθος έχει επιπτώσεις σε όλα τα συσχετιζόμενα  πλαίσια. Αναμφισβήτητα, η εξάλειψη και του χωρικού και του χρονικού πλεονάσματος οδηγεί σε σημαντικά μεγαλύτερους λόγους συμπίεσης γι’ αυτό και το ενδιαφέρον εστιάζεται σε αυτούς.

Για να πάρει ο αναγνώστης μια ιδέα για το πως λειτουργεί ένα τέτοιος αλγόριθμος θα περιγράψουμε σε συντομία τον τρόπο λειτουργίας του MPEG-1.

4.4.4    Το Πρότυπο Συμπίεσης MPEG

4.4.4.1       Η ανάγκη για ψηφιακή συμπίεση

Με δεδομένη την oλοένα και αυξανόμενη χρήση της ψηφιακής τεχνολογίας, η οποία αντικαθιστά την αναλογική που παραδοσιακά χρησιμοποιείται εδώ και δεκαετίες στις τηλεπικοινωνίες, την τηλεόραση, την ηχογράφηση και αναπαραγωγή της μουσικής αλλά και σε άλλους τομείς, έχει αρχίσει παράλληλα να γίνεται έρευνα και προς την κατεύθυνση της συμπίεσης της ψηφιακής πληροφορίας, με στόχο την οικονομία εύρους φάσματος (bandwidth). Οι λόγοι για τους οποίους είναι όχι απλά χρήσιμη αλλά απαραίτητη η ανάπτυξη αυτών των τεχνικών συμπίεσης δεν είναι ίσως τόσο προφανείς, γι’ αυτό ας εξετάσουμε μερικά παραδείγματα που φανερώνουν την επιτακτική ανάγκη για επέκταση της εφαρμογής της ψηφιακής συμπίεσης, τόσο στην εικόνα όσο και στον ήχο (δύο μορφές επικοινωνίας που παράγουν αυξημένο όγκο ψηφιακής πληροφορίας).  

Eνα κανονικό ασυμπίεστο τηλεοπτικό σήμα PAL καταλαμβάνει ένα  bandwidth περίπου 5 MHz. 'Eστω ότι θέλουμε να το μεταδώσουμε ψηφιακά. Για να μην έχουμε απώλεια πληροφορίας (που μεταφράζεται σε μείωση της ποιότητας της εικόνας) πρέπει σύμφωνα με το θεώρημα Nyquist να κάνουμε τη δειγματοληψία στη διπλάσια συχνότητα, δηλαδή στα 10 MHz. Για να έχουμε επαρκή ευκρίνεια (resolution) πρέπει κάθε δείγμα να έχει τουλάχιστον 8 bits (28=256 επίπεδα κωδικοποίησης). Μέχρι στιγμής έχουμε 10*8=80 Mbits/sec. Αν και ήδη αντιμετωπίζουμε πρόβλημα μετάδοσης σε μία τόσο υψηλή ταχύτητα, το πρόβλημα είναι μεγαλύτερο αν θέλουμε να έχουμε καλύτερη ευκρίνεια, οπότε θα χρησιμοποιήσουμε δείγματα των 16, ή 24 bits και φυσικά μέχρι στιγμής αναφερόμαστε σε ασπρόμαυρη εικόνα. Αν θέλουμε να έχουμε και χρώμα ο όγκος της ψηφιακής πληροφορίας γίνεται τριπλάσιος (αφού κάθε χρώμα σχηματίζεται σα συνδυασμός των τριών βασικών χρωμάτων πράσινο, κόκκινο, μπλέ - μιλώντας πάντα για ασυμπίεστα σήματα). Συνεπώς χρειαζόμαστε τουλάχιστον 3*80=240 Mbits/sec (30 MB/sec).

Για να καταλάβει κανείς το μέγεθος του bandwidth που χρειάζεται αρκεί να το συγκρίνει με την ταχύτητα μεταφοράς (transfer rate) δεδομένων από/προς τον επεξεργαστή μέσα σε ένα computer (που γίνεται στις περισσότερες περιπτώσεις με ISA bus) η οποία δεν μπορεί να ξεπεράσει τα  40 Μbit/sec (5 MB/sec) είναι δηλαδή 6 φορές πιο μικρή από όσο χρειαζόμαστε. Ακόμα και με τη χρήση SCSI bus το πρόβλημα παραμένει. Στην περίπτωση των CD/ROM τα πράγματα γίνονται ακόμα πιο δύσκολα αφού αυτά φτάνουν μέχρι 10 Μbit/sec (24 φορές πιο μικρή ταχύτητα). Έτσι παρόλο που είναι δυνατή (αν και πρακτικά ασύμφορη) η μετάδοση του παραπάνω σήματος (π.χ. μέσω δικτύων ΑΤΜ) είναι αδύνατη η αποθήκευση και αναπαραγωγή του.

Αλλά δεν είναι μόνο το transfer rate που κάνει αδύνατη την αξιοποίηση της παραπάνω μετάδοσης. Αρκεί να αναλογιστούμε ότι για την αποθήκευση ενός τυπικού κινηματογραφικού film που διαρκεί 90 λεπτά (90*60=5400 δευτερόλεπτα), θα χρειαζόμασταν αποθηκευτικό μέσο ικανό να αποθηκεύσει τα 30*5400=162 GΒ. Δηλαδή πρέπει να χρησιμοποιήσουμε περίπου 65 σκληρούς δίσκους computer, χωρητικότητας 2,5 GΒ (μία τυπική χωρητικότητα για τα σημερινά δεδομένα).

’λλο παράδειγμα που δείχνει το πρόβλημα αποθήκευσης είναι το γνωστό σε όλους μας CD. Εκεί αποθηκεύονται περίπου 75 λεπτά ασυμπίεστου στερεοφωνικού ψηφιακού ήχου με συχνότητα δειγματοληψίας 44.1 KHz και ακρίβεια 16-bit. Δεδομένου ότι έχουμε δύο ανεξάρτητα κανάλια, ο συνολικός όγκος πληροφορίας είναι περίπου 650 MB. Αν όμως το CD χρησιμοποιηθεί για την αποθήκευση ψηφιακού video τότε μπορεί να χωρέσει το πολύ 30 δευτερόλεπτα. Ακόμα και τα νεότερης επινόησης DVD (Digital Video Disk) τα οποία είναι CD με χωρητικότητα 4.7 GB (δηλαδή 7 φορές πιο μεγάλη από το ‘κανονικό’ CD), δεν επαρκούν για την αποθήκευση μιας κινηματογραφικής ταινίας 90 λεπτών ασυμπίεστου ψηφιακού video αφού χρειαζόμαστε τουλάχιστον 35 DVD.

Όλα τα παραπάνω κάνουν φανερό ότι υπάρχει πρόβλημα τόσο μετάδοσης όσο και αποθήκευσης του ασυμπίεστου ψηφιακού σήματος video (άρα και του ήχου που το συνοδεύει, παρ’ όλο που καταλαμβάνει πολύ λιγότερο όγκο). Μόνο στην περίπτωση του μουσικού CD το πρόβλημα αποθήκευσης έχει λυθεί και έχει δημιουργηθεί ένα standard που επιτρέπει την αποθήκευση του ήχου σε ψηφιακή ασυμπίεστη μορφή. Ακόμα και σε αυτή την περίπτωση όμως το πρόβλημα μετάδοσης του ήχου ποιότητας CD παραμένει (εδώ εννοούμε τη μετάδοση σε ευρύτερα δίκτυα όπως το Internet ή την τηλεοπτική μετάδοση μέσω δορυφόρων, όπου η ανάγκη για οικονομία bandwidth είναι δεδομένη). ’ρα είναι φανερό ότι πρέπει να γίνουν προσπάθειες για τη σημαντική μείωση του όγκου της ψηφιακής πληροφορίας αλλά χωρίς να γίνουν μεγάλοι συμβιβασμοί στην ποιότητα του ήχου και της εικόνας. 

4.4.4.2       Το πρότυπο συμπίεσης MPEG

Τα αρχικά MPEG προέρχονται από τις λέξεις Moving Picture Experts Group (Ομάδα Ειδικών στην Κινούμενη Εικόνα) . Πρόκειται για  μία επιτροπή που δρα στα πλαίσια του Διεθνούς Οργανισμού τυποποίησης. Επίσημα είναι γνωστή σαν ISO/IEC JTC1/SC29/WG11. Ιδρύθηκε το 1988  και είναι μέλος του JTC1 (Joint ISO/IEC Technical Committee on Information Technology - Ενωμένη Τεχνική επιτροπή ΙSO/IEC στην Τεχνολογία της Πληροφορικής) . Ο συντονιστής της επιτροπής MPEG είναι ο Leonardo Chiariglione γνωστός σαν ο «πατέρας» του MPEG. Η επιτροπή πραγματοποιεί 3 - 4 συναντήσεις το χρόνο σε διάφορες πόλεις του κόσμου όπου συζητούνται οι εξελίξεις της ερευνητικής δουλειάς που έχει γίνει ενδιάμεσα, θέτονται στόχοι και προθεσμίες και διατυπώνονται οι προδιαγραφές πάνω στις οποίες οι εταιρίες θα αναπτύξουν τα προϊόντα.

Το όνομα MPEG έχει επικρατήσει όμως να αναφέρεται και στην οικογένεια των τυποποιήσεων (standards) που δημιουργήθηκαν από την ομάδα MPEG και χρησιμοποιούνται γιά τη μετάδοση οπτικών και ηχητικών δεδομένων σε ψηφιακή συμπιεσμένη μορφή. Η οικογένεια MPEG περιλαμβάνει τα standards MPEG-1, MPEG-2 και τo επερχόμενo MPEG-4, τα οποία είναι επίσημα γνωστά σαν ISO/IEC-11172, ISO/IEC-13818 και ISO/IEC-14496 αντίστοιχα. Πιο αναλυτικά :

·       MPEG-1     Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s. Αναπτύχθηκε για την αποθήκευση και ανάκτηση κινούμενης εικόνας και ήχου σε ψηφιακά μέσα με ρυθμό μετάδοσης μέχρι 1,5 Μbits/sec. H εικόνα έχει ανάλυση 352x240 pixels (NTSC) ή 352x288 pixels (PAL) και η ποιότητά της είναι σε επίπεδα VHS video. Χρησιμοποιείται κυρίως για την αποθήκευση video σε CD-ROM, Video-CD και CD-i και όπου αλλού χρειάζεται μικρό (σε σχέση με το MPEG-2) bandwidth. To MPEG-1 μπορεί να χρησιμοποιηθεί σε εφαρμογές με ρυθμό μετάδοσης 4-5 Mbits/sec, αλλά τα αποτελέσματα δεν είναι τόσο καλά, όσο στην κανονική περιοχή λειτουργίας του.

·       MPEG-2     Generic coding of moving pictures and associated audio information. Aναπτύχθηκε για εφαρμογή στην ψηφιακή τηλεόραση. H βασική ανάλυση της εικόνας ακολουθεί το τηλεοπτικό πρότυπο CCIR-601 (broadcast quality - ποιότητα εκπομπής) δηλαδή 704x480 pixels (NTSC) ή 704x576 pixels (PAL) και υποστηρίζει εικόνα πλεκτής σάρωσης (interlaced). Ο ρυθμός μετάδοσης κυμαίνεται από 3 ως 10 Mbits/sec. Οι εφαρμογές του είναι στην καλωδιακή τηλεόραση (CableTV), στη δορυφορική (Direct Broadcasting Satellite TV) αλλά αναμένεται να επεκταθεί και στην επίγεια τηλεόραση. Επίσης χρησιμοποιείται στην αποθήκευση κινηματογραφικών ταινιών στα DVD (Digital Video Disk). 

·       MPEG-4     Coding of audio-visual objects. Ο όρος audio visual objects (AV-objects) είναι γενικός και  σημαίνει διάφορες οντότητες που απαρτίζουν την εικόνα και οι οποίες μπορούν κωδικοποιητής και αποκωδικοποιητής να χειρισθούν αυτόνομα και ανεξάρτητα από τις υπόλοιπες. Με τον όρο οντότητες πάλι εννοούμε σχήματα και ήχους, φυσικούς ή computer generated που χρησιμοποιούνται για να αναπαραστήσουν άλλα ομοειδή αντικείμενα. Είναι ένα standard για εφαρμογές επικοινωνίας πολυμέσων (multimedia comunications) δηλαδή εφαρμογές όπως video-phone, video-conference, video e-mail, electronic news και πολλές άλλες. Η ανάλυση της εικόνας είναι 176x144 pixels σε  σχετικά  χαμηλούς ρυθμούς μετάδοσης που κυμαίνονται ανάμεσα στα 4.8 και 64 Κbits/sec, κατάλληλα δηλαδή για μετάδοση σε δίκτυα με μικρό διαθέσιμο bandwidth ανά συνδρομητή, όπως το Internet.

Επίσης υπάρχει στα σχέδια και το MPEG-7 που είναι ένα standard κωδικοποίησης με αναπαράσταση περιεχομένου (content representation), για την αναζήτηση πληροφοριών σε εφαρμογές πολυμέσων.

Να σημειωθεί ότι οι αναλύσεις (resolution) της εικόνας που αναφέρθηκαν παραπάνω δεν είναι περιοριστικές αλλά αναφέρονται στους περιορισμούς που έχουν τεθεί για να κρατηθούν σε λογικά επίπεδα η πολυπλοκότητα των κωδικοποιητών και αποκωδικοποιητών και ο όγκος δεδομένων. Ο περιορισμός αυτός ονομάζεται CPB (Constrained Parameters Bitstream) και ορίζει τις διαστάσεις που πρέπει να έχουν τα MPEG σήματα, κάτι σαν ένα standard format. Παρόλα αυτά μπορεί να γίνει κωδικοποίηση και σε υψηλότερες αναλύσεις απλώς δεν υπάρχει εγγύηση ότι θα μπορούν να χρησιμοποιηθούν με όλους τους διαθέσιμους αποκωδικοποιητές, άσχετα αν ακολουθούν τους κανόνες του MPEG. Ετσι το MPEG-2 π.χ. μπορεί να φτάσει ανάλυση (resolution) 1920x1080 και το MPEG-1 4095x4095. Επίσης το γεγονός ότι τα σήματα MPEG εμφανίζονται σε δύο διαφορετικές αναλύσεις (διαστάσεις) εικόνας οφείλεται στην ύπαρξη δύο συστημάτων για το αναλογικό σήμα, τα PAL και NTSC, με δειγματοληψία των οποίων προκύπτουν τα σήματα MPEG. Ακόμα δεν έχει γίνει σημαντική πρόοδος στην κατεύθυνση της δημιουργίας πηγών (κάμερες κτλ.) που θα παράγουν σήμα MPEG απευθείας.

Τα δύο τελευταία στάδια του MPEG είναι ακόμα υπό ανάπτυξη και δεν έχουν γίνει ακόμα standards (το MPEG-4 δεν έχει γίνει ακόμα standard και το MPEG-7 είναι ακόμα στα προκαταρκτικά σχέδια) ενώ τα MPEG-1 και MPEG-2 έχουν τεθεί ήδη σε εκτεταμένη εφαρμογή. Σε γενικές γραμμές το MPEG-1 έχει αντικατασταθεί από το MPEG-2 το οποίο είναι μια βελτίωση του, που προσφέρει καλύτερη εικόνα και λόγους συμπίεσης και είναι συμβατό με το MPEG-1 (backwards compatible). Αυτό σημαίνει ότι συσκευές MPEG-2 μπορούν να χειριστούν σήματα συμπιεσμένα με MPEG-1 (αλλά όχι το αντίστροφο).

Ενδιάμεσα υπήρξε και το MPEG-3 το οποίο ήταν προσανατολισμένο στην τεχνολογία της Τηλεόρασης Υψηλής Ευκρίνειας (HDTV - Ηigh Definition TV) αλλά εγκαταλείφθηκε αφού διαπιστώθηκε ότι το MPEG-2 μπορεί με κάποιες αλλαγές στη σύνταξη των προδιαγραφών να χρησιμοποιηθεί το ίδιο καλά στη HDTV. 'Eτσι η δουλειά που είχε γίνει πάνω στο MPEG-3 ενσωματώθηκε στο MPEG-2.

Παρακάτω θα ακολουθήσει μία γενική περιγραφή των γενικών αρχών και των διαφόρων βημάτων της μεθόδου συμπίεσης που χρησιμοποιείται για το video, οι οποίες είναι κοινές και στις τρεις ‘εκδόσεις’ του MPEG. Κατόπιν θα γίνει μία σύντομη περιγραφή του τρόπου κωδικοποίησης του ήχου, ή οποία διαφέρει από αυτή του video και στις ιδιότητες πάνω στις οποίες στηρίζεται αλλά και στις μεθόδους που χρησιμοποιεί.

4.4.5    Γενικές αρχές της συμπίεσης video

4.4.5.1       Ποιοτική ανοχή

Σε αντίθεση με την αντίληψη ότι η ψηφιακή μετάδοση θα πρέπει να έχει το εύρος ζώνης που χρειάζεται για να μεταδώσει και το πιο απαιτητικό πλαίσιο (frame) μιας σειράς κινούμενων εικόνων, ακόμα και αν αυτό παρουσιάζεται με συχνότητα 1%, τώρα πια κάτω από την εμπορική πίεση που υπάρχει (λόγοι κόστους) θεωρείται λογικό να  δεχόμαστε  κάποιο ποσοστό παραμόρφωσης σε τέτοιες σπάνιες σκηνές, με αντάλλαγμα να μπορούμε να χρησιμοποιήσουμε τα bit που εξοικονομούμε για την αναβάθμιση του μέσου όρου ανάλυσης του συνόλου των σκηνών. Έτσι σε αντίθεση με την ηχογράφηση ήχου σε CD, που γίνεται χωρίς καμία συμπίεση, στη συμπίεση video αναζητείται μία χρυσή τομή (sweet spot) ανάμεσα στην ποιότητα και το bandwidth που πολλές φορές βασίζεται σε υποκειμενικές μετρήσεις που γίνονται σε άτομα που θεωρούνται ικανά “δείγματα” πάνω στην εκτίμηση της εικόνα και του ήχου λόγω επαγγελματικής εμπειρίας. Αν η εμπειρία τους δεν τους επιτρέπει να αντιληφθούν σημαντικές διαφορές στην ποιότητα του κωδικοποιημένου ήχου από τον αρχικό και συγχρόνως θεωρούν ανεκτές τις ατέλειες (artifacts) της εικόνας μετά από κάποιο ποσοστό συμπίεσης, η μέθοδος και το ποσοστό αυτό θεωρούνται αποδεκτά και τυποποιούνται. Να σημειωθεί εδώ ότι ενώ ο ήχος προσφέρεται για μεγάλα ποσοστά συμπίεσης χωρίς να μπορεί να γίνει αισθητή υποβάθμιση στην ποιότητά του, στον τομέα της εικόνας τα πράγματα είναι λίγο πιο δύσκολα και οι όποιες ατέλειες είναι ορατές, απλά γίνεται προσπάθεια να μην γίνονται ενοχλητικές για το θεατή.

4.4.5.2       Πλεονασμός (Redundancy)

Η βασική αρχή πάνω στην οποία στηρίζονται όλες οι μέθοδοι ψηφιακής συμπίεσης είναι το γεγονός ότι το σήμα εμπεριέχει ένα ποσοστό πλεονασμού (redundancy). Με τον όρο αυτό εννοούμε την πληροφορία που είτε μπορεί να παραληφθεί, είτε να κωδικοποιηθεί με λιγότερη ακρίβεια, χωρίς αυτό να έχει αξιοσημείωτη επίδραση στο τελικό αποτέλεσμα. Υπάρχουν δύο είδη πλεονασμού:

1.      Στατικός πλεονασμός (Spatial Redundancy):  Το επίπεδο του σήματος μπορεί σε κάθε δεδομένη χρονική στιγμή να πρoϋπολογιστεί από την προηγούμενη τιμή του, γιατί οι τιμές δειγμάτων της εικόνας σε μεγάλο ποσοστό σχετίζονται μεταξύ τους. Αυτό μπορούμε να το επαληθεύσουμε και εποπτικά π.χ. σε μία εικόνα του δελτίου ειδήσεων ένα μεγάλο κομμάτι της εικόνας (φόντο) παραμένει αμετάβλητο και μόνο το κομμάτι της εικόνας που καταλαμβάνει ο παρουσιαστής μεταβάλλεται ελαφρά (κινήσεις των χειλιών, των βλεφάρων κτλ). Έτσι μπορούμε να υπολογίσουμε ένα τμήμα της εικόνας από μία προηγούμενη και να προσθέσουμε απλά τις διαφορές που έχουν προκύψει χωρίς να χρειάζεται να κωδικοποιούμε σε κάθε πλαίσιο (frame) την πλεονάζουσα πληροφορία.

2.      Υποκειμενικός Πλεονασμός (Temporal Redundancy):  Ανάλογα με το περιεχόμενο της εικόνας το ανθρώπινο μάτι μπορεί να ανεχτεί ένα ποσοστό παραμόρφωσης ή αλλοίωσης ορισμένων παραμέτρων της εικόνας χωρίς αυτό να γίνει αντιληπτό. Π.χ. είναι γνωστό ότι η ανθρώπινη όραση είναι γενικά πολύ πιο ευαίσθητη στη φωτεινότητα της εικόνας παρά στα χρώματα. Αντίστοιχες ιδιότητες έχει και η ακοή. ’ρα μπορούμε να αφιερώσουμε λιγότερο από το διαθέσιμο bandwidth στην περιγραφή των χρωμάτων και γενικά της πλεονάζουσας πληροφορίας και αυτό να περάσει απαρατήρητο από το θεατή. Ο υποκειμενικός πλεονασμός και οι ιδιαιτερότητες της ανθρώπινης όρασης έχουν αξιοποιηθεί εδώ και δεκαετίες στην αναλογική τεχνολογία της τηλεόρασης, αλλά τώρα βρίσκουν εφαρμογή και στις ψηφιακές τεχνικές μετάδοσης.

4.4.5.3       DCT Coding (Discrete Cosine Transform Coding)

Ο Διακριτός Συνημιτονικός Μετασχηματισμός (Discrete Cosine Transform) είναι μία μέθοδος που βρίσκει μεγάλη εφαρμογή  στην ψηφιακή συμπίεση γενικά αλλά και στο MPEG ειδικότερα. Με το μετασχηματισμό DCT μπορούμε να μεταφέρουμε την πληροφορία που περικλείει η εικόνα από το πεδίο του χώρου στο πεδίο της συχνότητας (αφηρημένο πεδίο), όπου η περιγραφή της μπορεί να γίνει με σημαντικά μικρότερο πλήθος bits, για διάφορους λόγους.

Ο μετασχηματισμός DCT ορίζεται ως εξής :

Για κάθε pixel (x,y) εφαρμόζοντας τον τύπο :

(4.1)   

όπου C(x) = 0.7071, x =0

1        , x >0

παίρνουμε την τιμή DCT(i,j) που είναι η τιμή του συντελεστή του μετασχηματισμού στο πεδίο της συχνότητας. Έτσι αντιστοιχίζουμε τις τιμές των pixels στις αντίστoιχες τιμές συντελεστών.

 Οι συντελεστές αυτοί μεταφέρουν ο καθένας ένα κομμάτι της αρχικής πληροφορίας (αυτό που αντιστοιχεί στο κομμάτι του φάσματος που περιγράφει). Επειδή όμως έχει παρατηρηθεί ότι η ανθρώπινη όραση αντιλαμβάνεται πολύ περισσότερο τα φαινόμενα που σχετίζονται με χαμηλές συχνότητες όπως (π.χ. χρώματα  με μικρότερα μήκη κύματος), ενώ δείχνει κάποια ανοσία σε υψίσυχνες περιοχές του σήματος (π.χ. ακμές της εικόνας), οι συντελεστές του μετασχηματισμού που αντιστοιχούν σε χαμηλές συχνότητες έχουν μεγαλύτερη βαρύτητα από αυτούς που περιγράφουν τις υψηλές συχνότητες και για το λόγο αυτό οι πρώτοι περιγράφονται με τη μεγαλύτερη δυνατή ακρίβεια..

Κατά την αναπαραγωγή γίνεται η αντίστροφη διαδικασία με τη βοήθεια του  μετασχηματισμού IDCT (Inverse Discrete Cosine Transform - Αντίστροφος Διακριτός Μετασχηματισμός Συνημίτονων) , που περιγράφεται από τον τύπο:

(4.2)   

Το αποτέλεσμα είναι να πάρουμε πίσω σχεδόν ανέπαφη την αρχική πληροφορία (εκτός από κάποια αναπόφευκτα σφάλματα στρογγυλοποίησης).

4.4.5.4       Κβαντοποίηση (Quantization)

Η μέθοδος που μας βοηθάει να απαλλαγούμε από σημαντικό μέρος της πληροφορίας είναι η κβαντοποίηση. Με τον όρο κβαντοποίηση γενικά εννοούμε τη μετατροπή ενός σήματος άπειρων (η πάρα πολλών) τιμών σε ένα σήμα ορισμένων διακριτών τιμών π.χ. η κβαντοποίηση μιας εικόνας που περιέχει εκατομμύρια χρώματα οδηγεί σε μία εικόνα που έχει 256 διαφορετικές τιμές για το χρώμα (πρότυπο JPEG). Με άλλα λόγια κβαντοποίηση είναι ο περιορισμός των bits με τα οποία περιγράφουμε τα δείγματα του σήματος (προφανώς το 256 έχει πολύ λιγότερα bits από τους τεράστιους αριθμούς με τους οποίους έπρεπε να περιγράψουμε τα δείγματά μας αν δεν γινόταν κβαντοποίηση).

Ένα παράδειγμα (με πιο «διαισθητικά» νούμερα) είναι το παρακάτω που δείχνει ταυτόχρονα με τη μεγάλη οικονομία που γίνεται και την εισαγωγή σημαντικών σφαλμάτων (για τον περιορισμό των οποίων επιστρατεύονται άλλες μέθοδοι) :

O αριθμός 45 είναι 101101 έχει δηλαδή 6 bits.

Με 4 bits γίνεται 1011 = 11

Με 3 bits γίνεται 101 = 5 κτλ.

Δηλαδή αν είχαμε διαλέξει να περιγράψουμε το σήμα με 3 bits, τιμές όπως το 45 και το 11 θα έπαιρναν την τιμή 101 (=5). Είναι προφανές ότι η κβαντοποίηση εισάγει σφάλμα ανάλογο με τον αριθμό τον bits που απορρίπτονται και κατά συνέπεια ευθύνεται στο μεγαλύτερο βαθμό γιά την απώλεια πληροφορίας κατά τη συμπίεση (lossy compression) σε αντίθεση με το μετασχηματισμό DCT που είναι μία, σε μεγάλο βαθμό αντιστρεπτή διαδικασία.

Για να περιγράψουμε όσο περισσότερες από τις τιμές του σήματος γίνεται με δοσμένο αριθμό bits, διαιρούμε τις τιμές των δειγμάτων είτε με σταθερές τιμές (uniform quantization)  είτε με πίνακες κβαντοποίησης (quantization tables). Στη συγκεκριμένη περίπτωση, δηλαδή στο πρότυπο MPEG χρησιμοποιείται η δεύτερη μέθοδος και μάλιστα υπάρχει ένας πίνακας για τα πλαίσια που έχουν κωδικοποιηθεί με ενδοπλαισιακή (intra-frame coding) και ένας για αυτά με δια-πλαισιακή (inter-frame coding). 

4.4.5.5       Τμηματική Πρόβλεψη Κίνησης (Block Motion Compensation)

Ένας τρόπος με τον οποίο μπορούμε να περιγράψουμε πιο αποτελεσματικά εικόνες με κίνηση είναι η τμηματική πρόβλεψη κίνησης. Με τη βοήθεια αυτής της μεθόδου μπορούμε να εκτελέσουμε τη δια-πλαισιακή  (inter-frame) κωδικοποίηση και να περιγράψουμε την αλληλουχία εικόνων ως σειρά ομοιοτήτων και διαφορών. Για παράδειγμα στο παρακάτω σχήμα έχουμε μία σκακιέρα σε δύο φάσεις που διαφέρουν μεταξύ τους στο ότι κάποια πιόνια έχουν μετακινηθεί.

Εναλλακτικά με το να κωδικοποιήσουμε ανεξάρτητα τα δύο πλαίσια μπορούμε να περιγράψουμε τη δεύτερη εικόνα με το να τη χωρίσουμε σε ίσα τμήματα και να φτιάξουμε ένα πίνακα που να περιέχει τμήματα που έχουν μείνει ίδια και διανύσματα που να δείχνουν τη νέα θέση των τμημάτων που άλλαξαν θέση. Έτσι αν έχουμε ήδη αποστείλει την πρώτη εικόνα μπορούμε να στείλουμε τη δεύτερη σαν ένα πίνακα 20 διανυσμάτων και ορισμένων σταθερών τμημάτων, που προφανώς έχει πολύ μικρότερο μέγεθος.

Το παραπάνω είναι μία καλή προσέγγιση της μεθόδου αλλά στην πραγματικότητα οι πραγματικές εικόνες δεν θα είναι τόσο όμοιες μεταξύ τους όσο η σκακιέρα. Θα έχουν κάποια κοινά τμήματα που αλλάζουν θέση από πλαίσιο σε πλαίσιο αλλά θα υπάρχουν και τμήματα που αλλάζουν θέση διατηρώντας το σχήμα τους αλλά μεταβάλλεται το χρώμα τους, καθώς και άλλα που δεν υπάρχουν σε προηγούμενο πλαίσιο αλλά εμφανίζονται σε κάποιο για πρώτη φορά. Για την κάλυψη αυτών των περιπτώσεων χρησιμοποιείται μία πιο βελτιωμένη εκδοχή της παραπάνω ιδέας (ή για την ακρίβεια διάφορες εκδοχές της παραπάνω ιδέας).

Η σύνταξη του MPEG καθορίζει πως θα αναπαρίσταται η πληροφορία για την κίνηση του κάθε macroblock, ότι θα γίνεται δηλαδή αυτή η αναπαράσταση με τη χρήση διανυσμάτων κίνησης, αλλά δεν καθορίζει πως τα διανύσματα αυτά θα υπολογίζονται και για το λόγο αυτό εμφανίζονται διάφορες υλοποιήσεις της μεθόδου εύρεσης των διανυσμάτων κίνησης οι οποίες στηρίζονται όλες στην ελαχιστοποίηση μίας συνάρτησης που υπολογίζει την ταύτιση του τρέχοντος με το macroblock αναφοράς.

Αν και μπορεί να χρησιμοποιηθεί κάθε συνάρτηση σφάλματος που υπάρχει, η πιο συχνά χρησιμοποιούμενη συνάρτηση είναι η Απόλυτη Διαφορά (AE - Absolute Error) η οποία δίνεται από τον παρακάτω τύπο :

(4.3)   

Στην παραπάνω εξίσωση το f(i,j) και g(i,j) αντιπροσωπεύουν τις συντεταγμένες των pixels στο τρέχον και το macroblock αναφοράς αντίστοιχα. Το macroblock αναφοράς που καθορίζεται από το διάνυσμα (dx,dy) αντιπροσωπεύει την περιοχή αναζήτησης. Το macroblock που παράγει το μικρότερο σφάλμα αντιστοιχεί στην τιμή του διανύσματος που ψάχνουμε.

Η πιο απλή διορατικά αλλά και η πιο πολύπλοκη από πλευράς υπολογιστικής πολυπλοκότητας  είναι η πλήρης αναζήτηση (full search) η οποία καλύπτει κάθε pixel στην περιοχή αναζήτησης.

Για να μειωθεί λίγο η υπολογιστική πολυπλοκότητα έχει επινοηθεί η μέθοδος  αναζήτησης τριών βημάτων (TSS - Three Step Search). Ο αλγόριθμος υπολογίζει την απόλυτη διαφορά (AE) στο κέντρο και σε οχτώ περιοχές της περιοχής αναζήτησης που είναι 32x32 pixels. Η περιοχή που θα έχει τη μικρότερη απόλυτη διαφορά γίνεται το κέντρο για την επόμενη αναζήτηση, η οποία έτσι έχει το μισό μέγεθος. Η διαδικασία αυτή επαναλαμβάνεται τρεις φορές, όπως φαίνεται στο παρακάτω σχήμα (η περιοχή του κάθε βήματος περικλείεται από σημεία που φέρουν την αντίστοιχη αρίθμηση).

Σχήμα 4-1: Motion Compensation με χρήση του Trhree Step Search

4.4.5.6       Ανατομία του σήματος ΜPEG

Ένα σήμα κωδικoποιημένο με MPEG αποτελείται από τρία επίπεδα: system, video και audio, όπως φαίνεται παρακάτω :

Σχήμα 4-2: Σχηματικό διάγραμμα αποκωδικοποιητή MPEG.

·       Το επίπεδο system περιλαμβάνει πληροφορίες σχετικά με το συγχρονισμό, την τυχαία), ελέγχει τη ροή του σήματος για να  μην παρατηρείται έλλειψη ή πλεονασμός δεδομένων, παρέχει πληροφορίες για σημεία αναφοράς που διευκολύνουν την τυχαία προσπέλαση (random access) και τέλος περιέχει πληροφορίες για το διαχωρισμό του video από το audio και γιά την συγχρονισμένη απεικόνισή τους.

·       Τα επίπεδα video και audio περιέχουν κωδικοποιημένη την εικόνα και τον ήχο αντίστοιχα.

Η κωδικοποίηση αυτών των επιπέδων μπορεί να έχει γίνει ταυτόχρονα ή ξεχωριστά. Σε κάθε περίπτωση, τα δεδομένα των τριών επιπέδων συνενώνονται σε ένα ενιαίο σήμα (bit-stream) μέσω μιας διαδικασίας που ονομάζεται πολυπλεξία (multiplexing ή muxing). H αντίστροφη διαδικασία ονομάζεται demultiplexing  (ή demuxing). Μερικά συστήματα κάνουν την πολυπλεξία σε πραγματικό χρόνο (real-time) και άλλα όχι.

Η διαδικασία της κωδικοποίησης και αποκωδικοποίησης του MPEG  γίνεται με hardware ή με software. Η λύση του software είναι πιο φθηνή αλλά έχει μειονέκτημα στον τομέα της ποιότητας της εικόνας και απαιτεί αρκετά ισχυρούς υπολογιστές για να λειτουργήσει (Pentium). Η λύση του hardware είναι ακριβότερη, βασίζεται σε υλοποιήσεις των διαφόρων μεθόδων με ολοκληρωμένα VLSI και παράγει αυτόνομα συστήματα (κωδικοποιητές ή αποκωδικοποιητές) που δεν χρειάζονται υπολογιστή για να λειτουργήσουν, ενώ ταυτόχρονα έχουν πολύ καλή ποιότητα εικόνας.

Είναι σημαντικό να σημειώσουμε ότι οι περισσότερες μέθοδοι κωδικοποίησης video όπως Cinepak, Indeo, Motion-JPEG,  στηρίζονται στις μεθόδους συμπίεσης ακίνητης εικόνας JPEG (Joint Photographic Experts Group), αντιμετωπίζοντας την κινούμενη εικόνα σαν μια σειρά από διαδοχικές ακίνητες εικόνες. Η μέθοδος MPEG αν και δανείζεται σε μεγάλο βαθμό τις βασικές αρχές του JPEG επεκτείνει την προσέγγιση αυτή και περιγράφει την παράμετρο της κίνησης με ένα πιο λεπτομερή και αποτελεσματικό τρόπο από τις άλλες μεθόδους, με ευεργετικά αποτελέσματα από πλευράς ποσοστού συμπίεσης.

Προκειμένου να γίνει η επεξεργασία της εικόνας και η διαδικασία πρόβλεψης της κίνησης, το κάθε πλαίσιο (frame) της εικόνας χωρίζεται σε τμήματα που ονομάζονται slices. Τα slices περιέχουν μία σειρά macroblocks, οποία όπως φανερώνει και το όνομά τους περιέχουν μία σειρά από blocks. Τα blocks είναι τμήματα της εικόνας διαστάσεων 8x8.

Ο ρόλος των slices είναι να περιορίσουν τη διάδοση των λαθών (error propagation). Αν ένα slice ληφθεί με λάθος παραλείπεται χωρίς να χάνουμε όλη την εικόνα. Γενικά τα slices βοηθούν στην απόκρυψη των σφαλμάτων (error concealment).

Το κάθε macroblock περιέχει ένα πίνακα με πληροφορίες φωτεινότητας (16x16) και δύο πίνακες του μισού μεγέθους (8x8) για το χρώμα.

Πιο αναλυτικά : όπως είναι γνωστό από την αναλογική τεχνολογία της τηλεόρασης και για λόγους που έχουν ήδη αναφερθεί, για την κωδικοποίηση της εικόνας δε χρησιμοποιούμε τρία ανεξάρτητα σήματα για τις συνιστώσες R,G,B παρόλο που κάθε χρώμα μπορεί να περιγραφεί από αυτές και άλλo ένα για τη φωτεινότητα, αλλά στην πράξη χρησιμοποιείται μόνο αυτό της φωτεινότητας (Υ) και δύο άλλα (Cr) και (Cb) που περιέχουν τις πληροφορίες για τα R,G,B αν συνδυαστούν με τη φωτεινότητα σύμφωνα με τους παρακάτω τύπους :

Y = 0,30R + O,59G + 0,14B                                      

Cr = 0,74(R-Y) - 0,27(B-Y) = 0,60R + 0,28G + 0,32B         

Cb = 0,48(R-Y) + 0,41(B-Y) = 0,21R + 0,52G + 0,31B         (γιά το NTSC)

και

Y = 0,30R + O,59G + 0,11B                                      

Cr = 0,493(B-Y) = -0,15R - 0,29G + 0,44B  

Cb = 0,877(R-Y) = 0,62R - 0,52G - 0,10B (για το PAL)

* Να σημειώσουμε ότι αυτό το μοντέλο είναι αυτό που συναντάται πιο  συχνά. Παρ’ όλα αυτά στις μέρες μας γίνεται πρόοδος και στον τομέα της αναλογικής τεχνολογίας της εικόνας και έχουν εισαχθεί νέες αναλογικές τεχνικές όπως το S-VHS όπου οι τρεις συνιστώσες του σήματος μεταδίδονται με τρία διαφορετικά σήματα.

Τα σήματα  Cr και Cb δειγματοληπτούνται στα 6,75 Ηz και το Υ στα 13,5 Hz (δηλαδή στη διπλή συχνότητα). Και οι δύο συχνότητες πάντως έχουν επιλεγεί γιατί είναι πολλαπλάσια του 2,25 Hz που είναι το ελάχιστο κοινό πολλαπλάσιο των γραμμών των πλαισίων PAL και NTSC (525/2*25 και 625/2*30) και αυτό γιατί σύμφωνα με τηλεοπτικά πρότυπα πρέπει ο ρυθμός δειγματοληψίας να είναι ο ίδιος ανεξάρτητα με τη συχνότητα του αναλογικού σήματος.

Αντίστοιχα στην ψηφιακή τους μορφή τα τρία αυτά σήματα έχουν την παρακάτω μορφή για κάθε macroblock, δηλαδή τρεις πίνακες (blocks), ένας 16x16 και δύο 8x8, που δείχνουν τις τιμές φωτεινότητας και χρώματος για τα pixels του block.

Πάνω στους πίνακες αυτούς εφαρμόζεται ο μετασχηματισμός  DCT και οι υπόλοιπες διαδικασίες συμπίεσης καθώς και η διαδικασία της πρόβλεψης της κίνησης.

4.4.5.7       Είδη πλαισίων (frames)

Δύο βασικές προσεγγίσεις στην κωδικοποίηση της κινούμενης εικόνας είναι οι παρακάτω. Η πρώτη είναι βασισμένη στη μέθοδο συμπίεσης ακίνητης εικόνας JPEG και η δεύτερη στην τμηματική πρόβλεψη κίνησης (block motion compensation) :

Ενδο-πλαισιακή Κωδικοποίηση (Intra-frame Coding): Σύμφωνα με αυτή την προσέγγιση η κάθε εικόνα (frame) αντιμετωπίζεται σαν αυτόνομη μονάδα και κωδικοποιείται ανεξάρτητα από τις υπόλοιπες, οπότε το τελικό σήμα είναι μία σειρά από διακριτές ακίνητες εικόνες.

Δια-πλαισιακή Κωδικοποίηση (Inter-frame Coding): Λαμβάνονται κατά την κωδικοποίηση υπ’ όψη οι πιθανές ομοιότητες μεταξύ των πλαισίων και κωδικοποιείται η διαφορά τους με χρήση του block motion compensation. Eτσι στο τελικό σήμα υπάρχει μία εξάρτηση μεταξύ των πλαισίων αφού για να αποκωδικοποιηθεί κάποιο πιθανώς να πρέπει να ληφθούν πληροφορίες και από κάποιο άλλο (προηγούμενο ή επόμενο). Γίνεται έτσι πολύ μεγαλύτερη συμπίεση, αφού μόνο οι διαφορές μεταξύ των πλαισίων κωδικοποιούνται.

Σε ένα σήμα (bit-stream) MPEG υπάρχουν τριών ειδών πλαίσια :

Ι (Intra frames) : Tο είδος αυτό των πλαισίων κάνει χρήση του intra frame-coding. Τα πλαίσια τύπου Ι είναι τα μόνα που είναι κωδικοποιημένα στο σύνολό τους και η αποκωδικοποίηση μπορεί να γίνει χωρίς αναφορά σε κάποιο άλλο. Είναι κατά συνέπεια τα μεγαλύτερα σε μήκος και αποτελούν σημεία αναφοράς κατά την τυχαία προσπέλαση ενός σήματος. Επειδή η παρουσία τους είναι απαραίτητη σα σημείο χρονικής αναφοράς και για να αποφευχθεί η διάδοση των σφαλμάτων που δημιουργούν τα P πλαίσια επιβάλλεται να μεταδίδονται ανά τακτά χρονικά πλαίσια. Eτσι υπάρχει ένα I πλαίσιο τουλάχιστον κάθε 15 πλαίσια (δηλαδή δύο φόρες το δευτερόλεπτο αν η συχνότητα είναι 30 Hz).

Η διαδικασία της κωδικοποίησης ενός I πλαισίου φαίνεται στο παρακάτω σχήμα. Η εικόνα χωρίζεται σε macroblocks και για κάθε block ξεχωριστά εφαρμόζεται DCT, Κβαντοποίηση, Zig-Zag Scanning,Run-Length-Encoding και Huffman Encoding (οι μέθοδοι αυτοί θα εξεταστούν ξεχωριστά παρακάτω).

P (Predicted frames) : Τα πλαίσια τύπου P είναι βασισμένα σε ένα προηγούμενο I ή P πλαίσιο. Με τη βοήθεια του motion compensation προβλέπουν τη νέα θέση όποιων macroblocks έχουν απλά μετακινηθεί και κωδικοποιούν τον αριθμό του macroblock και ένα διάνυσμα κίνησης. Με τη σειρά τους μπορούν να αποτελέσουν και αυτά σημείο αναφοράς για επόμενα πλαίσια και αυτός είναι και ο λόγος που συμβάλλουν στην εισαγωγή και διάδοση σφαλμάτων, αφού η διαδικασία της πρόβλεψης κίνησης δεν μπορεί να είναι 100% ακριβής. Δεν έχουν το μέγεθος των I πλαισίων γιατί δεν έχουν περιγραφεί με την ίδια ακρίβεια, δηλαδή παρουσιάζουν μεγαλύτερο ποσοστό συμπίεσης. Η διαδικασία λοιπόν της κωδικοποίησης τους, όπως φαίνεται και από το παρακάτω σχήμα είναι: σύγκριση macroblocks και δημιουργία ενός γραμμικού συνδυασμού αυτών που παρουσιάζουν σημαντική ομοιότητα, δημιουργία motion vector, μετασχηματισμός DCT σε κάθε block του νέου macroblock, Κβαντοποίηση, Run-Lenght-Encoding και το αποτέλεσμα κωδικοποιείται με κωδικοποίηση Huffman, όπως και στα I πλαίσια.

B (Bi-directional frames): Τα πλαίσια τύπου B είναι πλαίσια που δημιουργούνται λαμβάνοντας το μέσο όρο σε επίπεδο macroblock ενός προηγούμενου και ενός επόμενου πλαισίου Ι και P (ένα από το κάθε είδος). Δε συντελούν τόσο πολύ στη διάδοση των σφαλμάτων γιατί δεν χρησιμοποιούνται ως σημεία αναφοράς και επιπλέον μειώνουν σημαντικά το σφάλμα παίρνοντας το μέσο όρο από δύο πλαίσια. Μπορούμε να πούμε ότι ο ‘κύκλος της ζωής’ τους περιορίζεται μόνο σε αυτά και δεν επεκτείνεται με το να κληροδοτούν πληροφορίες σε άλλα πλαίσια, κάτι που πολλές φορές σε συνδυασμό και με την υπολογιστική πολυπλοκότητα που απαιτούν για την κωδικοποίηση και αποκωδικοποίηση τα κάνει μη επιθυμητά από τους κατασκευαστές. Η διαδικασία της κωδικοποίησης περιλαμβάνει συνδυασμό των αντίστοιχων macroblocks που παρουσιάζουν μικρές διαφορές με τα αντίστοιχα των πλαισίων αναφοράς (προηγούμενο και επόμενο) δηλαδή αφαίρεση του μέσου όρου των άλλων δύο από το τρέχον πλαίσιο, συνδυασμό των διανυσμάτων κίνησης των πλαισίων αναφοράς (που συνδυάζονται όπως και τα αντίστοιχα macroblocks, δηλαδή λαμβάνεται ο μέσος όρος τους) και στη συνέχεια την ίδια διαδικασία με τα I  και P πλαίσια για την κωδικοποίηση του macroblock που προκύπτει.

Ο κύριος λόγος ύπαρξης των Β-πλαισίων είναι η κάλυψη της περίπτωσης κάποιες πληροφορίες της εικόνας να υπάρχουν σε επόμενα πλαίσια και να μην υπάρχουν στα προηγούμενα. Συνεπώς η πρόβλεψή τους με τα P πλαίσια θα ήταν αδύνατη. Σαν παράδειγμα μπορούμε να αναφέρουμε μία πόρτα που ανοίγει ξαφνικά. Η πληροφορία για το τι βρίσκεται πίσω από την πόρτα υπάρχει στα επόμενα πλαίσια και όχι στα προηγούμενα και για να εμφανιστεί και στο τρέχον πλαίσιο πρέπει να ληφθούν σαν σημεία αναφοράς και το προηγούμενο και το επόμενο.

            Αφού τα πλαίσια P κατασκευάζονται με βάση τα Ι και τα Β με βάση τα Ι και P είναι προφανές ότι τα Ι πρέπει να έχουν σταλεί πριν τα αντίστοιχα P. Επίσης και τα P αλλά και τα I πρέπει να έχουν σταλεί πριν από τα  αντίστοιχα Β, παρόλο που στη μετάδοση αυτά παρεμβάλλονται ανάμεσά τους. Η σειρά  με την οποία απεικονίζονται και η σειρά με την οποία αποστέλλονται τα πλαίσια (που προφανώς δεν είναι η ίδια) φαίνεται στο παρακάτω σχήμα :

Η συνηθέστερη διάταξη των πλαισίων σε ένα σήμα MPEG είναι η παρακάτω. Πολλές φορές παρεμβάλλονται περισσότερα Β πλαίσια και τα Ι πλαίσια απέχουν περισσότερο μεταξύ τους (αλλά αυτό υποβαθμίζει την ποιότητα της εικόνας γιατί τα σφάλματα διαδίδονται περισσότερο).

H μικρότερη μονάδα που μπορεί να αποκωδικοποιηθεί ανεξάρτητα ονομάζεται GOP (Group of  Pictures) και περιέχει όλα τα I,P,B πλαίσια που χρειάζονται για την αποκωδικοποίηση, χωρίς να γίνονται αναφορές σε άλλο GOP.

Στον παρακάτω πίνακα φαίνεται η αναλογία πλαισίων I,P,B σε ένα σήμα MPEG :

Είδος εικόνας

Bit-rate

Ι

P

B

Μέσος όρος

MPEG-1

(1.15 Mbit/sec)

150,000

50,000

20,000

38,000

MPEG-2

(4.00Mbit/sec)

400,000

200,000

80,000

130,000

Πίνακας 4-4. Αναλογία πλαισίων σε σήμα MPEG

4.4.5.8       Οι μέθοδοι Run Length Encoding και Huffman

Οι δύο αυτές μέθοδοι δεν μεταβάλουν τις τιμές των δειγμάτων (όπως ο μετασχηματισμός DCT για παράδειγμα ή η κβαντοποίηση), αλλά χρησιμοποιούνται στο τελικό στάδιο της κωδικοποίησης, για να μειώσουν τον αριθμό bits που χρησιμοποιούνται για τη μετάδοση τους.

Η πρώτη (Run-Length-Encoding) στηρίζεται στο γεγονός ότι υπάρχουν πολλά μηδενικά σε διαδοχικές θέσεις και ανάμεσά τους κάποιες μη μηδενικές τιμές. Έτσι χρησιμοποιώντας κάποια σύμβολα (flags) που δείχνουν ότι αυτό που τα ακολουθεί δεν είναι διακριτή τιμή του σήματος αλλά ομάδα τιμών, ομαδοποιούν τα μηδενικά και τα μεταδίδουν σαν έναν αριθμό (πλήθος μηδενικών). Έτσι σχηματίζονται ζευγάρια τιμών που ο πρώτος δείχνει το πλάτος μιας μη μηδενικής συνιστώσας και ο δεύτερος των αριθμό μηδενικών που ακολουθεί μέχρι την επόμενη, γλυτώνοντας έτσι πολλά bit.

Η δεύτερη (Huffman) είναι μια μέθοδος που αντιστοιχίζει σε συχνότερα εμφανιζόμενες τιμές μία συμβολική τιμή που είναι μικρή (έχει όσο το δυνατόν λιγότερα bits). Ταυτόχρονα δημιουργεί και ένα «λεξικό» (έναν πίνακα δηλαδή) που δείχνει αυτή την αντιστοίχηση και προσθέτει και το λεξικό αυτό στο σήμα για να χρησιμοποιηθεί από τον αποκωδικοποιητή. Έτσι τιμές που εμφανίζονται συχνά και έχουν μεγάλο αριθμό bits περιγράφονται με άλλες που έχουν μικρότερο, άρα πάλι έχουμε οικονομία σε bits.

4.4.5.9       Προσαρμοστική Κωδικοποίηση - Adaptive coding

Όπως προαναφέρθηκε υπάρχουν δύο είδη κωδικοποίησης (inter-frame και intra-frame με motion compensation). Επίσης είναι δεδομένο ότι επιβάλλεται η μετάδοση ενός I πλαισίου κάθε 15 πλαίσια. Πέρα από αυτό όμως οι απαιτήσεις της εικόνας μπορεί να απαιτούν περισσότερα ή ακόμα και λιγότερα, δηλαδή μπορεί η εικόνα να περιλαμβάνει γρήγορες αλλαγές σκηνικών και χρωμάτων ή το αντίθετο. Στην πρώτη περίπτωση μπορεί να απαιτηθούν περισσότερα intra-frame πλαίσια και στη δεύτερη για λόγους οικονομίας, λιγότερα.

Έτσι σε πολλές περιπτώσεις (πιο πολύπλοκες υλοποιήσεις) ο κωδικοποιητής μπορεί να επιλέξει το είδος κωδικοποίησης ανάλογα με της ανάγκες της εικόνας. Δηλαδή οι δύο τρόποι κωδικοποίησης χρησιμοποιούνται περιοδικά για να «φιλτράρουν» την εικόνα από αυξημένες παραμορφώσεις, ή στην αντίθετη περίπτωση να ελαττώσουν το ρυθμό μετάδοσης. Αυτός είναι και ο λόγος που στο MPEG-2 εμφανίζεται μεταβαλλόμενο ρυθμός μετάδοσης.

4.4.5.10   Διαδικασία Κωδικοποίησης

              Ας δούμε με ένα παράδειγμα την όλη διαδικασία της κωδικοποίησης, όπως εφαρμόζεται στους πίνακες των macroblocks. H διαδικασία της πρόβλεψης κίνησης θεωρείται ότι έχει εξεταστεί παραπάνω και δεν συμπεριλαμβάνεται στο παράδειγμα. Η διαδικασία αφορά ένα πλαίσιο που κωδικοποιείται με κωδικοποίηση μετασχηματισμού DCT (και όχι με motion compensation) δηλαδή ένα I πλαίσιο.

              Έστω ότι έχουμε ένα τέτοιο πλαίσιο, ένα block του οποίου είναι το παρακάτω. Τα νούμερα του αρχικού πίνακα είναι τυχαία και δεν αντιστοιχούν σε κάποια πραγματική εικόνα. Δείχνουν απλώς την επίδραση που έχουν πάνω σε ένα πίνακα οι διαδικασίες του μετασχηματισμού DCT και της Kβαντοποίησης.

131        134      139      143      144      144      144      144

134        141      143      146      149      146      146      146

143        145      150      153      148      146      146      146

148        151      152      151      150      148      148      148

150        150      151      152      152      145      145      145

152        151      151      151      150      147      146      145

151        152      153      153      151      148      147      147

151        152      153      153      151      149      149      148

Πίνακας 4-5: Τυχαίο αρχικό μπλοκ pixels 8x8.

Το παραπάνω block  μετά από εφαρμογή του μετασχηματισμού DCT μετασχηματίζεται στο παρακάτω (Πίνακας 2). Καθώς κινούμαστε προς τα δεξιά αυξάνει η οριζόντια ανάλυση και προς τα κάτω η κάθετη. Η τιμή που βρίσκεται στη θέση (0,0) ονομάζεται συντελεστής DC ενώ οι υπόλοιποι ονομάζονται συντελεστές AC. Ο συντελεστής DC δηλαδή ορίζεται σαν αυτός που η συχνότητά του είναι μηδέν και στις δύο κατευθύνσεις, ενώ AC είναι ένας συντελεστής του οποίου η συχνότητα είναι διάφορη του μηδενός σε τουλάχιστον μία διεύθυνση.

Το μεγαλύτερο μέρος της πληροφορίας περιέχεται στο συντελεστή DC (η τιμή του είναι μεγαλύτερη από το διπλάσιο του μέσου όρου των υπολοίπων). Ο συντελεστής αυτός δεν μπορεί σε καμία περίπτωση να παραλειφθεί, σε αντίθεση με τους συντελεστές AC της κάτω δεξιά περιοχής που αντιστοιχούν σε υψηλές συχνότητες και στο τέλος της κωδικοποίησης έχουν πάρει σχεδόν όλοι την τιμή μηδέν.

Ο πίνακας που ακολουθεί είναι το αποτέλεσμα του μετασχηματισμού DCT του προηγούμενου :

294,94   0,32     -3,08    -1,37    0,44     -0,02    -0,42    0,19

-5,81     -4,07    -1,19    -0,41    -0,15    -0,15    -0,08    -0,11

-2,62     -2,40    -0,34    0,09     -0,29    0,01     0,06     -0,17

-2,06     -0,19    0,10     0,65     0,31     -0,17    0,00     0,21

-0,25     -0,20    0,28     0,11     0,00     -0,01    0,02     0,16

-0,26     0,13     0,32     -0,20    -0,21    0,31     0,33     -0,22

-0,27     0,35     0,12     -0,00    -0,12    0,66     0,28     -0,19

-0,31     0,36     -0,50    -0,32    -0,52    0,37     0,07     -0,01

Πίνακας 4-6: Το ίδιο μπλοκ μετά από εφαρμογή DCT.

Στο επόμενο στάδιο εφαρμόζεται κβαντοποίηση και ποσοστοποίηση (thresholding) των τιμών δηλαδή απορρίπτονται αυτές που είναι κάτω από ένα ορισμένο επίπεδο (και αντικαθιστούνται με μηδενικά). Η διαδικασία αυτή βασίζεται αφ’ ενός στο ότι οι χαμηλότερες τιμές εμφανίζονται σε περιοχές που δεν είναι τόσο κρίσιμες από πλευράς αντίληψης των αλλοιώσεων που δημιουργούνται, αλλά και στο ότι τα πολλά μηδενικά και μάλιστα σε διαδοχικές θέσεις είναι πολύ εύκολο να κωδικοποιηθούν με ελάχιστα bits με τη μέθοδο Run-Length encoding. Ο προηγούμενος πίνακας μετά από ποσοστοποίηση, ακολουθεί παρακάτω :

294,94   0,00     -3,08    -1,37    0,00     0,00     0,00     0,00

-5,81     -7,07    -1,19    0,00     0,00     0,00     0,00     0,00

-2,62     -2,40    0,00     0,00     0,00     0,00     0,00     0,00

-2,06     0,00     0,00     0,00     0,00     0,00     0,00     0,00

0,00       0,00     0,00     0,00     0,00     0,00     0,00     0,00

0,00       0,00     0,00     0,00     0,00     0,00     0,00     0,00

0,00       0,00     0,00     0,00     0,00     0,00     0,00     0,00

0,00       0,00     0,00     0,00     0,00     0,00     0,00     0,00

Πίνακας 4-7: Το προηγούμενο μπλοκ μετά από εφαρμογή ποσοστοποίησης (thresholding).

              Σειρά έχει η κβαντοποίηση. H κβαντοποίηση στις περισσότερες υλοποιήσεις είναι αφ’ ενός ποικίλη (χρησιμοποιείται διαφορετικός νόμος κβαντοποίησης) αλλά και ρυθμιζόμενη δηλαδή είναι ρυθμιζόμενη η τιμή του κβαντιστή με αντίστοιχη επίδραση στην τελική ποιότητα και το ρυθμό μετάδοσης, δύο μεγέθη αντιστρόφως ανάλογα όπως έχει προαναφερθεί. Στο συγκεκριμένο παράδειγμα ο νόμος κβαντοποίησης που έχει χρησιμοποιηθεί για λόγους απλότητας είναι η στρογγυλοποίηση των αριθμών, που μειώνει σημαντικά τον αριθμό bits, αλλά μπορεί να να εφαρμοστεί και άλλη κβαντοποίηση π.χ. τιμές που διαφέρουν μόνο κατά 3 μεταξύ τους κτλ. (εξαρτάται από το hardware)

295        0          -3         -1         0          0          0          0

-6          -4         -1         0          0          0          0          0

-3          -2         0          0          0          0          0          0

-2          0          3          0          0          0          0          0

0            0          0          0          0          0          0          0

0            0          0          0          0          0          0          0

0            0          0          0          0          0          0          0

0            0          0          0          0          0          0          0

Πίνακας 4-8: Κβαντοποίηση με μετατροπή σε ακέραιες τιμές.

              Ακολουθεί η σάρωση σε σχήμα zig-zag. Η διαδικασία αυτή είναι απαραίτητη γιατί κάποια στιγμή όλα τα δεδομένα που περιέχονται στους πίνακες 2 διαστάσεων, αφού υποστούν επεξεργασία, πρέπει να μεταδοθούν από ένα σειριακό μέσο, άρα πρέπει να κωδικοποιηθούν σειριακά σε ένα σήμα. Το γιατί έχει επιλεγεί το συγκεκριμένο σχήμα σάρωσης (zig-zag από την πάνω δεξιά γωνία όπως στο πιο κάτω σχήμα) γίνεται προφανές από τον πίνακα 4 αν παρατηρήσει κανείς ότι οι τιμές που έχουν προκύψει έχουν μία διάταξη αυξανόμενου μεγέθους αν τις σαρώσουμε κατά αυτό τον τρόπο. Αυτό δεν είναι κάτι τυχαίο που προέκυψε για τις συγκεκριμένες τιμές του παραδείγματος αλλά είναι ιδιότητα του μετασχηματισμού. Η αποθήκευση των τιμών κατά αυτό τον τρόπο βοηθάει πολύ στα επόμενα στάδια της κωδικοποίησης RLE (Run-Length-Encoding) και Huffman.

Στο παρακάτω σχήμα φαίνεται η διάταξη της σάρωσης zig-zag:

Σχήμα 4-3: Zig-zag scanning.

Κατά την αποκωδικοποίηση ακολουθούνται οι αντίστροφες διαδικασίες. Το αποτέλεσμα που προκύπτει είναι πολύ κοντά στο αρχικό. Το πόσο κοντά εξαρτάται από τις παραδοχές που έχουμε κάνει στην κβαντοποίηση, την ποσοστοποίηση και κατ’ επέκταση στο ρυθμό μετάδοσης που έχουμε χρησιμοποιήσει. Τo block που χρησιμοποιήθηκε για παράδειγμα, αν ανακατασκευαστεί, θα παρουσιάζει την εξής εικόνα, για την οποία μπορούμε να επαληθεύσουμε ότι είναι πολύ κοντά στο αρχικό :

131        134      139      142      144      144      144      144

136        139      143      146      147      146      146      145

143        145      148      150      150      148      147      147

148        150      152      152      151      149      148      147

150        151      152      152      150      148      146      146

150        151      152      152      150      148      146      145

151        152      153      152      150      148      147      147

151        152      153      153      151      149      149      148

Πίνακας 4-9: Ανακατασκευή του αρχικού block μετά από αποκωδικοποίηση

Οι εφαρμογές στις οποίες απευθύνεται το MPEG-2 φαίνονται στον παρακάτω πίνακα :

Επίπεδο

Μέγεθος Εικόνας

Pixels/sec (Mbits)

bit-rate

Εφαρμογές

Χαμηλή

352 x 240

3 M

4

Κανονική τηλεοπτική ποιότητα

Κύρια

720 x 480

10 M

15

Τηλεόραση (ποιότητα studio)

Υψηλή 1440

1440 x 1152

47 M

60

Τηλεόραση Υψηλής Ευκρίνειας

Υψηλή

1920 x 1080

63 M

80

Παραγωγή Ταινιών

Πίνακας 4-10. Εφαρμογές του MPEG-2.

 

4.4.6    Proprietary Compression

4.4.6.1       Digital Video Interactive (DVI)

Η τεχνολογία DVI παρουσιάστηκε το 1989  από την Intel η οποία προσφέρει ειδικούς επεξεργαστές και κάρτες που επιτρέπουν συμπίεση, αναπαραγωγή και σύλληψη εικόνας κάτω από αυτό το πρότυπο. Το DVI υποστηρίζει δύο επίπεδα συμπίεσης για κινούμενη εικόνα πλήρους οθόνης (full-screen motion video):

1.    Real Time Video (RTV) που επιτρέπει συμπίεση και αποσυμπίεση σε πραγματικό χρόνο, γεγονός που επιτρέπει interactive editing

2.    Presentation Level Video (PLV) η οποία είναι μια μη συμμετρική τεχνική συμπίεσης κινούμενης εικόνας υψηλής ποιότητας.

Ο αλγόριθμος συμπίεσης του DVI στηρίζεται στο ΔΣΜΦ.

4.4.6.2       Fractal Image Compression

Η εταιρεία Iterated Systems εκτός από τα προϊόντα συμπίεσης ακίνητης εικόνας προσφέρει και αντίστοιχα για κινούμενη. Σύμφωνα με τον κατασκευαστή, η αποσυμπίεση χωρίς υποστήριξη υλικού μπορεί να γίνει σε πραγματικό χρόνο από υπολογιστή 486-33MHz. Το μέγεθος της εικόνας είναι 320*200pixels, ο ρυθμός ανανέωσης 30fps και το βάθος χρώματος 15bit.

4.4.6.3       QuickTime

Η τεχνολογία QuickTime της Apple, είναι διαθέσιμη τόσο σε υπολογιστές Macintosh όσο και Windows. Η τεχνική συμπίεσης που ακολουθεί επιτυγχάνει λόγους συμπίεσης από 5:1 μέχρι 25:1. Επιτρέπει την αναπαραγωγή κινούμενης εικόνας μεγέθους 160*120 με ρυθμό 15fps. Η τελευταία έκδοση ανεβάζει το μέγεθος του παραθύρου σε 320*240 με ταχύτητα 10 ως 15fps. Όλα αυτά με αποσυμπίεση λογισμικού χωρίς την υποστήριξη ειδικού υλικού.

4.4.6.4       Video for Windows

Υποστηρίζει διάφορα είδη συμπίεσης δύο εκ των οποίων είναι τα Video και RLE που ανήκουν στη Microsoft ενώ το τρίτο είναι το Indeo της Intel (στηρίζεται στο DVI).

 

4.5    Animation και video

 

Όταν αναφερόμαστε στο Animation, αναφερόμαστε στην περιγραφή γραφικών μοντέλων και των αλλαγών αυτών ως προς το σχήμα και τη θέση τους στο χώρο. Η εισαγωγή του Animation στον χώρο των Η/Υ άνοιξε νέους δρόμους και ιδέες, καθώς και βοήθησε στην τεχνική βελτίωση. Τα Computer animation και computer graphics έχουνε καταλάβει θέση σχεδόν σε κάθε τομέα από λογότυπα στην τηλεόραση έως αρχιτεκτονικά σχέδια.

Computer Animation ονομάζεται η μέθοδος κατά την οποία παράγουμε Animation κάνοντας χρήση Η/Υ. Υπάρχουν λίγες διαφορετικές μέθοδοι για την δημιουργία του computer animation. Μία από αυτές είναι το 3D animation. Ένας τρόπος είναι η δημιουργία τρισδιάστατων σχημάτων μαζί με την λειτουργία του rendering. Αυτή η διαδικασία παράγει τέλεια τρισδιάστατα animations.

Ένας άλλος τρόπος δημιουργίας computer animation είναι με την χρήση κλασσικών σχεδιαστικών πακέτων, σχεδιάζοντας ξεχωριστά και μεμονωμένα τα καρέ που αποτελούν το animation. Αυτά μετά συνδυάζονται δημιουργώντας αρχεία Η/Υ σε μορφή movie ή video. Τέλος ένας τελευταίος τρόπος παραγωγής κινούμενης εικόνας είναι η χρήση γραφικών μεταβάσεων μεταξύ διαφορετικών σχημάτων ή μορφοποιώντας υπάρχουσες εικόνες ή video.

Τα γραφικά είναι εικόνες που δημιουργούνται κάνοντας χρήση ενός Η/Υ. Αποτελούν πολύ σημαντικό παράγοντα στον χώρο του animation, διότι όλες οι εικόνες που αποτελούν ένα animation είναι ουσιαστικά γραφικά. Γι’ αυτό το λόγο για την δημιουργία animation είναι απαραίτητη η γνώση των Η/Υ, σε επίπεδο λογισμικού και λειτουργίας τους.

 

4.5.1    Κλασσικές Μέθοδοι

Το computer animation έχει αναπτυχθεί σημαντικά τα τελευταία χρόνια, καθιστώντας παλιότερες μεθόδους άχρηστες και ξεπερασμένες. Εμείς θα τις αναφέρουμε αυτές παρακάτω καθαρά για ιστορικούς σκοπούς.

4.5.1.1       Μέθοδος : Stop Frame Animation

Αυτή η μέθοδος χρησιμοποιήθηκε κυρίως την δεκαετία του 60. Ήταν πολύ μεθοδική άλλα και χρονοβόρα για παραγωγή μίας και μόνο ταινίας. Η διαδικασία ήταν η εξής : Πρώτα σχεδιάζονταν όλοι οι χαρακτήρες ξεχωριστά σε κυψελοειδές χαρτί ή κυψέλες. Ο σχεδιαστής έπειτα έπρεπε να δημιουργήσει το τοπίο σε χαρτί και να το τοποθετήσει σε ειδικό μηχάνημα καταγραφής εικόνων. Πάνω σε αυτό το χαρτί έπρεπε να τοποθετηθούν οι προσχεδιασμένοι χαρακτήρες στις σωστές τους θέσεις, να κεντραριστούν και να παρθεί φωτογραφία της συνολικής σχεδιασμένης εικόνας. Αυτό αποτελούσε ένα καρέ της ταινίας, η οποία αποτελούνταν από χιλιάδες καρέ, το καθένα από τα  οποία σχεδιάζονταν με τον τρόπο που περιγράφτηκε παραπάνω.

 

4.5.1.2       Μέθοδος : 2 1/2 Dimensional Animation

Σε αυτή τη μέθοδο κάθε καρέ αποτελείται από αρκετές κυψέλες. Ο σχεδιαστής (animator) χρειαζόταν συνήθως μία κυψέλη για κάθε κινούμενο χαρακτήρα και μία κυψέλη για το περιβάλλον της ταινίας. Έτσι έδινε την ψευδαίσθηση της κίνησης του χαρακτήρα αλλάζοντας τις σχετικές θέσεις μεταξύ των κυψελών. Για παράδειγμα μετακινώντας την κυψέλη του περιβάλλοντος ο σχεδιαστής έδινε την εντύπωση στην ταινία ότι οι υπόλοιπες εικόνες μετακινούνταν χωρίς κάτι τέτοιο να είναι αλήθεια. Με αυτή τη μέθοδο κερδίζουμε χρόνο καθώς δεν χρειάζεται η επανασχεδίαση των εικόνων για κάθε ξεχωριστό καρέ, κάτι που την έκανε καλύτερη σε σχέση με την μέθοδο του Stop Frame Animation.

 

4.5.1.3       Μέθοδος : Rotascoping

Με την συγκεκριμένη μέθοδο ασχολούμαστε με την αντιγραφή εικόνων από μία έτοιμη ταινία. Αυτές οι εικόνες χρησιμοποιούνται ακριβώς όπως είναι στην υπό κατασκευή ταινία και για αυτό το λόγο το υλικό αυτό θα πρέπει να ταιριάζει με το σενάριο τις νέας ταινίας. Κατά τη χρήση λοιπόν μίας τέτοιας εικόνας θα πρέπει να ελέγχονται συμβατότητες όσον αφορά το σχήμα, το χρώμα, το μέγεθος και την πορεία του αντικειμένου στο νέο του περιβάλλον. Αυτή η εργασία χαρακτηρίζεται επίπονη για την εύρεση του κατάλληλου αντικειμένου από την κατάλληλη ταινία, κάτι όμως που όταν επιτευχθεί χαρίζει καλά αποτελέσματα σε λιγοστό χρόνο.

 

4.5.1.4       Μέθοδος : Phenakistoscope & Stroboscope

Πρόκειται για 2 συσκευές οι οποίες αναπτύχθηκαν από τους Dr. Joseph Antoine Plateau και Dr. Simon Ritter αντίστοιχα, οι οποίες κάνοντας χρήση δύο περιστρεφόμενων δίσκων δίνανε την εντύπωση κινούμενης εικόνας στην κατάλληλη διάταξη.

4.5.2       Μοντέρνα Μέθοδος

Η δημιουργία κάθε animation περνάει από κάποια στάδια μέχρι την ολοκλήρωσή του. Μία βασική ροή εξέλιξης κινούμενης εικόνας δίνεται σχηματικά παρακάτω αν και θα ήτανε καλό να έχουμε υπόψη μας ότι αυτός ο δρόμος δεν είναι απόλυτος ως προς την σειρά υλοποίησης και τήρησης του. Τα βασικά στάδια :

4.5.2.1       Storyboard

Προτού ξεκινήσουμε την δημιουργία κινούμενης εικόνας σε υπολογιστή καλό είναι να έχουμε ήδη σχεδιάσει πρόχειρα σε χαρτί βασικά μέρη του animatition. Η σειρά των σχεδίων ονομάζεται Storyboard. Αυτή η τακτική του Storyboard είναι καλή για δύο λόγους, πρώτον όλοι οι συνεργάτες που εμπλέκονται με την δημιουργία του animation έχουνε μία καλή ιδέα του τι περιλαμβάνεται και πως ακριβώς θέλουμε να φανεί αυτό και δεύτερον έχουμε μία ιδέα της οικονομικής έκτασης του έργου, οπότε να μπορεί ο πελάτης να ξέρει αν μπορεί να προχωρήσει η όχι.

 

4.5.2.2       Modeling

Αυτό το τμήμα ασχολείται με την μορφοποίηση και σχεδίαση των animating χαρακτήρων σύμφωνα με το Storyboard, κάτι που γίνεται στον ηλεκτρονικό υπολογιστή με αρκετή λεπτομέρεια. Όταν ένας χαρακτήρας αποτελείται από αντικείμενα περισσότερα του ενός είναι προτιμότερο να υπάρχει μία ιεραρχία σε αυτά. Κλασσικό παράδειγμα είναι αυτό του ανθρώπινου σώματος, κάτι που χρησιμοποιείται πολύ συχνά σε animation ταινίες. Τα δάχτυλα συνδέονται στο χέρι το οποίο συνδέεται με την σειρά του στον αγκώνα κι αυτό με τη σειρά του στο μπράτσο, και όλα μαζί στον ώμο. Με την ίδια λογική συνδέονται και τα υπόλοιπα τμήματα του ανθρώπινου σώματος μεταξύ τους ιεραρχικά.

Ο λόγος για τον οποίο εφαρμόζεται αυτή η ιεραρχία είναι καθαρά για ευκολία, καθώς η κίνηση κάθε αντικειμένου θα ακολουθείται από ανάλογη μετακίνηση των υπόλοιπων ιεραρχικά συνδεδεμένων τμημάτων σε αυτό.

Υπάρχουν ορισμένες μέθοδοι modeling :

 

1.      Φυσικό Modelling

Σε αυτή την μέθοδο μπορούμε να δημιουργήσουμε μία εικόνα ενός φυσικού αντικειμένου στον Η/Υ κάνοντας χρήση scanners και τρισδιάστατων ηλεκτρομαγνητικών ανιχνευτών. Το αντικείμενο τότε απεικονίζεται με γεωμετρικά σχήματα όπως τρίγωνα και πολύγωνα. Οι συντεταγμένες αυτών των σχημάτων εισέρχονται στον υπολογιστή σε καρτεσιανή μορφή για περαιτέρω ανάλυση και επεξεργασία.

Digitising είναι η διαδικασία κατά την οποία ένα αντικείμενο κόβεται ψηφιακά σε φέτες μέσω ενός laser. Το πάχος κάθε φέτας ορίζεται από την ανάλυση και τον αριθμό των ακμών στην τελική επιφάνεια. Το laser κόβει το αντικείμενο και μετά προχωράει στην επόμενη φέτα. Ο υπολογιστής έχει τώρα δισδιάστατες φέτες τις οποίες συνδυάζει στον άξονα των x. Έτσι έχουμε το αντικείμενο ψηφιοποιημένο μέσα στον Η/Υ με ψηφιακή επιφάνεια που να συνδέει τις φέτες μεταξύ τους.

2.      Ορθογώνιες Φωτογραφίες

Αυτή η διαδικασία περιλαμβάνει τρία στάδια :

Πρώτο : πρέπει να βρεθούν τα γεωμετρικά σχήματα στο σωστό μέγεθος πάνω στην επιφάνεια του αντικειμένου, έχοντας υπόψη πάντα ότι θέλουμε την ελάχιστη αλλοίωση των βασικών χαρακτηριστικών του αντικειμένου, ως προς το σχήμα και το μέγεθός του.

Δεύτερο : πρέπει να παρθούν φωτογραφίες του αντικειμένου από διαφορετικές γωνίες, να μεγεθυνθούν αυτές σε κατάλληλο χαρτί (tracing paper) ώστε να βρεθούν και να καταμετρηθούν όλες οι ακμές και τα χαρακτηριστικά του αντικειμένου.

Τρίτο : ευθυγραμμίζουμε τα σχήματα στις σωστές τους θέσεις σε ένα digitizer. Από εκεί και πέρα ο Η/Υ ταιριάζει όλες τις κοινές ακμές των γεωμετρικών σχημάτων λαμβάνοντας υπόψην του όλες τις οπτικές γωνίες του αντικειμένου και βρίσκει με αυτό το τρόπο τις καρτεσιανές συντεταγμένες για όλα τα σημεία του.

 

4.5.2.3       Σενάριο / Έλεγχος Κίνησης

Η κίνηση και μετακίνηση ενός αντικειμένου είναι το πιο βασικό κομμάτι της διαδικασίας του animation. Υπάρχουν πολλοί τρόποι και διαδικασίες στον έλεγχο τις κίνησης.

 

1.      Δρόμοι Κίνησης

Δρόμος ονομάζεται μία αλληλουχία θέσεων που αποκτά ένα αντικείμενο στο πέρασμα του χρόνου, το μονοπάτι δηλαδή. Ορίζοντας το μονοπάτι ενός αντικειμένου, ο δημιουργός του animation (animator) έχει την ικανότητα να μετακινεί αντικείμενα σαν στατική εικόνα, κάτι που δεν είναι ρεαλιστικό. Τα διαφορετικά κομμάτια που απαρτίζουν το αντικείμενο μπορούν να έχουν το δικό τους ξεχωριστό μονοπάτι το καθένα. Αυτό δείχνει πόσο σημαντική είναι η ιεραρχία που συνδέει τα διαφορετικά τμήματα μεταξύ τους για να βγει μία ρεαλιστική φυσικότατη κίνηση. Ένα καλό παράδειγμα αποτελεί το ανθρώπινο σώμα το οποίο κατά το περπάτημα του παρατηρούνται διαφορετικά μονοπάτια κίνησης για το κάθε κομμάτι του ξεχωριστά, όπως τα πόδια, τα χέρια, το κεφάλι κ.α.

2. Κινηματική

Εκτός από το μονοπάτι και τον δρόμο που ακολουθεί ένα αντικείμενο, υπάρχουνε και άλλα εξίσου σημαντικά χαρακτηριστικά που πρέπει να διευκρινιστούν. Θέση, ταχύτητα, επιτάχυνση και οι περιστροφικές τους αντιστοιχίες προσδιορίζουν την επιστήμη τις Κινηματικής. Για παράδειγμα, όταν θέλουμε να προσδώσουμε αργή κίνηση τοποθετούμε τα καρέ σε κοντινή απόσταση μεταξύ τους, ενώ για ταχύτερες κινήσεις τα τοποθετούμε σε μεγαλύτερη απόσταση. Έτσι υπάρχει ένας εύκολος και μεθοδικός τρόπος να αποδώσει με ακρίβεια τις λεπτομέρειες τις κίνησης.

Υπάρχουνε δύο τρόποι εφαρμογής της Κινηματικής σε ένα αντικείμενο, ειδικότερα στις περιπτώσεις που αυτό αποτελείται από αρκετά κομμάτια : η κανονική και η αντίστροφη. Η πρώτη έχει να κάνει με την εφαρμογή ιεραρχίας ξεκινώντας από την κορυφή ως την βάση ακολουθώντας πάντα την κίνηση των υψηλότερων στην ιεραρχία κομματιών που απαρτίζουν το αντικείμενο. Αυτό που είναι απόλυτα σημαντικό είναι η σωστή διευκρίνηση των σημείων σύνδεσης του αντικειμένου με τα υπόλοιπα αντικείμενα. Συνήθως αυτή είναι η πιο λογική και απλή διαδικασία. Παρόλα αυτά , σε μερικές περιπτώσεις που θέλουμε ένα συγκεκριμένο κομμάτι του αντικειμένου να τοποθετηθεί σε κάποιο συγκεκριμένο σημείο, ακολουθούμε την λογική της αντίστροφης Κινηματικής. Με αυτή τη μέθοδο ο animator διαλέγει το σημείο από όπου θέλει να ξεκινήσει η κίνηση. Ο Η/Υ υπολογίζει όλες τις συντεταγμένες που πρέπει να ικανοποιούν τις υπάρχουσες συνθήκες. Παρόλα αυτά δεν υπάρχει μόνο μία μέθοδος λύσης στο πρόβλημα, και λύση δίνεται πάντα εφόσον υπολογιστούν σωστά οι κινήσεις των συνδέσμων των αντικειμένων σε σχέση με τα σημεία που έχουμε πάρει ως σημείο αναφοράς.

Μπορούμε να πραγματοποιήσουμε πιο φυσικές και ρεαλιστικές κινήσεις στο animation ενός χαρακτήρα με την βοήθεια του motion capture. Πρόκειται για μία τεχνική κατά την οποία καταγράφονται ψηφιακά οι κινήσεις ενός ηθοποιού, και καταχωρούνται στον Η/Υ. Αυτά τα δεδομένα μετά συνδυάζονται με τον χαρακτήρα του animation με αποτέλεσμα να βγει μία πολύ πιο φυσική κίνηση, ταυτόσημη με αυτήν ενός πραγματικού ανθρώπου.

 

3. Δυναμική

Μετά την εφαρμογή της κινηματικής εφαρμόζουμε την δυναμική. Με την δυναμική προσθέτουμε φυσικότητα και ρεαλιστικότητα στην κίνηση του χαρακτήρα μας. Αυτή έχει να κάνει με τις ψευδαισθήσεις της βαρύτητας, της μάζας, της αντίστασης και τις μορφοποίησης. Έχοντας υπόψη τα προηγούμενα ο Η/Υ υπολογίζει την κίνηση του αντικειμένου. Παράδειγμα η κίνηση των μαλλιών στον αέρα, η ακόμα μιας σημαίας που κυματίζει. Χάρη στη δυναμική δίνεται φυσική οντότητα στην κίνηση μέσα στον φυσικό χώρο.

 

4. In-betweening

Σε αυτή τη διαδικασία ο animator το μόνο που έχει να δημιουργήσει είναι κάποια key-frames. Αυτά είναι κάποια καρέ-κλειδιά στα οποία εμφανίζονται κύριες διαφοροποιήσεις στα αντικείμενα, όπως αλλαγή σχήματος, θέσεως, ταχύτητας και μεγέθους. Μετά την εισαγωγή αυτών, ο Η/Υ υπολογίζει μόνος του όλες τις ενδιάμεσες καταστάσεις σώζοντας πολύτιμο χρόνο στον animator.

Για παράδειγμα, όταν θέλουμε να απεικονίσουμε έναν άνθρωπο να περπατάει, τότε το μόνο που θα χρειαστεί από μέρους μας θα είναι να καθορίσουμε τα ενδιάμεσα στάδια, αρχικά και τελικά της κίνησής του, και τα υπόλοιπα θα τα χειριστεί από μόνος του ο Η/Υ.

 

5. Onionskinning

Αυτή η μέθοδος βασίζεται στην τεχνική των επιπέδων. Το animation ή ακόμα μία μόνο εικόνα αποτελείται από συνδυασμό αρκετών επιπέδων, τα οποία αλληλοκαλύπτονται. Στο παρελθόν αυτή η τεχνική χρησιμοποιούσε διαφανή χρωματιστά πλαστικά κομμάτια τα οποία αποτελούσαν την εικόνα, καλύπτοντας το ένα το άλλο. Συνήθως ένας χαρακτήρας αποτελούνταν από διαφορετικό κομμάτι πλαστικού, ώστε να χρησιμοποιηθεί και σε  επόμενες σκηνές και καρέ.

Η παραπάνω φιλοσοφία του Onionskinning χρησιμοποιείται και σε άλλες κατηγορίες της επιστήμης των Η/Υ όπου διαφορετικές λειτουργίες χρησιμοποιούνται σε διαφορετικά στρώματα, και το τελικό αποτέλεσμα επιτυγχάνεται με τον σωστό συνδυασμό αυτών.

           

Για την τελική δημιουργία του Animation γίνεται χρήση ενός από τις παραπάνω μεθόδους, και το πια τελικά θα χρησιμοποιηθεί εξαρτάται από τον τύπο του animation, δηλαδή αν πρόκειται για δισδιάστατο ή τρισδιάστατο.   

 

  • 2-D

Τα περισσότερα animation είναι τρισδιάστατα, καθώς αναπαριστάνουν συνήθως τον κόσμο μας ο οποίος είναι τρισδιάστατος. Τα δισδιάστατα animation συνήθως κάνουν χρήση κυψελών όπου τα key-frames χρησιμοποιούνται για να δείξουν την διαδρομή του animation, και τα ενδιάμεσα στάδια σχεδιάζονται από τον animator και όχι τον Η/Υ. Η διαφορά έγκειται στο γεγονός ότι οι εικόνες δημιουργούνται πάνω σε επίπεδο κουκίδων (pixels). Το morphing είναι η πιο διαδεδομένη τεχνική στο 2-D animation σήμερα. Αυτή η τεχνική είναι κυρίως τεχνική μορφοποίησης έτοιμης εικόνας παρά τεχνική δημιουργίας εικόνας.

  • 3-D

Σχεδόν όλα τα computer animation που γίνονται σήμερα βασίζονται στις τεχνικές της κυψέλης. Τα περισσότερα υπολογιστικά συστήματα animation βασίζονται σε χρονικά μεταβαλλόμενες παραμέτρους, ονομαζόμενες ως τροχιές, και καθορίζουν την πορεία και το στάδιο του animation σε κάθε στιγμή. Το ζεύγος (χρόνος, παράμετρος) μίας τροχιάς καθορίζει την κατάσταση του animation  για την συγκεκριμένη χρονική στιγμή καθώς και την στατική εικόνα. Οι διαδικασίες είναι συγκριτικά παρόμοιες με τις διαδικασίες για την δημιουργία animation με την τεχνική της κυψέλης, αφήνοντας όμως πολύ μεγαλύτερες δυνατότητες και ευελιξίες χάρη στην χρήση state-variable αντί για world-variable. Παρόλο που οι τροχιές δεν επιτρέπεται να είναι ανεξάρτητες,  μπορούμε εύκολα να τις χειριστούμε σαν ανεξάρτητες, οδηγώντας μας στην τεχνική ιεραρχίας animation όπου πρώτα πραγματοποιείται η γενική κίνηση του μοντέλου και μετά σταδιακά προστίθεται λεπτομέρεια. Ο αριθμός των τροχιών που πραγματοποιούνται σε ένα animation καθώς και η πολυπλοκότητα του καθενός, δείχνει την δυσκολία και την χρονική απαίτηση που έχει αυτή η διαδικασία, κάτι που δείχνει τον δρόμο εξέλιξης και των Η/Υ προς αυτή τη κατεύθυνση του animation.

4.5.3    Particle System

            Σε περιπτώσεις που έχουμε να αντιμετωπίσουμε φυσικά φαινόμενα (καπνός, βροχή, φωτιά κ.α.) ή ομάδες αντικειμένων, που έχουνε συγκεκριμένη σχέση μεταξύ τους, η μέθοδος του keyframe, που περιγράψαμε νωρίτερα, δεν είναι η σωστή και κατάλληλη μέθοδος, διότι ο καθένας θα πρέπει να ορίσει ένα συγκεκριμένο και ξεχωριστό μονοπάτι για καθένα μέλος της ομάδας. Για αυτό το σκοπό δημιουργήθηκε το Particle System. Τα Particle System δουλεύουν με τον προσδιορισμό καταστάσεων και κανόνων συμπεριφοράς του κάθε particle ή ενός particle group. Ένα particle μπορεί να είναι οτιδήποτε, από ένα σημείο έως κι ένα ολόκληρο αντικείμενο. Η λογική που ακολουθείται είναι απλή, αφήνοντας στον animator να καθορίσει την κίνηση κάποιων βασικών particles ενώ τα υπόλοιπα particles ακολουθούν τις ίδιες κινήσεις, υπακούοντας σε κάποιους κανόνες που έχουν να κάνουν με τις δυνάμεις μεταξύ των particles. Για παράδειγμα, στην περίπτωση ομάδας πουλιών ο animator τα θέλει να πετάνε κοντά μεταξύ τους, με την ίδια ταχύτητα, χωρίς να έχουμε συγκρούσεις. Αυτό μπορεί να γίνει δυνατό ορίζοντας το πουλί που οδηγεί την ομάδα με μία συγκεκριμένη κίνηση, και τα υπόλοιπα πουλιά ακολουθούν από πίσω. Παρόμοια κατάσταση επικρατεί και σε άλλες περιστάσεις όπου καπνός, εκρήξεις και φωτιά αποτελούνται από particles μικρά και μεγάλα, το ένα ακολουθώντας τους κανόνες και τις κινήσεις του άλλου παράγοντας τελικά το επιθυμητό animation.

 

4.5.4    Rendering

Μία μεγάλη δυσκολία εμφανίζεται όταν ο animator καλείται να δημιουργήσει αμέσως μία σκηνή με γραφικές λεπτομέρειες, όπως φωτισμοί, σκιές και επιφάνειες. Μία συνηθισμένη διαδικασία επίλυσης του προβλήματος είναι μέσω rendering των σχημάτων και της σκηνής μαζί σε γεωμετρική μορφή.

 

4.5.4.1       Wire Frame

            Με αυτή την μέθοδο ο animator πρέπει να δώσει σε κάθε τμήμα της προετοιμασίας το σωστό βασικό χρώμα σύμφωνα με την  επιφάνεια του αντικειμένου. Όσο μεγαλύτερη ποιότητα θέλουμε, τόσο πιο χρονοβόρα διαδικασία αντιμετωπίζουμε. ‘Όλα εξαρτώνται από τον animator,  ο οποίος έχει πολλές επιλογές ως προς τον τρόπο και διαδικασία εκτέλεσης του rendering ανάλογα με την σκηνή.

 

4.5.4.2       Flat Shading

            Είναι πιθανό να έχουμε και rendering σε πραγματικό χρόνο. Φυσικά έχουμε σαν αποτέλεσμα το χάσιμο ποιότητας και γραφικής λεπτομέρειας, διότι στην μέθοδο αυτή που ονομάζεται Flat Shading παρατηρούμε γρήγορο κι εύκολο render αλλά σε αντικείμενα με επίπεδα, χωρίς ρεαλιστικότητα.

4.5.4.3       Gouraud

            Μία επίσης γρήγορη μέθοδος που μπορεί να χρησιμοποιηθεί ακόμα είναι η τεχνική του Gouraud. Αυτή η τεχνική απλά αλλοιώνει απαλά τα χρώματα στις άκρες ενός αντικειμένου, αντιγράφοντας τον τρόπο που λειτουργεί μία σκιά, σύμφωνα και με τις τιμές που έχει ο υπολογιστής για το χρώμα και το render που θα υπάρξει στα αντικείμενο αυτό.

 

4.5.4.4       Phong

 Η τεχνική του PHONG εφαρμόζεται σε όλα τα χρώματα ενός αντικειμένου, χωρίς να λαμβάνουμε υπόψη μας τις επιφάνειες, αλλά το χρώμα του κάθε σημείου ξεχωριστά. Αυτός ο υπολογισμός παίρνει υπόψη του εκτός από τα βασικά χρώματα και τον φωτισμό και τις επιφάνειες του αντικειμένου. Η ποιότητα της μεθόδου είναι ικανοποιητική χωρίς μεγάλη απώλεια χρόνου.

4.5.4.5       Ray Tracing

Η ποιότητα αυτής της μεθόδου είναι η καλύτερη, αλλά χρειάζεται πολύς χρόνος για την διαδικασία του rendering. Είναι η πιο ολοκληρωμένη μέθοδος λαμβάνοντας υπόψη της όλες τις γραφικές παραμέτρους : χρωματισμούς, φωτισμούς, σκιάσεις, διαπερατότητες και αντανακλάσεις. Είναι η μόνη μέθοδος που δίνει στο φως πραγματική οντότητα υπό όλες τις συνθήκες, σε οποιαδήποτε επιφάνειες του αντικειμένου προσδίδοντας φυσικότητα και πραγματική εμφάνιση σε κάθε ξεχωριστό σημείο.

4.5.4.6       Radiosity

      Πρόκειται για την πιο σύγχρονη και μέθοδο rendering, ακολουθώντας μία πολύ σοφιστικέ λογική, υπολογίζοντας μία εικόνα ολοκληρωμένα λαμβάνοντας υπόψη και τις επιδράσεις των αντικειμένων μεταξύ τους. Πρόκειται για ένα μοντέλο το οποίο προσεγγίζει την πραγματικότητα περισσότερο από κάθε άλλο, απαιτώντας όμως παράλληλα και χρόνο και υπολογιστική ισχύ. Παράδειγμα είναι ένα μπιλιάρδο όπου θέλουμε οι μπάλες να γυαλίζουν στο φως και να αντανακλούν κομμάτι από το περιβάλλον τους σφαιρικά, περιλαμβάνοντας και τις υπόλοιπες μπάλες μαζί με το τραπέζι ανάλογα με τις επιφάνειές τους, τα χρώματά τους και τον φωτισμό τους.

4.5.5    Textures

4.5.5.1       Texture mapping

Τα textures είναι τα σχέδια σε επιφάνειες. Υπάρχουν δύο ειδών textures, τα 2-D και τα 3-D. Ενώ τα 2-D textures είναι ουσιαστικά εικόνες ή ζωγραφιές, τα 3-D textures δίνουν την ψευδαίσθηση του βάθους και του όγκου. Η τρισδιάστατη εμφάνιση μπορεί να πραγματοποιηθεί με την τοποθέτηση απλών textures  σε διαφορετικές σκάλες. Επίσης οι ορολογίες texture mapping και texture wrapping αποτελούν τα δύο είδη κάλυψης της επιφάνειας ενός αντικειμένου με πραγματική εμφάνιση, δίνοντας την  ρεαλιστική εικόνα ενός αντικειμένου πως αποτελείται από κάποιο υλικό.

4.5.5.2       Image mapping

Αυτή η τεχνική χρησιμοποιείται όταν θέλουμε να παράγουμε animation μέσα σε άλλο animation. Έτσι μας επιτρέπεται να χρησιμοποιήσουμε ένα animating 2-D texture πάνω σε αντικείμενο που κινείται και αποτελεί ήδη από μόνο του ένα animation.

4.5.5.3       Reflectance Mapping

         Αυτή η τεχνική επιτρέπει στον χρήστη να εμφανίσει ανακλάσεις του περιβάλλοντος μίας σκηνής πάνω στην επιφάνεια ενός αντικειμένου. Ο χρήστης έχει την δυνατότητα να αντιγράφει εικόνες από το γύρω περιβάλλον του αντικειμένου, πάνω στις επιφάνειες αυτού σύμφωνα με τις καμπύλες του, το σχήμα του, και την γωνία ανάμεσα στις εικόνες αυτές και στις επιφάνειες του.

4.5.5.4       Procedural Mapping

             Αυτή η τεχνική χρησιμοποιείται για τη δημιουργία textures των οποίων οι τιμές ακολουθούν μαθηματικούς τύπους και κανόνες, μεταβάλλοντας με τον χρόνο την εμφάνισή τους. Παράδειγμα τέτοιων συνθηκών είναι τη φθορά αντικειμένων και των επιφανειών τους από φυσικές αιτίες όπως η φωτιά και η ζέστη και άλλα.

4.5.5.5       Bump Mapping

       Αυτή η μέθοδος χρησιμοποιείται όταν θέλουμε να δώσουμε υφή στην επιφάνεια ενός αντικειμένου. Παράδειγμα είναι το δέρμα ενός κροκόδειλου η ακόμα και η επιφάνεια ενός βράχου.

 

4.5.6    Κατηγορίες animation χαρακτήρων

4.5.6.1       Η πολυπλοκότητα της ανθρώπινης κίνησης

 

            Όταν έχουμε να κάνουμε με την ανθρώπινη κίνηση τα πράγματα δεν είναι τόσο εύκολα. Η πολυπλοκότητα σε συνδυασμό με το πλήθος των λεπτομερειών που αποτελούν την ανθρώπινη κίνηση προσδίδει τη δυσκολία την οποία αντιμετωπίζει ο animator για να προσδώσει ρεαλιστικότητα στην κίνηση αυτή.

Μία καθημερινή κίνηση, το περπάτημα επί παραδείγματι, είναι μία σύνθεση από εκατοντάδες συντονισμένες μικροκινήσεις, οι οποίες περιλαμβάνουν πολύπλοκες περιστροφές μεταξύ των συνδέσμων, των μυών και αντιδράσεις λόγω του περιβάλλοντος. Οι πλαστικές κινήσεις του ανθρώπινου σώματος, σε συνδυασμό με την ελαστικότητά του,  αποτελούν τα κύρια προβλήματα στα προγράμματα των computer graphics, λόγω αδυναμίας προσέγγισης και περιγραφής αυτών των κινήσεων με ένα μαθηματικό μοντέλο.

            Η ανθρώπινη κίνηση έχει μελετηθεί από τις επιστήμες της βιο-μηχανικής και ρομποτικής. Μία σωστή και έξυπνη αντιμετώπιση είναι η χρήση πολυ-επίπεδου προγραμματισμού. Για παράδειγμα, αφότου η περιγραφή μιας απλής κίνησης έχει ολοκληρωθεί, η κίνηση αυτή αναλύεται σε μικρές απλούστερες και ανεξάρτητες κινήσεις. Το πρόγραμμα τρέχει εως ότου αναλύσει και υπολογίσει και τις μικρότερες και απλούστερες κινήσεις, καθώς κατεβαίνει επίπεδο σε λεπτομέρεια.

            Αυτό που πρέπει κάποιος να έχει πάντα υπόψη του κατά τη δημιουργία animation είναι ότι το αποτέλεσμα πρέπει να είναι όσο το δυνατόν πιο ρεαλιστικό. Παρόλο που οι συμπεριφορές διαφέρουν σε κάθε χαρακτήρα, οι αλγόριθμοι ελέγχου γεννιούνται από ένα κοινό εργαλείο, το οποίο αποτελείται από πολλά επιμέρους στοιχεία , συνδέοντας τις κινήσεις των επιμέρους τμημάτων δυναμικά και παραμετρικά σύμφωνα με τον χαρακτήρα, κάνοντας χρήση κινηματικής (inverse kinematics), ώστε ο χαρακτήρας να υλοποιήσει την απαιτούμενη τροχιά όσο το δυνατόν πιο ρεαλιστικά.

4.5.6.2       Δευτερεύουσα Κίνηση : Ένας Σημαντικός Παράγοντας

            Η δευτερεύουσα κίνηση έχει να κάνει με αντικείμενα της σκηνής που δεν είναι ενεργά, και η κίνησή τους εξαρτάται από την κίνηση άλλων αντικειμένων. Για παράδειγμα ας φανταστούμε έναν αθλητή την ώρα που τρέχει. Η σκηνή του animation δεν θα ήταν καθόλου ρεαλιστική άμα δεν ακολουθούσε τον αθλητή και η αθλητική του ενδυμασία τον ρυθμό και την κίνηση του σώματος του. Στη συγκεκριμένη περίπτωση δευτερεύουσα κίνηση θεωρείται η κίνηση της ενδυμασίας, και είναι ολοφάνερο πως η σπουδαιότητα αυτής της κίνησης είναι σχεδόν εξίσου ίδια με τις κινήσεις των βασικών αντικειμένων της σκηνής.

Ανάλογα με την περίπτωση και τις συνθήκες που έχει να αντιμετωπίσει ο animator, μπορεί να παραστήσει την κίνηση καθορίζοντας την φυσική του συστήματος. Σημαντική επίσης είναι η κατάσταση και όλων των υπόλοιπων σωμάτων  που επηρεάζουν άμεσα το σύστημα αυτό. Η βασική μέθοδος που χρησιμοποιείται σε τέτοιες παραστάσεις βασίζεται κυρίως στη φυσική αντιμετώπιση του συστήματος. Η μέθοδος του key-framing  δεν χρησιμοποιείται καθώς η επιτυχία στην δημιουργία φυσικής σκηνής είναι δύσκολη όταν έχουμε να αντιμετωπίσουμε δευτερεύουσα κίνηση με πολλούς βαθμούς ελευθερίας, όπως συνήθως αντιμετωπίζουμε σε παρόμοιες συνθήκες.

            Αφού ο animator καθορίσει τις ακριβές κινήσεις του πρωταγωνιστή, συνδέει την βασική κίνηση με τις παθητικές ώστε να παράγει την επιθυμητή δευτερεύουσα κίνηση. Η αλληλεπίδραση μεταξύ ενεργητικής και παθητικής κίνησης μπορεί να είναι αμφίδρομη ή μονόδρομη. Η διαφορά έγκειται στο ότι στη μονόδρομη σχέση η ενεργητική κίνηση επιδρά και καθορίζει την παθητική, τη στιγμή που τα παθητικά αντικείμενα δεν έχουνε καμιά επίδραση στον ενεργό πρωταγωνιστή.  

            

4.5.7       Εφαρμογές

            Οι εφαρμογές του computer animation είναι διάφορες και μεγάλης σημασίας. Παρακάτω παρουσιάζονται μόνο αυτές που συνεισέφεραν τα μέγιστα στην ανάπτυξη στα διάφορα πεδία που χρησιμοποιήθηκαν.

4.5.7.1       Αρχιτεκτονική

            Το computer animation χρησιμοποιείται ευρύτατα στις μέρες μας  από τους αρχιτέκτονες. Ο αρχιτέκτονας μπορεί να σχεδιάζει ευκολότερα τις όψεις των κτιρίων στον Η/Υ και να παίρνει ένα απόλυτα λεπτομερέστατο αποτέλεσμα σε τρισδιάστατη μορφή. Χάρη στην γρήγορη ανάπτυξη της εικονικής πραγματικότητας, ο πελάτης του κτιρίου μπορεί να δει οποιοδήποτε κομμάτι του εσωτερικού από οποιαδήποτε γωνία θελήσει χωρίς αυτό να υφίσταται πραγματικά.

            Μέσω του computer animation μπορεί ένας μηχανικός να μελετήσει την συμπεριφορά της κάθε κατασκευής κάτω από δύσκολες συνθήκες όπως σεισμούς, και δυσμενείς καιρικές συνθήκες. Τέλος πολύ σημαντικός είναι και ο ρόλος της βελτιστοποίησης της κατασκευής από μηχανική πλευρά καθώς και η εύρεση μηχανικών σφαλμάτων και ελλείψεων.

 

4.5.7.2       Τέχνη

            Χωρίς να υποστηρίζεται η ιδέα ότι τα γραφικά των Η/Υ μπορούν να αντικαταστήσουν τις κλασσικές μεθόδους δημιουργίας τέχνης, παρόλα αυτά αποτελούν κι αυτά ένα παραπάνω μέσο. Δεν πρόκειται για μια γενικά αποδεκτή μορφή τέχνης αλλά δίνει κάποια βασικά εργαλεία για ανάπτυξη σε επίπεδο που δεν είναι εύκολο κάνοντας χρήση συμβατικών μεθόδων. Υπάρχουν πολλά πακέτα που αφομοιώνουν τέτοιες λειτουργίες. Μπορούν να παραστήσουν βούρτσα, spray, αερογράφο, πινέλα και δίνοντας ελευθερία επιλογής από παλέτες εκατομμυρίων χρωμάτων. Χρωματισμοί, σκιάσεις και φωτισμοί παράγονται κι ελέγχονται εύκολα. Το σημαντικότερο πλεονέκτημα στην τέχνη του Η/Υ είναι η δυνατότητα της διόρθωσης και αλλαγής όποτε το θέλουμε χωρίς κανένα πρόβλημα σε αντίθεση με την συμβατική μέθοδο δημιουργίας τέχνης.

4.5.7.3       Παιδεία

            ’λλη μία χρήση είναι για εκπαιδευτικούς σκοπούς. Διαγράμματα με κινούμενες εικόνες που απεικονίζουν κομμάτια του κόσμου μας δυσνόητα όπως ο μικρόκοσμος και το σύμπαν, μπορούν να βοηθήσουν ιδιαίτερα τους μαθητές να φανταστούν, να οραματιστούν και να κατανοήσουν τις δυσνόητες αυτές πληροφορίες.

            Επίσης με τη χρήση του animation, μπορούμε να μετατρέψουμε την μελέτη σε διασκεδαστικότερη ενασχόληση, ειδικότερα για τα μικρά παιδιά που είναι ανυπόμονα. Μέσω video και κινουμένων σχεδίων με ευχάριστες φιγούρες, μπορούμε εύκολα να τραβήξουμε το ενδιαφέρον τους και να τους πείσουμε ότι η μάθηση μπορεί να μετατραπεί σε κάτι πολύ διασκεδαστικό.

 

4.5.7.4       Engineering

            Στα πεδία της μηχανικής, το animation είναι πολύ χρήσιμο. Προτού αποφασιστεί η κατασκευή και δημιουργία κάποιου έργου, με την βοήθεια του υπολογιστή ο μηχανικός μπορεί να σχεδιάσει και να μελετήσει την συμπεριφορά ορισμένων σημαντικών μερών της κατασκευής πάνω στη λειτουργία και στις αλληλεπιδράσεις μεταξύ τους. Ελέγχεται έτσι η αντοχή, η καλή λειτουργία και οι δυνάμεις που ασκούνται, βοηθώντας στην επέμβαση και στην αλλαγή εκεί που είναι απαραίτητο.

            Για τη σχεδίαση των τεχνικών μερών που περιγράφονται παραπάνω, το εργαλείο CAD είναι πολύ χρήσιμο. Χρησιμοποιείται για να δημιουργεί μοντέλα κινούμενα με κάθε λεπτομέρεια όσο πιο κοντά στην πραγματικότητα είναι δυνατόν.

4.5.7.5       Παραγωγή Film

            Ίσως το πιο ενδιαφέρον κομμάτι εφαρμογής του computer animation. Στις μέρες μας., όλο και περισσότερες ταινίες κάνουν χρήση εδικών εφέ από Η/Υ, και αυτό οφείλεται σε πολλούς λόγους. Πρώτα από όλα αυτός είναι ο μόνος τρόπος προβολής μερικών σκηνών που είναι απίθανο να γυριστούν στην πραγματικότητα. Κύριο παράδειγμα τέτοιων σκηνών αποτελούν στα έργα επιστημονικής φαντασίας οι μάχες σε με διαστημόπλοια και εξωγήινα όντα. ’λλος λόγος είναι ότι σκηνικά πολύ ακριβά σε χρόνο και χρήμα υλοποίησής τους τώρα μπορούν να παρακαμφθούν με τη χρήση των Η/Υ. Σκηνικά που περιλαμβάνουν φαντασμαγορικά κτίρια, και αίθουσες τώρα σχεδιάζονται μέσω Η/Υ, και οι πρωταγωνιστές προβάλλονται πάνω σε αυτά.

            Ο συνήθης τρόπος παραγωγής του έργου είναι το ξεχωριστό γύρισμα και εγγραφή του φιλμ με τους ηθοποιούς και το περιβάλλον, και η σύνθεση μετέπειτα στο εργαστήριο Η/Υ, προσαρμόζοντας και τα ανάλογα εδικά εφέ από πάνω. Τέτοιες ταινίες έχουμε αρκετές στη σύγχρονη εποχή, με τρανά παραδείγματα το Star Wars και το Star Trek. Τελευταίο μεγάλο επίτευγμα αποτέλεσε και το “Jurassic Park” όπου Δεινόσαυροι όλων των τύπων δημιουργήθηκαν μέσα σε Η/Υ σαν μοντέλα τρισδιάστατα, παράγοντας ένα υπέρ του δέοντος πειστικό αποτέλεσμα.

4.5.7.6       Στρατιωτικές Εκπαιδεύσεις

            Η σωστή εκπαίδευση των στρατιωτών, ώστε να αντεπεξέλθουν σωστά σε πολεμικές συνθήκες είναι το πιο βασικό για την δημιουργία αποτελεσματικού στρατού. Για πρακτικούς λόγους και σκοπούς, προγράμματα προσομοίωσης έχουνε αφοσιωθεί σε αυτό το σκοπό. Σε ειδικά αναπτυγμένους και σχεδιασμένους χώρους, οι στρατιώτες εκπαιδεύονται με αυτά τα προγράμματα, μαθαίνοντας το χειρισμό αεροπλάνων, υποβρυχίων και τανκ σε κατάσταση πολέμου, χωρίς οικονομικές, κτιριακές και ανθρώπινες απώλειες. Έτσι ο εκπαιδευόμενος μαθαίνει κάνοντας λάθη που δεν θεωρούνται μοιραία, και αποκτά παρόμοια εμπειρία με αυτή μιας πραγματικής πολεμικής κατάστασης.

            Χρησιμοποιώντας τον εξομοιωτή μπορούμε να εναλλάσσουμε κατά βούληση τις συνθήκες της άσκησης, καλύπτοντας μεγαλύτερα πεδία και περισσότερα σενάρια, αφήνοντας τον εκπαιδευόμενο να αντιμετωπίσει πολλές και διαφορετικές καταστάσεις πλουτίζοντας τις εμπειρίες του περισσότερο.

4.5.7.7       TV

            Το animation έχει συμβάλει στην ποιότητα με την οποία προβάλλονται προγράμματα και εκπομπές στην τηλεόραση. Πολύχρωμα και ευχάριστα γραφικά, προσελκύουν τον θεατή και προσδίδουν έναν αέρα ποιότητος στην τηλεόραση. Αυτά έχουν εισέλθει στα περισσότερα προγράμματα της τηλεόρασης, καθιστώντας την ευχάριστη ακόμα και σε περιπτώσεις ανιαρές που ο θεατής περιμένει την αλλαγή προγράμματος η κατά την πρόβλεψη του καιρού για παράδειγμα, προσθέτοντας εικόνες και σχήματα ευχάριστα και καλοσχεδιασμένα.

4.5.7.8       Video

            Προτού αναπτυχθεί το computer animation, τα κινούμενα σχέδια σχεδιάζονταν και δημιουργούνταν σε χαρτί, σύμφωνα με την μέθοδο της κυψέλης. Για να παραχθεί μία και μόνο κίνηση ο σχεδιαστής υποχρεούνταν να σχεδιάσει ένα ένα τα καρέ από την αρχή, με μικρή διαφορά μεταξύ τους ώστε να παραχθεί τελικά η κίνηση η οποία άρχιζε από το πρώτο καρέ και τελείωνε στο τελευταίο. Με τις μεθόδους που περιγράψαμε πρωτύτερα στην θεωρία βελτιώθηκε κατακόρυφα η απόδοση και η ποιότητα με αποτέλεσμα το κινούμενο σχέδιο να θεωρείται ουσιαστικά video, και να ξεγελάει το ανθρώπινο μάτι με χαρακτηριστική ευκολία.

4.5.8    Η Animation Βιομηχανία Σήμερα

            Το Computer Animation είναι ένα ταχύτατο αναπτυσσόμενο κομμάτι της σημερινής τεχνολογίας, προσφέροντας πολλά επαγγελματικά και κυρίως οικονομικά οφέλη. Αυτοί οι λόγοι έχουν οδηγήσει την παγκόσμια αγορά να αφιερώνει καθημερινά όλο και μεγαλύτερο κομμάτι της στην ανάπτυξη σχετικού λογισμικού, κάτι που φαίνεται και στον αριθμό και μέγεθος των εταιριών που ασχολούνται με αυτό. Πολλές από αυτές τις συναντάμε και στο InterNet :

·        Adobe Systems Inc.

·        Alias | Wavefront

·        AutoDesk

·        Bentley

·        Caligari

·        Computational Logic Inc.

·        ComputerVision

·        ElectroGIG

·        InterGraph

·        Lateiner Dataspace

·        MacroMedia

·        National Association of Broadcasters

·        NewTek

·        ReZ.n8

·        SigGraph

·        Silicon Graphics

·        Strata Inc.

·        ViewPoint Datalabs

4.5.8.1       Πακέτα Animation

Σύμφωνα με το animation που θέλουμε να δημιουργήσουμε, πρέπει να επιλέξουμε το κατάλληλο λογισμικό και το κατάλληλο υπολογιστή. Πολύπλοκα animations που περικλείουν πολλά οπτικά εφέ και υψηλής ποιότητας γραφικά δεν μπορούν να δημιουργηθούν σε απλό υπολογιστικό σύστημα. Οι απαιτήσεις είναι τεράστιες, και μάλιστα οι μεγαλύτερες που απαιτεί οποιαδήποτε εφαρμογή στην πληροφορική στις μέρες μας. Παρόλα αυτά ένα πολύ δυνατό και σύγχρονο υπολογιστικό σύστημα δεν μπορεί να κάνει τίποτα χωρίς το ανάλογο λογισμικό και μάλιστα το λογισμικό αυτό καθορίζει απολύτως το αποτέλεσμα και την ποιότητα του δημιουργούμενου animation. Παρακάτω έχουμε μερικά από τα πιο δημοφιλή πακέτα στην σημερινή αγορά :

·         3DStudio Max

Ο συνεχιστής του επιτυχημένου 3D Studio 3.0.  Το 3DStudio Max τρέχει σε περιβάλλον WindowsNT. Βασίζεται πλήρως σε αντικειμενοστραφές δομή, περιέχοντας πολλά εργαλεία και στοιχεία, καθώς και πολύ εύχρηστο περιβάλλον.

·         3DStudio

Το 3Dstudio αποτελεί ένα ακόμα πρόγραμμα για 3D γραφικά. Εκτελείται σε PC συμβατούς υπολογιστές και θεωρείται πολύ απλό στη χρήση του. Πολλά σχολεία και σχετικά μικρές επιχειρήσεις παραγωγής το χρησιμοποιούν για τις σχετικά περιορισμένες σε έκταση ανάγκες τους. Το 3Dstudio είναι δημιουργία της AutoDesk, μίας από τις μεγαλύτερες και σπουδαιότερες εταιρίες λογισμικού στο χώρο αυτό. Το 3Dstudio περιέχει 2D modeler όπου δισδιάστατα αντικείμενα σχεδιάζονται για να τα επεξεργαστεί το 3D Lofter, και να τα μετουσιώσει σε τρισδιάστατα αντικείμενα μέσω στροβιλισμών και αναπτυγμάτων στο χώρο. Επίσης το πακέτο διαθέτει και ένα animator κατάλληλο για παραγωγή animation, με εύχρηστο editor και πολλές επιλογές. Όλα αυτά συνθέτουν ένα εν γένη πολύ αξιόλογο πακέτο στη σημερινή αγορά..

·         LightWave3D

Το LightWave 3D είναι ένα από τα καλύτερα και κορυφαία πακέτα δημιουργίας τρισδιάστατων γραφικών στο PC. Χρησιμοποιήθηκε ακόμα και για παραγωγή σειρών επιστημονικής φαντασίας στην τηλεόραση όπως το SeaQuest και το Babylon 5. Από πολλούς θεωρείται ως το καλύτερο πρόγραμμα για τα PC στην σχεδίαση τρισδιάστατων γραφικών.

·         Adobe Photoshop

Παρόλο που το Adobe PhotoShop δεν είναι εφαρμογής παραγωγής animation, είναι ένα από τα κορυφαία προγράμματα παραγωγής γραφικών. Το Adobe Photoshop μπορεί να χρησιμοποιηθεί από υπολογιστές συμβατούς με ΙΒΜ σε παραθυρικό περιβάλλον και Μac. Χρησιμοποιείται για αλλοίωση ψηφιακής εικόνας η δημιουργία γραφικών από την αρχή.

·         Adobe Premiere

Το Adobe Premier όπως αναφέρει και το όνομά του είναι πρόγραμμα και αυτό της Adobe. Είναι ένα εργαλείο για την ψηφιοποίηση video, και την μετέπειτα επέμβαση πάνω του με special effects. Και αυτό το πρόγραμμα τρέχει σε PC(windows) και Mac.

·         Alias|Wavefront

Το Alias είναι ένα από τα κορυφαία πακέτα animation στην αγορά σήμερα. Πρόκειται για την ένωση δύο ισχυρών εταιριών στον χώρο του animation όπως η Αlias και η Wavefront. Το πρόγραμμα είναι γνωστό για την πολύ καλή δημιουργία ακόμα και των πιο πολύπλοκων και περίεργων από άποψη δομής μοντέλων. Επίσης είναι εξοπλισμένο με ευχάριστο interface και με μεγάλη ελευθερία στην επικοινωνία με άλλα παρόμοια πακέτα για την παράλληλη δημιουργία τρισδιάστατων αντικειμένων.

  • Animator Studio

To Animator Studio είναι ένα πρόγραμμα επεξεργασίας και δημιουργίας animation από την AutoDesk. Έχει χαρακτηριστικά και εργαλεία που ελαχιστοποιούν τον χρόνο δημιουργίας video και animation. Τρέχει σε PC Windows μόνο.

·         Elastic Reality

Το Elastic Reality είναι ένα από τα καλύτερα προγράμματα morphing. Η εκτέλεσή του είναι δυνατή μόνο κάτω από Mac και SGI. Ένα από τα καλύτερα χαρακτηριστικά του προγράμματος αυτού είναι η επιλογή τμημάτων για την περιοχή που θα εφαρμοσθεί το morphing σε αντίθεση με άλλα του είδους που χρησιμοποιούν σημεία. Επίσης έχουμε τη δυνατότητα να μορφοποιήσουμε και video και στατικές εικόνες.

·         SoftImage

            Ένα άλλο κορυφαίο πρόγραμμα είναι το SoftImage. Χρησιμοποιείται κυρίως από μεγάλα στούντιο παραγωγής animation στον κόσμο, γεγονός που δείχνει τις δυνατότητες του πακέτου.

·         Strata Studio Pro

Το Strata Studio Pro είναι μάλλον το πιο γνωστό και διαδεδομένο πρόγραμμα τρισδιάστατων γραφικών στον Macintosh. Το Strata Studio Pro είναι κυρίως ένας graphic renderer με προεκτάσεις σε animation. Πολλά γραφικά παιχνιδιών έχουνε παραχθεί με βάση αυτό το πρόγραμμα, όπως του γνωστού Myst.

·         Director

Το Director είναι ένα εύχρηστο εργαλείο ακόμα και από χρήστες που δεν είχανε παρόμοια εμπειρία παραγωγής animation στο παρελθόν. Είναι προϊόν της Macromedia και εκτελείται από συμβατό υπολογιστή κάτω από περιβάλλον Windows.

Το Director είναι ένα πολύ εύχρηστο εργαλείο, το οποίο μπορεί να χρησιμοποιηθεί ακόμα και από χρήστες που δεν είχαν παρόμοια εμπειρία δημιουργίας animation. Πακέτο φτιαγμένο από την Macromedia, εταιρία με μεγάλη εμπειρία και ανάμειξη στο χώρο του animation, συμβατό με συστήματα που τρέχουν windows.

Πρώτα από όλα, το animation θεωρείται ως ένα φιλμ στο οποίο παίρνουν μέρος ηθοποιοί, που ονομάζονται cast members. Ο κάθε cast member μπορεί να δημιουργηθεί από τις δικές του ζωγραφιές χρησιμοποιώντας το paint tool ή εισάγοντας με την επιλογή import εικόνα έτοιμη σε format gif ή aiff. O χρήστης έχει στη διάθεσή του πολλά εργαλεία για να επιφέρει ότι είδους αλλαγές θέλει πάνω στις εικόνες που έχει εισάγει. Το animation προχωράει πάνω στη σκηνή σε ένα ορθογώνιο κομμάτι της εικόνας. Ο animator καθορίζει την ταχύτητα και την τροχιά που θα αποκτήσει ο cast member μέσα στη σκηνή. Κάτι τέτοιο μπορεί να γίνει με πολλούς και ποικίλους τρόπους, ακόμα και σε πραγματικό χρόνο όπου καταγράφεται η κίνηση την οποία θέλει να δώσει ο animator. Επίσης υπάρχει και το control panel το οποίο βοηθάει στην μετακίνηση του video στο σημείο που θέλουμε για να επεξεργαστούμε το εκάστοτε καρέ.


5. Αποθηκευτικά Μέσα

Ο ρόλος των αποθηκευτικών μέσων στην τεχνολογία των πολυμέσων έχει γίνει ήδη φανερός. Σε αυτό το κεφάλαιο, θα εξετάσουμε τόσο τον ρόλο των παραδοσιακών μαγνητικών μέσων αποθήκευσης, όσο και των νεότερων οπτικών.

5.1    Η Επιλογή Αποθηκευτικού Μέσου

Τα μαγνητικά  μέσα αποθήκευσης υπάρχουν εδώ και αρκετά χρόνια, και έχουν χρησιμοποιηθεί ευρέως σε κάθε είδους εφαρμογή. Παρόλα αυτά, το κόστος ανά MB καθώς και η μειωμένη διάρκεια ζωής τους, έκανε φανερή από πολύ νωρίς την ανάγκη για εύρεση καλύτερων λύσεων για εφαρμογές μαζικής αποθήκευσης αρχείων. Όσον αφορά στα πολυμέσα, το πρόβλημα είναι ακόμα πιο έντονο γιατί το είδος της πληροφορίας είναι γενικά πιο απαιτητικό σε σύγκριση με άλλου είδους εφαρμογές. Επιπλέον, οι περισσότερες εφαρμογές πολυμέσων  απευθύνονται στην ευρύτερη αγορά και δεν μπορεί να δικαιολογηθεί υψηλό κόστος. Τέλος, η διανομή αυτών των εφαρμογών απαιτεί ένα μεταφερόμενο αποθηκευτικό μεγάλης χωρητικότητας. Αυτές τις ανάγκες ικανοποιούν τα οπτικά μέσα αποθήκευσης, τα οποία φαίνονται να κυριαρχούν στον χώρο των πολυμέσων σήμερα. Αυτό δεν σημαίνει ότι η χρήση τους είναι αποκλειστική. Το κύριο πρόβλημα τους είναι η ταχύτητα. Απαιτητικές εφαρμογές, όπως η διανομή video, δεν μπορούν να υλοποιηθούν με οπτικά μέσα.

Γενικά, όχι μόνο σε εφαρμογές πολυμέσων, το πρόβλημα της επιλογής αποθηκευτικού μέσου είναι πολυσύνθετο. Ένας μηχανικός που πρόκειται να κάνει μια τέτοια επιλογή πρέπει να λάβει υπόψη του τους ακόλουθους παράγοντες:

·       την ποσότητα που θα αποθηκευτεί και τον απαιτούμενο χρόνο προσπέλασης και διαμεταγωγής των δεδομένων

·       το είδος της πληροφορίας που πρόκειται να αποθηκευτεί: αριθμητικά δεδομένα, κείμενο, σχέδια, διτονικές ή κλίμακας του γκρίζου εικόνες, έγχρωμες εικόνες, ήχος, video

·       τη μεταβλητότητα της πληροφορίας, τους ρυθμούς με τους οποίους λαμβάνεται και αλλάζει, και τη προβλεπόμενη διάρκεια ζωής της

·       τον αριθμό των αντιγράφων που ζητούνται, τη διανομή αυτών των αντιγράφων, αν απαιτούνται αντίγραφα σε χαρτί, αν το σύστημα πρέπει να είναι μεταφέρσιμο (portable) μεταξύ διαφόρων τοποθεσιών

·       το κόστος της προετοιμασίας της πληροφορίας και των αποθηκευτικών συσκευών

·       τον αριθμό των χρηστών και το επίπεδο εμπειρίας τους

·       την τυχούσα αναγκαιότητα προσπέλασης από είδη υπάρχοντα μηχανήματα, τα πρότυπα, τις απαιτήσεις backup και ασφάλειας

·       τη μετατροπή της υπάρχουσας πληροφορίας στο νέο σύστημα.

5.2    Μαγνητικά Αποθηκευτικά Μέσα

Τα μαγνητικά αποθηκευτικά μέσα είναι κατάλληλα για δυναμικά δεδομένα που απαιτούν συχνές αλλαγές και προσπελάσεις. Χρησιμοποιούνται συνήθως κατά την επεξεργασία των δεδομένων, ενώ για την αρχειοθέτηση προτιμούνται τα οπτικά. Μια άλλη χρήση είναι ως cache όπου κρατούνται τα δεδομένα που πρέπει να προσπελαστούν γρήγορα και για index files σε μεγάλες βάσεις δεδομένων. Σε εφαρμογές, όπως το video-on-demand, κατά τις οποίες μεγάλες ποσότητες πληροφορίας που μεταβάλλονται με το χρόνο πρέπει να μεταδοθούν γρήγορα, τα μαγνητικά μέσα είναι η μόνη επιλογή. Σε γενικές γραμμές, οι επιδόσεις των μαγνητικών μέσων είναι 3 φορές μεγαλύτερες σε σχέση με τα οπτικά.

5.2.1       RAID

Σε αντίθεση με τη φιλοσοφία των παλαιότερων μεγάλων συστημάτων, που χρησιμοποιούσαν έναν αλλά ακριβό δίσκο, το RAID (Random Arrays of Inexpensive Disks) χρησιμοποιεί πολλούς φτηνούς. Τα δεδομένα κατανέμονται σε διαφορετικούς φυσικούς δίσκους ,οι οποίοι αποτελούν το συνολικό σύστημα RAID. Ο τρόπος με τον οποίο συνδέονται αυτοί οι δίσκοι επιλέγεται με βάση: τις επιδόσεις και το κόστος του συστήματος και τη διαθεσιμότητα των δεδομένων. Υπάρχουν διάφορα επίπεδα συστημάτων RAID, κάθε ένα εκ των οποίων βελτιστοποιεί κάποιων από αυτούς τους παράγοντες:

·       RAID 0: Βελτιστοποιεί την ταχύτητα. Δεν υπάρχει πλεονασμός δεδομένων (data redundancy). Είναι κατάλληλο για εφαρμογές όπου απαιτούν υψηλές επιδόσεις και μικρή ασφάλεια.

·       RAID 1: Κρατείται ένα αντίγραφο των δεδομένων σε διαφορετικό δίσκο. Η ταχύτητα ανάγνωσης βελτιώνεται, γιατί ο ελεγκτής επιλέγει το πλησιέστερο στα δεδομένα δίσκο. Η εγγραφή είναι σαφώς πιο αργή, γιατί τα δεδομένα εγγράφονται δύο φορές. Ο πλεονασμός το κάνει ιδανικό για δίσκους συστήματος ή για αποθήκευση σημαντικών δεδομένων.

·       RAID 0+1: Συνδυάζει τις τεχνικές βελτιστοποίησης της ταχύτητας του RAID 0 με τον πλεονασμό του RAID 1.

·       RAID 3: Βελτιώνει την ταχύτητα διαμεταγωγής (transfer rate) του συστήματος. Τα δεδομένα εγγράφονται σε τμήματα (chunks) μικρότερα από το μέσο ζητούμενο μέγεθος. Τα chunks διανέμονται σε όλους τους δίσκους. Μια αίτηση εξυπηρέτησης, κατά μέσο όρο, θα ζητήσει περισσότερα από ένα chunks, οπότε η εξυπηρέτηση μπορεί να γίνει από πολλούς δίσκους που λειτουργούν παράλληλα. ’ρα με αυτήν τη μέθοδο τα δεδομένα μεταδίδονται πιο γρήγορα.

·       RAID 5: Τα chunks έχουν μεγαλύτερο μέγεθος από το μέσο ζητούμενο. Κατά συνέπεια, μια αίτηση εξυπηρέτησης μπορεί να ικανοποιηθεί από έναν μόνο δίσκο, γεγονός που επιτρέπει την παράλληλη εξυπηρέτηση και άλλων αιτήσεων από τους άλλους δίσκους. Μεγιστοποιείται δηλαδή ο ρυθμός εξυπηρέτησης των πελατών.

·       RAID 6: Η ταχύτητα του είναι παρόμοια με αυτή του RAID 5. Η ταχύτητα εγγραφής είναι λίγο χειρότερη, αλλά μπορεί να αντέξει σφάλματα δύο δίσκων.

Το ενδιαφέρον για την τεχνολογία των δίσκων RAID, όσον αφορά στα πολυμέσα, επικεντρώνεται στην υλοποίηση εξυπηρετητών εφαρμογών πολυμέσων, όπως το video-on-demand. Για παράδειγμα, το σύστημα Digital Equipment’s Video Interactive Information Server χρησιμοποιεί την τεχνολογία RAID 5.

Ύπαρξη πολλαπλών αντιγράφων των δεδομένων, με στόχο την ασφάλεια των δεδομένων ή την αύξηση της διαθεσιμότητας.

5.3    Οπτικά Αποθηκευτικά Μέσα

Τα πρώτα πρωτότυπα οπτικών μέσων αποθήκευσης παρουσιάσθηκαν από την Philips και την MCA το 1972. Η πρώτη εμπορική μορφή οπτικού μέσου αποθήκευσης εμφανίστηκε στις αρχές τις δεκαετίας τους 80 από την Philips και την Sony και ήταν το CD (Compact Disk). Αν και, αρχικά, κατάλληλο μόνο για μουσική, η τεχνολογία επεκτάθηκε και για την αποθήκευση ψηφιακής πληροφορίας. Έτσι, το 1987 εμφανίστηκε το CD-RΟΜ (Compact Disk-Read Only Memory), το οποίο είναι κατάλληλο για χρήση σε υπολογιστές. Ακολούθησαν και άλλες επεκτάσεις που οδήγησαν σε μια πληθώρα προτύπων, τα οποία θα περιγράψουμε παρακάτω.

Η πληροφορία σε ένα οπτικό μέσο μπορεί να αποθηκεύεται ψηφιακά, όπως στο CD ή αναλογικά. Δηλαδή, εκτός από τα ψηφιακά οπτικά μέσα, υπάρχουν και τα αναλογικά. Ένα τέτοιο παράδειγμα είναι τα videodisks. Το ενδιαφέρον μας θα επικεντρωθεί στα ψηφιακά τα οποία κυριαρχούν στον κόσμο των πολυμέσων.

5.3.1    Ψηφιακά Οπτικά Αποθηκευτικά Μέσα

Οι πρώτοι CD-δίσκοι  μουσικής, εμφανίστηκαν το 1982. Το 1985 η τεχνολογία τους επεκτάθηκε ώστε να υποστηρίζει μέχρι και 550MB ψηφιακής πληροφορίας. Το βασικό πρόβλημα στην χρησιμοποίηση αυτού του format, που αργότερα ονομάστηκε CD-ROM, σε εφαρμογές πολυμέσων, ήταν ο μη ικανοποιητικός χώρος για την αποθήκευση video και ο περιορισμένος ρυθμός διαμεταγωγής ,που δεν ξεπερνούσε το 1.5Mbit/s

Τα επόμενα δύο χρόνια εμφανίστηκαν δύο νέα formats το CD-ROM XA και το CD-I που υποστήριζαν μίξη κειμένου, εικόνας, ήχου και video πλήρους οθόνης και χρώματος (full screen full motion).

Τα είδη οπτικής αποθήκευσης, που έχουμε αναφέρει ως τώρα, επιτρέπουν μόνο την αναπαραγωγή της πληροφορίας και είναι κατάλληλα για μαζική διανομή. Η πληροφορία προεγγράφεται πάνω σε ένα δίσκο-μήτρα (master disk), από τον οποίο παράγονται μαζικά τα αντίγραφα. Σε αντίθεση με αυτά, υπάρχουν και άλλα είδη οπτικών μέσων τα οποία είναι κατάλληλα και για ανάγνωση και για μία (WORM-Write Once Read Many, CD Recordable) ή πολλές (ΜΟ, Magneto Optic) εγγραφές. Τόσο οι δίσκοι όσο και οι οδηγοί (drives) αυτών έχουν διάφορα μεγέθη και χωρητικότητες. Οι δίσκοι μπορεί να έχουν μία ή δύο πλευρές.

Οι οδηγοί των οπτικών δίσκων εμφανίζονται σε τρεις μορφές:

1.    Ανεξάρτητους οδηγούς που δέχονται ένα μόνο δίσκο. Αυτοί οι οδηγοί μπορεί να είναι είτε εσωτερικοί είτε εξωτερικοί

2.    Οδηγούς που δέχονται πολλούς δίσκους.

3.    Juke Boxes-μονάδες που μπορούν να υποστηρίξουν μέχρι και 100 δίσκους, που επιλέγονται αυτόματα από ένα μηχανικό βραχίονα ανάλογα με τις ανάγκες.

5.3.2    Αρχή Λειτουργίας Των Οπτικών Δίσκων

Ας δούμε πως γίνεται η εγγραφή και η ανάγνωση της ψηφιακής πληροφορίας σε ένα δίσκο CD. O δίσκος έχει διάμετρο 12mm και πάχος 1.2mm. Πάνω στο δίσκο υπάρχουν κοιλάδες (pits) και νησίδες (lands). Η μετάβαση από μια κοιλάδα σε νησίδα ή το αντίστροφο αντιπροσωπεύει το ψηφίο 1, ενώ η απουσία μετάβασης το  0. Οι κοιλάδες και οι νησίδες χαράσσονται σε ένα πλαστικό υλικό, παρόμοιο με αυτό που χρησιμοποιείται στους φακούς επαφής, πάνω από μια ανακλαστική επιφάνεια, σχηματίζοντας μια σπείρα από το κέντρο του δίσκου προς το εξωτερικό. Η μηχανή ανάγνωσης αποτελείται από μια δίοδο laser που εκπέμπει υπέρυθρη ακτίνα πάνω στην επιφάνεια του δίσκου. Η ακτίνα laser ανακλάται πάνω στο ανακλαστικό υλικό, και ανιχνεύεται από ένα φακό που βρίσκεται επίσης πάνω στην κεφαλή ανάγνωσης. Επειδή οι νησίδες ανακλούν τη δέσμη ενώ οι κοιλάδες τη διασκορπίζουν, δημιουργείται μια ακολουθία ασθενών και ισχυρών ανακλάσεων η οποία οδηγείται σε μια  που μετατρέπει τις διακυμάνσεις του φωτός σε ανάλογη τάση. Το ψηφιακό σήμα που προκύπτει, μπορεί να στη συνέχει να μετατραπεί σε αναλογικό (CD-DA) ή και να χρησιμοποιηθεί ως έχει (CD-ROM).

Σχήμα 5-1. Τομή ενός δίσκου CD

Η χωρητικότητα ενός δίσκου CD εξαρτάται από κυρίως από την πυκνότητα εγγραφής της πληροφορίας. Λέγοντας πυκνότητα, αναφερόμαστε στο μέγεθος και τις αποστάσεις μεταξύ των κοιλάδων και των νησίδων, και στις αποστάσεις μεταξύ διαδοχικών σπειρών. Το πόσο μεγάλη πυκνότητα μπορεί να χρησιμοποιηθεί εξαρτάται κυρίως από την διακριτικότητα της ακτίνας laser που χρησιμοποιείται. Η διακριτικότητα είναι μέγεθος αντιστρόφως ανάλογο του μήκους κύματος. Στα συνήθη CD, χρησιμοποιείται υπέρυθρη ακτίνα με μήκος κύματος 780nm. Το ιδανικό είναι να χρησιμοποιηθεί μπλε ακτίνα laser, που έχει πολύ μικρότερο μήκος κύματος. Όμως η παραγωγή μιας διόδου που να εκπέμπει τέτοια ακτίνα, με λογικό κόστος, είναι ένα πρόβλημα άλυτο μέχρι σήμερα.

5.3.3    Πλεονεκτήματα και Περιορισμοί των Οπτικών Μέσων

Ας συνοψίσουμε όσα έχουμε είδη αναφέρει για τα πλεονεκτήματα των οπτικών μέσων, όλα τα είδη τους προσφέρουν τα εξής:

·       μεγάλο χώρο αποθήκευσης

·       τυχαία προσπέλαση στα δεδομένα

·       μεγάλη διάρκεια ζωής (30-40 χρόνια)

·       μικρό κόστος ανά ΜΒ

·       μεταφερσιμότητα

Επιπλέον, οι οπτικοί δίσκοι WORM προσφέρουν το πλεονέκτημα της ασφάλειας των δεδομένων, αφού δεν μπορούν να σβηστούν ή αλλαχθούν. Αυτό το χαρακτηριστικό μπορεί να θεωρηθεί και ως μειονέκτημα, γιατί  καθιστά τους δίσκους αυτούς ακατάλληλους για δίσκους συστήματος και για επεξεργασία δεδομένων.

Οι μαγνητοοπτικοί δίσκοι έχουν το χαρακτηριστικό της επανεγγραψιμότητας, αλλά υστερούν σε ταχύτητα. Τόσο ο μέσος χρόνος προσπέλασης όσο και ο ρυθμός διαμεταγωγής είναι περίπου 4 φορές χειρότεροι σε σχέση με τους μαγνητικούς δίσκους. Παρόλα αυτά, οι επιδόσεις τους αυξάνουν ραγδαία, και ίσως στο μέλλον να έχουμε μαγνητοοπτικούς δίσκους στη θέση των μαγνητικών.

Όσον αφορά στα CD-ROM και CD-Recordable, αυτά αποτελούν ένα άριστο μέσω διανομής προγραμμάτων και πληροφοριών, αλλά  είναι πολύ αργά για την αναπαραγωγή υψηλής ποιότητας βίντεο. Αυτό οφείλεται κυρίως στον τρόπο εγγραφής της πληροφορίας πάνω στον οπτικό δίσκο, ο οποίος απαιτεί μεταβλητή γωνιακή ταχύτητα και σταθερή γραμμική (CLV-Constant Linear Velocity). Αυτό είναι και το μεγαλύτερο εμπόδιο στην αύξηση της ταχύτητας του CD-ROM Επιπλέον, η κεφαλή σε έναν οδηγό CD-ROM είναι γενικά βαρύτερη από αυτή ενός οπτικού δίσκου. Αυτό σημαίνει μεγαλύτερη αδράνεια και μεγαλύτερο χρόνο σταθεροποίησης πάνω από το ζητούμενο frame. Η κατάσταση βελτιώνεται συνεχώς, και από 150KB/s ρυθμό διαμεταγωγής που είχαν οι πρώτοι οδηγοί απλής ταχύτητας, έχουμε φτάσει στα περίπου 1000ΚB/s των οδηγών οκταπλής ταχύτητας. Ο μέσος χρόνος προσπέλασης δεν έχει βελτιωθεί ανάλογα, και είναι σήμερα γύρω στα 150ms. Γι’ αυτό η χρήση τους είναι προβληματική για απαιτητικές interactive εφαρμογές πολυμέσων.

5.4    CD Πρότυπα

Το 1980 η Philips και η Sony δημοσίευσαν από κοινού το «Κόκκινο Βιβλίο» για την καθιέρωση του CD-Audio ως παγκόσμιο standard. Αυτό ήταν το πρώτο από την σειρά των standards των σχετικών με την τεχνολογία των compact disks και ακολούθησαν κι άλλα βιβλία που διακρίνονται από τα χρώματα που αναφέρονται στους τίτλους τους.

Το Κόκκινο Βιβλίο καθόρισε τις βασικές αρχές κατά τις οποίες αναπτύχθηκε το CD. Φυσικές διαστάσεις του δίσκου, εγγραφή των δεδομένων σε ένα μοναδικό ρεύμα από το εσωτερικό προς τα έξω, παρουσίαση των δεδομένων στην κεφαλή ανάγνωσης με μια σταθερή γραμμική ταχύτητα σε σχέση με μια μεταβλητή ταχύτητα περιστροφής κλπ. Προκειμένου τα δεδομένα στο δίσκο να μπορούν να χειριστούν αποτελεσματικά αποφασίστηκε να διαιρεθούν. Το βασικότερο μέρος της πληροφορίας χαρακτηρίστηκε ως frame. Κάθε frame αποτελείται από 588bits (διακριτά δυαδικά ψηφία) από τα οποία τα 192 μπορεί να χρησιμοποιηθούν για μουσική, τα 388 για διαμόρφωση και διόρθωση λάθους και το 1 για έλεγχο.

Μέσα σε ένα frame, αυτά τα 192bits που χρησιμοποιούνται για τη μουσική ομαδοποιούνται σε 24Bytes. Ενα σετ από 98 frames αποτελεί ένα sector. Οι sectors,που ο καθένας περιέχει συνολικά 2352Bytes, ομαδοποιούνται σε tracks (το κόκκινο βιβλίο καθορίζει σα μέγιστο τα 99 tracks).

Σε κάθε CD η επιφάνεια που καλύπτουν τα tracks αναφέρεται ως περιοχή προγράμματος. Σε αυτή την περιοχή η εισαγωγή γίνεται με το lead-in και η έξοδος με το lead-out. Οι πληροφορίες σχετικά με την θέση και το περιεχόμενο του κάθε track αποθηκεύεται στον πίνακα περιεχομένων (TOC), ο οποίος βρίσκεται στο τέλος του lead-in.

Με το κίτρινο βιβλίο, το οποίο εκδόθηκε το 1984, η Philips και η Sony αναγνώρισαν το ρόλο του CD όχι μόνο ως φορέα ανώτερης ποιότητας ήχου, αλλά και ως ένα βολικό μέσο μεταφοράς και αποθήκευσης μεγάλου μεγέθους αναγνώσιμων δεδομένων υπολογιστή.

Το νέο CD-ROM (Compact Disk - Read Only Memory) απαιτούσε κάποιες ανακατατάξεις και αναπροσαρμογές σε σχέση με το πρώτο standard. Τα frames αποτελούσαν μικρή μονάδα για τα δεδομένα και τα tracks (περιορισμένα σε ένα μέγιστο των 99) πολύ μεγάλα για να είναι πρακτικά. Ετσι επιλέχτηκε το sector σα βασική μονάδα διεύθυνσης. Επιπλέον, προκειμένου να υπάρχει αξιόπιστη λειτουργία απαιτούνταν η βελτίωση στους ρυθμούς λαθών bit. Για αυτό το λόγο,το κίτρινο βιβλίο πρόσθεσε στον κάθε sector ένα επιπλέον επίπεδο διόρθωσης με τη μορφή κώδικα ανίχνευσης λαθών και διόρθωσης (EDC/ECC).

Ενα συγκεκριμένο sector ενός CD-ROM περιέχει 12Bytes για συγχρονισμό, 4Bytes για επικεφαλίδα (3 για διεύθυνση, 1 για δείκτη κατάστασης), 2048Bytes για δεδομένα χρήστη και 288Bytes για EDC/ECC. Ενα sector με αυτά τα χαρακτηριστικά λέμε ότι είναι φορμαρισμένο σε mode 1. Είναι όμως δυνατόν να έχουμε το δείκτη της κατάστασης και σε mode 2. Οι sectors της mode 2 θυσιάζουν το επιπλέον επίπεδο για EDC/EEC, όπου αυτό δε χρειάζεται (π.χ. εκεί όπου αποθηκεύονται ηχητικές και οπτικές πληροφορίες), και με τον τρόπο αυτό δίνουν 288Bytes επιπρόσθετα για δεδομένα χρήστη σε κάθε sector.

Τα CD που περιέχουν πληροφορίες και σε mode 1 και σε mode 2 είναι γνωστά και σαν mixed mode και τυπικά προσφέρουν δεδομένα ROM και ήχο προδιαγραφών κόκκινου βιβλίου που μπορεί να ληφθεί άμεσα από κάποια έξοδο ήχου που έχουν τα περισσότερα CD-ROM drives χωρίς την ανάγκη παρουσίας κάρτας ήχου στον υπολογιστή. Τέτοιοι δίσκοι αποθηκεύουν τα δεδομένα και τα περιεχόμενα ήχου σε διακριτές περιοχές (διαφορετικά tracks). Ενας συμβατικός δίσκος CD-ROM σε mode 1 μπορεί τυπικά να περιέχει μέχρι 340000 sectors και συνεπώς προσφέρει χωρητικότητα δεδομένων χρήστη της τάξης των 680ΜΒ. Το κίτρινο βιβλίο καθιέρωσε το μεγαλύτερο μέρος σε σχέση με τη δομή του δίσκου που απαιτούταν ώστε να γίνει ένα διεθνώς επιτυχημένο standard. Ωστόσο, το 1985 προστέθηκε ένα τελευταίο συστατικό. Αυτό έγινε με τη συμφωνία High Sierra (γνωστό αργότερα σαν standard ISO 9660) όπου συμμετείχαν η Philips,η Sony και η Microsoft. Αποσκοπούσε στην καθιέρωση ενός κοινού format ή δομής για την παρουσίαση αρχείων δεδομένων χρήστη σε ένα δίσκο CD-ROM. Η προοπτική ήταν να επιβεβαιωθεί ότι κάθε χρήστης χρησιμοποιώντας οποιοδήποτε CD-ROM drive θα μπορούσε,έχοντας εγκαταστήσει ένα οδηγό λογισμικού που ακολουθεί το ISO 9960, να έχει πρόσβαση σε οποιοδήποτε συμβατό δίσκο. Υπό αυτές τις συνθήκες ένας δίσκος θα μπορούσε πάντα να αναγνωριστεί ακόμα και αν τα προγράμματά του δεν μπορούν να εκτελεσθούν λόγω έλλειψης ικανού λογισμικού, μειωμένων προδιαγραφών hardware ή ασυμβατότητας πλατφόρμας (λειτουργικού συστήματος).

Η εισαγωγή του Πράσινου Βιβλίου είχε αφορμή το ότι αρχικά το CD-ROM αντιμετωπιζόταν κυρίως σα μέσο μεταφοράς πληροφοριών κειμένου. Το τελευταίο ήταν συνέπεια του ότι το Κίτρινο Βιβλίο δεν είχε προνοήσει συγκεκριμένα για το χειρισμό εικόνων και ήχου (με εξαίρεση τον ήχο κατά το Κόκκινο Βιβλίο). Σαν αποτέλεσμα, όπου οι εφαρμογές απαιτούσαν τέτοια λειτουργικότητα, οι σχεδιαστές έπρεπε να σχεδιάζουν μηχανικούς αντάπτορες ειδικών γραφικών και τυπικά να συμβιβάζονται με τις απαιτήσεις στη χωρητικότητα αποθήκευσης ήχου του Κόκκινου Βιβλίου και στους περιορισμούς των αργών ρυθμών μεταφοράς των CD-ROM. Το Πράσινο Βιβλίο ήρθε να λύσει τα προβλήματα αυτά με την παρουσίαση του CD-i.

Το Πορτοκαλί Βιβλίο. Ο λόγος που οδήγησε στην ιδέα του Photo-CD ήταν η αποθήκευση ακίνητων φωτογραφικών εικόνων σε διάφορα επίπεδα ανάλυσης στο δίσκο. Κάθε εικόνα αποθηκεύεται σε συμπιεσμένη μορφή (Kodak Image PAC) και υπακούει στο format Form 1, Mode 2 του Πράσινου βιβλίου.

Η πρόσβαση στις εικόνες είναι δυνατή από ένα μεγάλο αριθμό πλατφόρμων συμπεριλαμβανομένων των Photo-CD players, των CD-i players και των υπολογιστών που είναι εφοδιασμένοι με CD-ROM XA drives (στα δύο τελευταία απαιτείται και το κατάλληλο λογισμικό ανάγνωσης).

Μια καθοριστική διαφορά ανάμεσα στο Photo-CD και τα προηγούμενα CD formats είναι ότι ο δίσκος είναι εγγράψιμος, αν και μια μόνο φορά. Αναδρομικά είναι δυνατή η προσθήκη νέων εικόνων στον ίδιο δίσκο. Αυτή η νέα λειτουργία θέτει κάποια συγκεκριμένα προβλήματα, ειδικά σε σχέση με τον πίνακα περιεχομένων του δίσκου (TOC).

Δεδομένης της φύσης του Photo-CD (εγγράψιμο μια φορά),είναι φανερή η δυσκολία που παρουσιάζεται καθώς ο πίνακας περιεχομένων δημιουργείται με την αρχική εισαγωγή εικόνων στο δίσκο. Αν στη συνέχεια προσπαθούσαμε να εισάγουμε νέες εικόνες στο υπόλοιπο άδειο μέρος του δίσκου, τότε η δομή και η θέση του πίνακα περιεχομένων δε θα το επέτρεπε,αφού δε θα μπορούσε να αλλάξει. Ομως, η δυσκολία αυτή ξεπερνιέται με το Πορτοκαλί Βιβλίο.

5.4.1    CD-DA (Compact Disk – Digital Audio)

5.4.1.1       Δειγματοληψία

Η δειγματοληψία είναι η απαραίτητη διαδικασία για την μετατροπή ενός αναλογικού ηχητικού σήματος σε ψηφιακό. Το θεώρημα Nyquist καθορίζει το πόσο γρήγορα πρέπει να λαμβάνονται τα δείγματα ώστε να είναι ακριβής η αναπαράσταση του αναλογικού σήματος. Το θεώρημα αυτό είναι αρκετά απλό και εκφράζει ότι η συχνότητα δειγματοληψίας πρέπει να είναι μεγαλύτερη ή ίση του διπλάσιου της μέγιστης συχνότητας του αρχικού αναλογικού σήματος:

(5.1)   

Για να ισχύει το παραπάνω πρέπει το αρχικό σήμα να είναι ζωνοπερατωθεί στο μισό της συχνότητας δειγματοληψίας περνώντας από ένα ιδανικό βαθυπερατό φίλτρο. Επίσης, το σήμα εξόδου πρέπει να περάσει πάλι από ένα ιδανικό βαθυπερατό φίλτρο για να αναπαράγει το αναλογικό σήμα. Αυτοί οι περιορισμοί είναι βασικοί για τη δειγματοληψία γιατί αλλιώς παρατηρείται σε ένα φαινόμενο γνωστό ως aliasing. Πρόκειται για μια λανθασμένη απόκριση του συστήματος η οποία γίνεται φανερή στο ηχητικό σήμα με τη μορφή παραμόρφωσης. Στην οριακή περίπτωση όπου η συχνότητα δειγματοληψίας είναι ίση ακριβώς με το διπλάσιο της μέγιστης συχνότητας του σήματος, θα παραχθούν μόνο δύο δείγματα του σήματος που είναι και η ελάχιστη απαίτηση αναπαράστασης της αρχικής κυματομορφής. Για σήματα μεγαλύτερα του fs/2 η διαδικασία της δειγματοληψίας μπορεί να θεωρηθεί ως διαμόρφωση του σήματος εισόδου.

5.4.1.2       Κβαντοποίηση

Προκειμένου να αναπαραστήσουμε κάθε δείγμα με τη μορφή μιας δυαδικής σειράς από bits πρέπει στο συνεχώς μεταβαλλόμενο πλάτος της τάσης του αναλογικού σήματος να αναθέσουμε μια διακριτή τιμή. Η διαδικασία αυτή ονομάζεται κβαντοποίηση. Είναι σημαντικό να τονίσουμε ότι η δειγματοληψία και η κβαντοποίηση είναι συμπληρωματικές διαδικασίες. Ο συνδυασμός των δύο αυτών διαδικασιών καλείται ψηφιοποίηση. Η κβαντοποίηση παίζει καθοριστικό ρόλο στο σχεδιασμό του συστήματος ψηφιακού ήχου. Ανάλογα με τις στάθμες κβαντοποίησης προσδιορίζεται το format του ψηφιακού ήχου. Περισσότερα bits ψηφιακού ήχου επιτρέπουν πιο ακριβή κβαντοποίηση. Ωστόσο, πάντοτε στην κβαντοποίηση επεισέρχεται κάποιο σφάλμα το οποίο ελαχιστοποιείται όσο πυκνώνουν οι στάθμες κβαντοποίησης. Το σφάλμα αυτό εκφράζεται από το λόγο σήματος προς σφάλμα (signal-to-error ratio)

(5.2)   

όπου το n στον παραπάνω τύπο αντιπροσωπεύει τον αριθμό των bits της λέξης στο format του ψηφιακού ήχου. Για παράδειγμα, σε ένα 16bit σύστημα η θεωρητική τιμή του λόγου αυτού είναι 98dB. Η παρουσία αυτού του σφάλματος γίνεται εντονότερη όταν έχουμε σχετικά ασθενή σήματα εισόδου. Σε πολλά συστήματα το πρόβλημα αυτό αντιμετωπίζεται με τη μέθοδο του dither. Mε τη μέθοδο αυτή αντιμετωπίζεται και η ενδεχόμενη απώλεια πληροφορίας εξαιτίας πολύ χαμηλών σταθμών σήματος. Το dither συνίσταται στην πρόσθεση αναλογικού θορύβου χαμηλής στάθμης στο αρχικό σήμα.

Οι προδιαγραφές του compact disc audio αναπτύχθηκαν από κοινού από τις εταιρίες Sony, Philips και Polygram και έχουν καταχωρηθεί στο «κόκκινο βιβλίο». Οι προδιαγραφές αυτές φαίνονται συνοπτικά παρακάτω.

ΔΙΣΚΟΣ

 

Χρόνος αναπαραγωγής

74 min 33 sec (μέγιστος χρόνος)

Φορά περιστροφής

αντίθετη της φοράς των δεικτών του ρολογιού

Ταχύτητα περιστροφής

1.2-1.4 m/sec (σταθερή γραμμική ταχύτητα)

Απόσταση ανίχνευσης

1.6μm

Διάμετρος

120mm

Πάχος

1.2mm

Διάμετρος τρύπας κέντρου

15mm

Περιοχή εγγραφής

46mm-117mm

Περιοχή σήματος

50mm-116mm

Υλικό

κάθε αποδεκτό μέσο με δείκτη διάθλασης 1.55

Ελάχιστο μήκος κοιλότητας

0.833μm (1.2m/sec) - 0.972μm (1.4m/sec)

Μέγιστο μήκος κοιλότητας

3.05μm (1.2m.sec) -3.56μm (1.4m/sec)

Βάθος κοιλότητας

~ 0.11μm

Πλάτος κοιλότητας

~ 0.5μm

ΟΠΤΙΚΟ ΣΥΣΤΗΜΑ

 

Βασικό μήκος κύματος

780nm (7800 Ε)

Εστιακό βάθος

2μm

FORMAT ΣΗΜΑΤΟΣ

 

Αριθμός καναλιών

2 κανάλια (4 δυνατά κανάλια εγγραφής)

Κβαντοποίηση

16bit γραμμική

Συγχρονισμός κβαντοποίησης

ταυτόχρονη για όλα τα κανάλια

Συχνότητα δειγματοληψίας

44.1kHz

Ρυθμός μετάδοσης καναλιού

4.3218 Mb/sec

Ρυθμός μετάδοσης δεδομένων

2.0338 Mb/sec

Λόγος δεδομένων ανά κανάλι

8:17

Κώδικας διόρθωσης λαθών

Cross Interleave Reed-Solomon Code

(με 25% πλεονασμό)

Σύστημα διαμόρφωσης

8-σε-14 διαμόρφωση (EFM)

Μια συσκευή αναπαραγωγής CD audio (compact disk player) αποτελείται από δύο βασικά μέρη, τον επεξεργαστή δεδομένων ήχου και το σύστημα ελέγχου. Το πρώτο ασχολείται με τις διαδικασίες αναπαραγωγής και το δεύτερο με το περιβάλλον του χρήστη, την εστίαση των φακών,το μοτέρ του άξονα, την αυτόματη ανίχνευση.

Από την εμφάνιση των CD players το 1982 παρουσιάστηκαν στην αγορά τρεις γενιές. Χαρακτηριστικό της πρώτης γενιάς ήταν οι ψηφιακοί-σε-αναλογικοί μετατροπείς (DAC) πολλών bits με φίλτρα ανασύνθεσης. Της δεύτερης γενιάς χρησιμοποιούσαν τους ίδιους DAC αλλά και με ψηφιακά φίλτρα υπερδειγματοληψίας. Τέλος, τα σημερινά CD players διαφοροποιούνται κυρίως στο ότι περιέχουν DAC λίγων bits.

Οι DAC των CD players όταν πρωτοπαρουσιάστηκαν ήταν 14bit το οποίο θεωρούταν σημαντική βελτίωση σε σχέση με τις αναλογικές συσκευές. Ωστόσο, εξακολουθούσαν να είναι μέτριας ποιότητας συγκρινόμενοι με τους μετέπειτα 16bit, 18bit και τους σημερινούς 20bit μετατροπείς.

O αριθμός των bits σε ένα DAC μετατροπέα δεν αντικατοπτρίζει απόλυτα την απόδοση και ακρίβειά του. Καλύτερο κριτήριο είναι η ακρίβεια των bits καθαυτών. Θεωρητικά ένας 16bit μετατρέπει ακριβώς και τα 16 ψηφία της λέξης του δείγματος με γραμμικό τρόπο. Πρακτικά όμως, δεν είναι επαρκής για ακριβή μετατροπή. Το σφάλμα σε έναν μετατροπέα πολλών bits γενικά εξαρτάται από την ακρίβεια του πιο σημαντικού ψηφίου (MSB) της λέξης του δείγματος. Μια τέτοια ανακρίβεια θα μπορούσε να αποφέρει λάθος ίσο με το μισό του πλάτους του σήματος. Για να αποφευχθεί κάτι τέτοιο πρέπει να είναι πυκνά τα επίπεδα κβαντοποίησης.

Εχουν χρησιμοποιηθεί δύο μέθοδοι ανασύνθεσης εξόδου με τους DAC πολλών ψηφίων. Η πρώτη κάνει χρήση του φίλτρου «brickwall».Αυτά τα φίλτρα έχουν χαρακτηριστική απότομης αποκοπής και κρατούν το κέρδος του σήματος κοντά στη μονάδα. Αυτό θεωρήθηκε αναγκαίο καθώς αμέσως πάνω από την ηχητική ζώνη παρουσιάζονταν θόρυβος και aliasing. To επακόλουθο πρόβλημα του φίλτρου αυτού ήταν η παρουσία μεγάλης μη-γραμμικότητας και καθυστέρησης ομάδων υψηλών συχνοτήτων.

Η δεύτερη μέθοδος βασίζεται σε ένα ψηφιακό φίλτρο «υπερδειγματοληψίας» τοποθετημένο πριν τον DAC και σε ένα ομαλό αναλογικό φίλτρο. Λέγοντας ομαλό εννοούμε φίλτρο με αποκοπή κλίσης 12dB/οκτάβα και σημείο -3dB στα 30-40kHz. Στην περίπτωση αυτή έχουμε απόλυτη γραμμικότητα στη φάση.

Για την αντιμετώπιση των προβλημάτων που παρουσιάζονταν στους μετατροπείς πολλών ψηφίων αναπτύχθηκαν δύο ανταγωνιστικές τεχνολογίες, μια από τη Matsushita και μια από τη Philips. Και στις δύο τεχνολογίες γίνεται μετατροπή πολύ μικρότερου μήκους λέξεων με υψηλότερο ρυθμό αντί της μετατροπής ολόκληρης της λέξης παράλληλα κατά τη συχνότητα δειγματοληψίας.

Η μέθοδος της Matsushita στηρίζεται σε διαμόρφωση πλάτους παλμού (pulse-width modulation, PWM). Σε αυτή τη σχεδίαση το πλάτος του παλμού του σήματος αναπαριστά  τη μοναδική λέξη,οπότε είναι σημαντικό τα βήματα της διαμόρφωσης PWM να έχουν το ακριβές πλάτος και το ελάχιστο χρονικό τρεμοπαίξιμο,έτσι ώστε να αυξάνει η ακρίβεια και η γραμμικότητα της εξόδου. Ο εμπορικός όρος για αυτή τη διαδικασία λέγεται MASH (Multi-stAge noise SHaping). Ενας MASH μετατροπέας κατασκευάζεται από τετραπλά υπερδειγματοληπτικά ψηφιακά φίλτρα παράλληλα με πρώτης και δεύτερης τάξης μορφοποιητές θορύβου. Η έξοδος από αυτούς οδηγείται σε έναν PWM μετατροπέα, του οποίου η έξοδος φιλτράρεται από ένα βαθυπερατό φίλτρο.

Η μέθοδος της Philips είναι γνωστή σαν διαμόρφωση πυκνότητας παλμού (pulse-density modulation PDM). Σε αυτήν την τεχνική ο λόγος πυκνότητας του παλμού σχετίζεται με την πρότυπη 16bit λέξη. Ο μετατροπέας PDM είναι τεχνολογία ενός bit. Τα δεδομένα του δείγματος από τον αποκωδικοποιητή οδηγούνται πρώτα σε ένα βαθυπερατό, τετραπλής υπερδειγματοληψίας και απλής παρεμβολής φίλτρο. Αυτός ο τύπος φίλτρου δίνει υψηλότερη ποιότητα γιατί είναι γραμμικής φάσης. Η μορφοποίηση πρώτης τάξης θορύβου γίνεται από το συσσωρευτή του πολλαπλασιαστή που περιέχεται στο φίλτρο. Το δεύτερο στάδιο φιλτραρίσματος αποτελείται από ένα 32-τάξης υπερδειγματοληπτικό γραμμικό παρεμβολέα και από ένα κύκλωμα διπλής υπερδειγματοληψίας δείγματος και κράτησης. Σε αυτό το στάδιο με την προσθήκη ενός κατάλληλου dither ψηφιακού σήματος στο δειγματοληπτούμενο σήμα μειώνονται οι μη-γραμμικότητες που προκαλούνται από το θόρυβο κβαντοποίησης. Σε αυτό το σημείο η συνολική υπερδειγματοληψία είναι 256-τάξης και η λέξη έχει αυξηθεί στα 17 bits.Στη συνέχεια, τα δεδομένα οδηγούνται σε ένα μορφοποιητή θορύβου δεύτερης τάξης, σε συχνότητα 11.2896MHz. Αυτός μειώνει τα 17bit δεδομένα σε ρεύμα του ενός bit χρησιμοποιώντας διαμόρφωση Sigma-Delta. Κατά τη διαδικασία αυτή, ο θόρυβος κβαντοποίησης αναδιανέμεται μακριά από την ηχητική συχνότητα. Το ρεύμα των bit τότε μετατρέπεται σε αναλογική μορφή από ένα δίκτυο διακοπτόμενων πυκνωτών.

Μέχρι τώρα δεν συσχετίσαμε την υπερδειγματοληψία με κάποιο θεώρημα, αλλά η χρήση της επιφέρει μεγάλα κέρδη απόδοσης ανεξάρτητα από τον τύπο του μετατροπέα που χρησιμοποιείται. Πολύ απλά υπερδειγματοληψία σημαίνει τη χρήση συχνότητας δειγματοληψίας μεγαλύτερης από αυτή που καθορίζεται από το θεώρημα του Nyquist. Ξεπερνώντας τη συχνότητα Nyquist πολλές από τις απαιτήσεις ακρίβειας που σχετίζονται με το θεώρημα μπορούν να παραβλεφτούν (όπως το «brickwall» φίλτρο). Εκτός των πλεονεκτημάτων που βλέπουμε στην έξοδο του φίλτρου, ο λόγος σήματος προς θόρυβο μεγαλώνει πολύ και ο θόρυβος κβαντοποίησης στην ηχητική ζώνη ελαχιστοποιείται. Το τελευταίο πραγματοποιείται όταν η υπερδειγματοληψία χρησιμοποιείται σε συνδυασμό με μορφοποιητές θορύβου.

Η διαδικασία της υπερδειγματοληψίας γίνεται σε ένα επεξεργαστή ψηφιακού σήματος (DSP) ο οποίος παίρνει δείγματα ήχου,τα επεξεργάζεται και δίνει στην έξοδό του πάλι δείγματα. Καθώς τα δείγματα τροποποιούνται, ο DSP είναι στην πράξη ένα ψηφιακό φίλτρο. Ο DSP χρήσιμος γιατί οι λειτουργίες που επιτελεί είναι ακριβείς και επαναλαμβανόμενες (πράγμα αδύνατο με αναλογικές τεχνικές) και έχει ως αποτέλεσμα χαμηλότερο θόρυβο και παραμόρφωση. Η υπερδειγματοληψία μπορεί να θεωρηθεί ως παρεμβολή μηδενικών μεταξύ κάθε δείγματος. Πρακτικά, αυτά τα καινούργια δείγματα παράγονται με τη χρήση ενός καταχωρητή ολίσθησης (που παίζει το ρόλο γραμμής καθυστέρησης), πολλαπλασιαστές και ενός αθροιστή. Το τελικό αποτέλεσμα αυτής της διαδικασίας είναι ότι νέα δείγματα δημιουργούνται για κάθε ενδιάμεσο μηδενικό. Σαν αποτέλεσμα, η συχνότητα δειγματοληψίας έχει αυξηθεί από το ποσό της υπερδειγματοληψίας που προκύπτει και το μήκος της λέξης έχει μεγαλώσει. Λόγω της αύξησης της συχνότητας δειγματοληψίας,ο θόρυβος στην ηχητική ζώνη εκτοπίζεται κατά πολύ περισσότερο από ότι προηγουμένως. Τότε η μορφοποίηση του θορύβου έρχεται να μειώσει το μέγεθος της λέξης και περαιτέρω να πολλαπλασιάσει το ποσό του θορύβου που τίθεται εκτός της ηχητικής ζώνης.

Οπως είδαμε και προηγουμένως, ο πρωταρχικός σκοπός ενός μορφοποιητή θορύβου είναι να μεταβάλλει το φάσμα συχνοτήτων λαθεμένων σημάτων έτσι ώστε να μετακινήσει τα περισσότερα από τα λάθη κβαντοποίησης έξω από το πεδίο των ηχητικών συχνοτήτων. Η μορφοποίηση θορύβου μειώνει το θόρυβο κβαντοποίησης χρησιμοποιώντας μια τεχνική αρνητικής ανάδρασης. Σαν αποτέλεσμα, ο μορφοποιητής αναλαμβάνει να μειώσει το λάθος κβαντοποίησης αποσπώντας το από το σήμα. Η ισχύς ενός μετατροπέα λίγων bits στηρίζεται σε αυτή ακριβώς την ισχύ της μορφοποίησης θορύβου. Γενικά, όσο πιο περίπλοκος είναι ο μορφοποιητής θορύβου,τόσο λιγότερος είναι και ο θόρυβος στην ηχητική ζώνη. Συνεπώς, η απόδοση ενός μορφοποιητή θορύβου καθορίζεται από την τάξη και τη συχνότητα λειτουργίας του. Η τελευταία παράμετρος είναι συνάρτηση του βαθμού πραγματοποίησης της υπερδειγματοληψίας πριν την μορφοποίηση. Η πρώτη σχέση που μας δίνουν αυτές οι παράμετροι είναι ότι όσο πιο υψηλή είναι η τάξη του μορφοποιητή,τόσο υψηλή είναι η κλήση της αναδιανομής θορύβου και επομένως τόσο χαμηλότερος είναι και ο ηχητικός θόρυβος. Το μειονέκτημα είναι ότι ο θόρυβος πλευρικής ζώνης αυξάνει τόσο πολύ ώστε τα αναλογικά φίλτρα μπορεί να υπερφορτιστούν. Η δεύτερη σχέση που μας δίνουν είναι ότι όσο υψηλότερη είναι η συχνότητα λειτουργίας,τόσο πιο πολύ ολισθαίνει ο θόρυβος στο διάστημα των συχνοτήτων. Σαφώς, το PDM έχει σημαντικά χαμηλότερο θόρυβο και απαιτεί μόνο ένα απλό αναλογικό φίλτρο ανασύν8εσης.

Το compact disk audio υπάρχει εδώ και δύο δεκαετίες περίπου και είναι πολύ πιθανό να υπάρχει για πολλά χρόνια ακόμα. Υπάρχουν επιπλέον περιθώρια ανάπτυξης στο format,πολλά από τα οποία είναι σε ανάπτυξη. Σιγά-σιγά ο ρόλος του αναλογικού σήματος στον ήχο περιορίζεται στο αρχικό στάδιο της εισόδου από κάποιο μικρόφωνο και στο τελικό στάδιο εξόδου από κάποιο μεγάφωνο, ενώ όλα τα ενδιάμεσα στάδια υλοποιούνται με ψηφιακά μέσα.

5.4.2    CD-ROM (Compact Disk - Read Only Memory)

Μια από τις κορυφαίες χρησιμότητες του δίσκου CD είναι η αποθήκευση δεδομένων. Το CD-ROM είναι ένα περιφερειακό αποθηκευτικό μέσο που χρησιμοποιεί το απλό CD το οποίο αντί για μουσική περιέχει δεδομένα. Οι πλαστικοί αυτοί δίσκοι διαμέτρου 12 εκατοστών φτάνουν τη χωρητικότητα των 650ΜΒ.

Οι δίσκοι CD-ROM εφόσον κατασκευαστούν δεν μπορεί να γίνει καμία επέμβαση, διόρθωση, προσθήκη, διαγραφή ή αλλαγή στα δεδομένα τους. Επιτρέπεται μόνο η ανάγνωση. Στην περίπτωση που είναι επιθυμητό κάτι από τα παραπάνω χρειάζεται κάποιο CD Recorder και κάποιο κενό CD Recordable.

Η αποθήκευση δεδομένων στα CD-ROM γίνεται στο εσωτερικό τους και όχι στην επιφάνειά τους κάτι που τα κάνει αξιόπιστα και ανθεκτικά. Ανθεκτικά είναι και στη συχνή χρήση.

Τις προδιαγραφές του CD-ROM περιγράφει το «Κίτρινο Βιβλίο» που δημιουργήθηκε το 1985 από τις Philips και Sony. Για τη διατήρηση της συμβατότητας με τα CD-Audio τα CD-ROM έχουν κι αυτά μια μεγάλη σπείρα στην οποία βρίσκονται τυπωμένες οι οπές. Αυτό συμβαίνει σε αντίθεση με τα μαγνητικά μέσα αποθήκευσης που χρησιμοποιούν ομόκεντρους κύκλους. Επίσης, αντίθετα με το Κόκκινο Βιβλίο, είναι επιτρεπτή η τυχαία πρόσβαση σε οποιοδήποτε σημείο του CD-ROM.

Στο Κίτρινο Βιβλίο περιγράφονται και οι φυσικές ιδιότητες του δίσκου, ο τρόπος αποθήκευσης δεδομένων και διόρθωσης λαθών ανάγνωσης. Ωστόσο, δεν περιγράφεται η δομή των αρχείων, ο τρόπος διαχείρισης των directories. Είναι προφανές ότι όλες αυτές οι λειτουργίες θα πρέπει να υποστηρίζονται από κάθε υπολογιστή και κάθε λειτουργικό σύστημα. Έτσι, μετά από μια συνάντηση κατασκευαστών καθιερώθηκε το στάνταρ High Sierra, το οποίο αργότερα (1988) με κάποιες μικρές τροποποιήσεις υιοθετήθηκε από την ISO ως ISO 9660.

Σύμφωνα με το ISO 9660, τα sectors του CD-ROM οργανώνονται σε logical records και τα records τοποθετούνται κατόπιν σε αρχεία. Κάθε σετ αρχείων αποτελεί ένα volume. Οι τομείς (sectors ή blocks) αποτελούνται από 2352 bytes και υποδιαιρούνται σε ένα σύνολο μικρότερων πεδίων. Η αρχή ενός τομέα δηλώνεται από μια ακολουθία 12 συγχρονιστικών bytes, έπεται ένα header τεσσάρων bytes (που περιλαμβάνει την απόλυτη διεύθυνση του τομέα εκφρασμένη σε λεπτά, δευτερόλεπτα και τομείς μαζί με ακόμα byte που καθορίζει τον τρόπο χρήσης του τομέα) και τα υπόλοιπα 2336 bytes είναι διαθέσιμα για εγγραφή πληροφορίας.

Τα sectors διακρίνονται σε τρεις διαφορετικές μορφές:

·        Στον τρόπο λειτουργίας mode 0 όλα τα διαθέσιμα 2336 bytes είναι άδεια (έχουν δηλαδή τιμή 0).

·        Στον τρόπο λειτουργίας mode 1 κάθε τομέας περιέχει 2048 bytes χρήσιμης πληροφορίας, ένα κώδικα ανίχνευσης λαθών των 8 bytes (Error Detection Code - EDC) και ένα κώδικα διόρθωσης λαθών (Error Correction Code - ECC) των 276 bytes. Εχει κρατηθεί επίσης ένα αχρησιμοποίητο 8 bytes για μελλοντική χρήση.

·        Στον τρόπο λειτουργίας mode 2 τα αρχεία δεν απαιτούν κώδικες διόρθωσης λαθών. Ετσι έχουμε πάλι ένα κενό των 8 bytes, αλλά 2328 bytes διαθέσιμα για αποθήκευση πληροφορίας.

Οπως αναφέρθηκε, ένας δίσκος που ακολουθεί το ISO 9660 μπορεί να διαβαστεί από κάθε υπολογιστή και κάθε λειτουργικό σύστημα, αλλά δεν μπορεί πάντα ένας υπολογιστής να τρέξει τα προγράμματα κάθε CD-ROM (π.χ. κώδικας για Mac σε Windows). To σύστημα αρχείων του ISO 9660 μοιάζει κατά πολύ με αυτό του DOS ως προς την ιεραρχική δενδροειδή δομή των καταλόγων (μέχρι οκτώ επίπεδα).

Ενα από τα βασικότερα στοιχεία κατά την ανάγνωση ενός CD-ROM είναι η ταχύτητα περιστροφής. Εξαιτίας της φύσης του μέσου, η ταχύτητα περιστροφής του δίσκου είναι διαφορετική στο εσωτερικό από το εξωτερικό μέρος λόγω της ανάγκης σταθερής γραμμικής ταχύτητας στην ανάγνωση δεδομένων. Συνεπώς, η ταχύτητα δε μετριέται σε στροφές ανά λεπτό, αλλά σα διαμεταγωγή δεδομένων σε ΚΒ/sec που παραμένει σταθερή.

Η ταχύτητα περιστροφής των απλών μουσικών CD players είναι γνωστή ως «μονή» ταχύτητα περιστροφής και δίνει 150 ΚΒ/sec. Με βάση αυτή την ταχύτητα τα CD-ROM drives χαρακτηρίζονται ως διπλής (x2-300KB/sec), τετραπλής (x4-600KB/sec), εξαπλής (x6-900KB/sec), οκταπλής ταχύτητας (x8-1200KB/sec) κ.ο.κ. Τη στιγμή αυτή υπάρχουν στο εμπόριο players μέχρι x12 και όλο εξελίσσονται σε πιο γρήγορα.

Οι μεγάλες ταχύτητες περιστροφές είναι απαραίτητες σε σύγχρονες εφαρμογές πολυμέσων που περιέχουν αρχεία εικόνων, κινούμενων εικόνων, μουσικής, τα οποία απαιτούν μεγάλες ταχύτητες στη ροή και την επεξεργασία δεδομένων.

Σημειώνουμε επίσης ότι τα CD-ROM drives μπορούν να παίξουν CD-Audio δίσκους, στη μονή ταχύτητα βέβαια.

5.4.3    CD-R (Compact Disk Recordable)

Το CD-R είναι ένα οπτικό μέσο μιας εγγραφής το οποίο μπορεί να διαβαστεί από οποιοδήποτε CD audio player ή CDrom drive. Λόγω αυτής του της ιδιότητας της μοναδικής εγγραφής, τα δεδομένα που περιέχει μπορούν να θεωρηθούν ασφαλή από διαγραφή και υπολογίζεται πως θα έχουν χρόνο ζωής 50 χρόνων. Σε σύγκριση με το συμβατικό CD audio,η ποιότητα του ήχου που προσφέρει είναι εξίσου καλή. Το CD-R μπορεί να χρησιμοποιηθεί για πολλούς σκοπούς.

Για δημιουργία demos υψηλής ποιότητας, για δημιουργία αρχέτυπων προς μαζική αντιγραφή (το CD-R είναι πιο ανθεκτικό από το DAT), για ηχητικές εφαρμογές σε studios,σε ραδιοφωνικούς σταθμούς, για αποθήκευση και αρχειοθέτηση.

Υπάρχουν δύο ειδών CD recorders, τα αυτόνομα και τα CDrom recorders για υπολογιστές.

Ενα αυτόνομο CD recorder αποτελείται από ένα φορέα CD, από μια πηγή παραγωγής laser, ένα μικροεπεξεργαστή, εισόδους και εξόδους αναλογικού και ψηφιακού ήχου, οθόνη ενδείξεων και ρυθμιστικά και μετρητές ήχου και επιπέδων εγγραφής. Στην περίπτωση αυτή, δεν χρειάζεται η παρουσία ενός υπολογιστή. Απλά γίνεται σύνδεση από την πηγή του ήχου σε μια είσοδο του recorder και ελέγχονται τα επίπεδα εγγραφής και οι υπόλοιπες ρυθμίσεις. Αυτή η κατηγορία συσκευών μπορεί να γράψει μόνο ήχο και οι κενοί δίσκοι που διατίθενται είναι διάρκειας 60 λεπτών.

Αντίθετα, τα CD recorders των υπολογιστών στοιχίζουν φθηνότερα (έχουν περίπου τη μισή αξία) και μπορούν να γράψουν τόσο δεδομένα όσο και ήχο. Οι δίσκοι που χρησιμοποιούνται ξεκινούν από τα 18 και φτάνουν τα 74 λεπτά ή αντίστοιχα 650Mbytes. Το μέγιστο μήκος προγράμματος φτάνει τα 71.5 λεπτά. Η σύνδεση με τον υπολογιστή γίνεται είτε με το πρωτόκολλο SCSI είτε μέσω μιας ελεύθερης θύρας επέκτασης του υπολογιστή. Το CD recorder συνοδεύεται από ανάλογο software και υπάρχουν κάποιες ελάχιστες προδιαγραφές για τον υπολογιστή που απαιτούνται για να δουλέψει ικανοποιητικά. Κάρτα ήχου 16bit 44.1kHz σκληρός δίσκος της τάξης του 1GB,μνήμη 16MB RAM και επεξεργαστής τουλάχιστον 486 DX2-66. Επίσης, είναι δυνατή η σύνδεση πολλών recorders μαζί για την ταυτόχρονη εγγραφή πολλών CD.

Το CD-R βασίζεται στο δεύτερο μέρος του «πορτοκαλί βιβλίου» των Philips και Sony που καθορίζουν τις προδιαγραφές του. Οι δίσκοι CD-R μπορούν να παίξουν και σε συμβατικά CD players. Η διαφορά στην εξωτερική εμφάνισή τους από τα απλά CD εντοπίζεται σε μια χρυσή επίστρωση της άνω πλευράς και σε μια μπλε επιφάνεια (εγγραφής) από κάτω, η οποία φαίνεται πράσινη λόγω ακριβώς του χρώματος της άνω επίστρωσης.

Από πάνω προς τα κάτω συναντούμε τα εξής επίπεδα στη δομή του CD-R.

·        Μια καθαρά πλαστική προστατευτική επίστρωση (τυπωμένη ή όχι).

·        Μια ανακλαστική επίστρωση χρυσού χρώματος.

·        Μια χρωματισμένη επίστρωση εγγραφής

·        Ενα καθαρά πλαστικό υπόστρωμα.

Το τελευταίο αυτό υπόστρωμα είναι χαραγμένο σε μια σπειροειδή μορφή για να καθοδηγεί το laser και η οποία γεμίζει από το χρώμα. Κατά τη διαδικασία της εγγραφής, το laser τρυπάει τη βαφή λιώνοντάς τη και το πλαστικό υπόστρωμα γεμίζει τις τρύπες και δημιουργεί κοιλότητες (τα pits). Κατά τη διάρκεια της αναπαραγωγής το laser αντανακλάται από τη χρυσή επίστρωση πάνω από τα pits και ανιχνεύει τη μεταβλητή ανάκλαση του κάθε pit.

Ενας δίσκος CD-R έχει δύο περισσότερες περιοχές δεδομένων σχετικά με το συνηθισμένο CD. Πρώτον, την program calibration area (PCA) που χρησιμοποιείται από το CD-R για ένα δείγμα εγγραφής. Αυτό καθορίζει και τη βέλτιστη ισχύ του laser για το δίσκο (4-8mW). Δεύτερον, την program memory area (PMA) στην οποία αποθηκεύονται προσωρινά τα δεδομένα μέχρι την τελική εγγραφή τους. Τα προσωρινά αυτά δεδομένα είναι μια λίστα των κομματιών,οι χρόνοι έναρξής τους και ο συνολικός χρόνος του προγράμματος.

Οι αντίστοιχες με ένα CD audio ενότητες των tracks λέγονται sessions. Μερικά CD-R recorders επιτρέπουν «single session» ή «Disk-at-Once». O δίσκος πρέπει να εγγραφεί χωρίς διακοπή. Από τη στιγμή που έχει ολοκληρωθεί η εγγραφή,είναι αδύνατη η προσθήκη εκ των υστέρων. Το «Disk-at-Once» επιτρέπει τον έλεγχο των tracks και το κενό διάστημα ανάμεσά τους.

Τα περισσότερα recorders επιτρέπουν την εγγραφή «Track-at-Once» με την οποία μπορεί να γίνει εγγραφή ενός ή μερικών tracks κάθε φορά (μέχρι 99). Ενα μερικώς εγγεγραμμένο CD-R δεν μπορεί να παιχτεί σε ένα CD player, εώς ότου ολοκληρωθεί και ο πίνακας περιεχομένων (TOC).

Με την εγγραφή «Μultisession» μπορούν να γραφούν διάφορα sessions σε ένα CD-R διαφορετικές στιγμές. Αυτό είναι χρήσιμο σε περιπτώσεις που είναι επιθυμητή η προσθήκη δεδομένων. Πάντως, κάθε φορά που γράφεται ένα session σπαταλούνται 13ΜΒ από τη χωρητικότητα του δίσκου και μόνο το πρώτο session θα μπορεί να παιχτεί σε CD audio player.

Επως αναφέρθηκε, η εγγραφή στα αυτόνομα CD-R recorders είναι άμεση ενώ στους υπολογιστές γίνεται με software. Και στις δύο περιπτώσεις πρώτα καθορίζεται η λίστα των «κομματιών». Στη συνέχεια, μπορεί να γίνει προσομοίωση εγγραφής χωρίς πραγματική εγγραφή με σκοπό τον έλεγχο πιθανών λαθών. (για την περίπτωση εγγραφής με recorder σε υπολογιστή, αφού η προσομοίωση απαιτεί