Σώμα κειμένων

Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική ανάλυση.

Η χρησιμότητα

Τα σώματα κειμένων παρέχουν στους γλωσσολόγους τη δυνατότητα για επιστημονικές παρατηρήσεις σχετικά με τη συχνότητα χρήσεως ενός τύπου, το συμφραστικό περιβάλλον του, καθώς και ―στη διαχρονική γλωσσολογική ανάλυση― σχετικά με την πρώτη εμφάνιση ή σημασία ενός τύπου και τις μετέπειτα αλλαγές του. Η έκταση ενός σώματος ποικίλλει ανάλογα με τις πηγές και τον σκοπό για τον οποίο έχει παραχθεί: υπάρχουν σώματα κειμένων που καλύπτουν ολόκληρες γραμματειακές περιόδους (όπως την Αρχαία Ελληνική και Λατινική γραμματεία) και άλλα, πιο περιορισμένα, που επιχειρούν να αποδώσουν στοιχεία τού προφορικού λόγου ή κοινωνιολέκτους. Ειδικά σώματα κειμένων αντλούν επιλεκτικά στοιχεία από έντυπο ή προφορικό λόγο, με σκοπό τη μελέτη ορισμένης γλωσσικής λειτουργίας.

Υπολογιστική γλωσσολογία

Στη σύγχρονη εποχή τα σώματα κειμένων αποτελούν αντικείμενο της Υπολογιστικής Γλωσσολογίας. Με την ανάπτυξη ειδικού προηγμένου λογισμικού η καταχώριση ενός κειμένου στο σώμα συνοδεύεται από κατάλληλη σήμανση (tagging), η οποία παρέχει τη δυνατότητα αναλύσεως της δομής τής γλώσσας και βοηθεί στην άντληση φωνολογικών, γραμματικών και συντακτικών πληροφοριών από το κείμενο. Η διαδικασία εισαγωγής τέτοιων πληροφοριών ονομάζεται επισημείωση (annotation) και μπορεί να περιλαμβάνει εισαγωγή ενδεικτών σχετικά με το μέρος τού λόγου στο οποίο ανήκει κάθε λέξη (π.χ. όνομα, ρήμα, κλιτικό κτλ.) ή να αναγνωρίζει τον λημματικό τύπο τής λέξεως (π.χ. το ρήμα στο α΄ ενικό πρόσωπο του ενεστώτα, το όνομα στην ονομαστική τού ενικού) ανεξάρτητα από τον τύπο που απαντά στο κείμενο.

Τα σώματα κειμένων μπορούν να είναι μονόγλωσσα ή πολύγλωσσα, μπορεί να αφορούν σε συγκεκριμένη περίοδο της ιστορίας τής γλώσσας (π.χ. Ελληνιστική Κοινή, Αρχαία Ελληνική γλώσσα κτλ.) και συχνά περιέχουν διάστιχες (interlinear) πληροφορίες σχετικά με την ερμηνεία αρχαίων λέξεων. Ουσιαστικά, λόγω της έκτασης των πληροφοριών και της ταχείας πρόσβασης σε αυτές, δεν είναι πλέον δυνατόν να εκπονηθεί αξιόπιστη γλωσσολογική μελέτη ούτε να συνταχθεί ποιοτικό λεξικογραφικό έργο, αν δεν έχουν ληφθεί υπ’ όψιν τα δεδομένα που παρέχουν τα corpora.

Οι περιορισμοί

Όπως και κάθε άλλη επιστημονική μέθοδος, τα σώματα κειμένων έχουν περιορισμούς. Όσο εκτενής και αν είναι η κάλυψή τους, χρειάζονται διαρκώς διόρθωση, ανανέωση και συμπλήρωση. Επιπλέον, τα στοιχεία τους, όταν πρόκειται για σύγχρονες, ζωντανές γλώσσες, χρειάζονται διασταύρωση και επιβεβαίωση από υλικό που προέρχεται από ιθαγενείς ομιλητές τής γλώσσας. Τέλος, για να προκύψουν αξιόπιστα αποτελέσματα, απαιτούνται σταθμισμένα σώματα κειμένων, δηλ. επιμελημένα ώστε να αντιπροσωπεύουν διάφορες γλωσσικές ποικιλίες και διάφορα είδη ομιλητών.

Βιβλιογραφία

Ajmer K. & Altenberg B. 1991: English linguistic corpus (London)
Butler C.S. (ed.) 1992: Computers and written texts (Oxford)
McTear M. 1987: The articulate computer (Oxford)
Scholfield P. 1995: Quantifying language (Clevedon)

Εξωτερικοί σύνδεσμοι

Εθνικός Θησαυρός Ελληνικής Γλώσσας - Σώμα κειμένων της σύγχρονης Ελληνικής, από το Ινστιτούτο Επεξεργασίας του Λόγου
Σώμα Ελληνικών Κειμένων^{[νεκρός σύνδεσμος]} - Σώμα ελληνικών κειμένων, από το Πανεπιστήμιο Αθηνών