Re: Ψηφιακή Καταγραφή, Αποθήκευση & Διάθεση Πρακτικών Συνεδριάσεων Δικαστηρίων
Pantelis Koukousoulas
pktoss at gmail.com
Sat Oct 13 09:35:40 UTC 2012
2012/10/13 Simos Xenitellis <simos.lists at googlemail.com>
> Ο απευθείας σύνδεσμος είναι
> http://www.opengov.gr/ministryofjustice/?p=1940
>
> Το ενδιαφέρον με τη διαβούλευση αυτή είναι ότι το κόστος ενός τέτοιου
> προϊόντος μπορεί να πέσει αρκετά με τη χρήση ελεύθερου λογισμικού, και
> συγκεκριμένα με τη χρήση embedded systems (σε σχέση με κανονικούς
> υπολογιστές που έχουν τεράστιο χώρο και καταναλώνουν αρκετό ρεύμα).
>
Χεχε, αχ και να γινόταν αυτό μερικούς μήνες αργότερα :)
Βασικά η μαγνητοφώνηση / απομαγνητοφώνηση είναι ένα project που με
ενδιαφέρει προσωπικά, μια και η κοπέλα μου είναι δημοσιογράφος και το
μισό της χρόνο αυτό κάνει: μαγνητοφώνηση / απομαγνητοφώνηση
συνεντεύξεων (τον άλλο μισό χρόνο γράφει και μεταφράζει, έτσι εξηγείται
το άλλο μου ενδιαφέρον για writer tools και αυτόματη μετάφραση).
Όπως έχω διαπιστώσει, σε αυτό τον τομέα η τεχνολογία μπορεί πραγματικά
να βοηθήσει πολύ:
Στη μαγνητοφώνηση:
* Τεχνολογίες πολλαπλών μικροφώνων και σωστή επιλογή είδους
μικροφώνου συνολικά επιδρούν σημαντικά στην ποιότητα της
καταγραφής (το να καταλαβαίνεις δηλαδή μετά ακριβώς τι ειπώθηκε
ακόμα και από αυτούς που μιλάνε με περίεργη προφορά / από μέσα
τους κλπ κλπ)
Στην απομαγνητοφώνηση:
* Εξειδικευμένα συστήματα αναγνώρισης φωνής που τα εκπαιδεύεις
ειδικά
για το είδος της γλώσσας στα δικαστήρια (νομική ορολογία κλπ) και
για την
τεχνολογία μικροφώνων που χρησιμοποιείς.
Στο εξωτερικό χρησιμοποιείται πολύ το Simon[1] γι αυτή τη δουλειά
το οποίο
μάλιστα υποστηρίζει πλέον HTK και CMU Sphinx για backend (αυτό είναι
σημαντικό για λόγους licensing αλλά και επιλογών ως προς την
ανάπτυξη).
Ένα Σαββατοκύριακο δουλέψαμε για πλάκα με το Ralf Hertzog πάνω σε
ένα
πρώτο ελληνικό γλωσσικό μοντέλο για Simon/HTK (για την ακρίβεια
αυτός
έκανε το 90% της δουλειάς, εγώ απλά ρώτησα :P). Μετά την επιπλέον
επεξεργασία / προσαρμογή της δουλειάς του Ralf (χρειάστηκε να
αγοράσω
σοβαρό USB mic και να ξανακάνω τις ηχογραφήσεις π.χ., γιατί αυτός
μιλούσε
με γερμανική προφορά τα Ελληνικά) το έχω φτάσει να παίζει ίσα-ίσα
σε στυλ
command & control χρησιμοποιώντας ως corpus τις μεταφράσεις των
προγραμμάτων (για όσους λένε ότι οι μεταφράσεις είναι χρήσιμες μόνο
σε
όσους δεν ξέρουν αγγλικά :P). Απλά περιμένω να τελειώσει / να γίνει
release
άλλη δουλειά πρώτα (π.χ., το νέο site για το θησαυρό των συνωνύμων)
πριν γίνει release και αυτό.
Για τέτοια εφαρμογή (απομαγνητοφωνήσεις) χρειάζονται σαφώς
μεγαλύτερα
και ισχυρότερα γλωσσικά μοντέλα ειδικά εκπαιδευμένα για την
εφαρμογή,
αλλά δεν είναι κάτι αδύνατον και επιπλέον δεν είναι ανάγκη να
μπορεί να
αναγνωρίσει το σύστημα αυτόματα το 100% των λέξεων, αρκεί να μπορεί
να επιταχύνει σημαντικά την καταχώρηση.
* Σε usability: από μικρά features όπως κάθε φορά που πατάς "pause" να
γυρίζει
5-10 δευτ. πίσω, μέχρι την υποστήριξη για να δουλεύεις το πρόγραμμα
της
απομαγνητοφώνησης με global shortcuts ή ακόμα και πετάλια ώστε να μην
αφήνεις καθόλου τον κειμενογράφο.
Επίσης features όπως intelligent seeking μέσα σε audio files, ή
αυτόματης
συμπλήρωσης λέξεων, ορθογραφικό και γραμματικό έλεγχο κλπ.
Όλα αυτά μπορούμε να τα κάνουμε *τώρα* (δηλ μέσα σε ~1 χρόνο με dedicated
ομάδα) με απλά το LibreOffice, το Simon και ένα Document Management πληρο-
φοριακό σύστημα (υπάρχουν μπόλικα τέτοια). Αυτό θα εξασφάλιζε και τη μακρο-
χρόνια αποθήκευση των κειμένων (λόγω του ανοιχτού standard ODF) αλλά και
τη βέλτιστη ενεργειακή απόδοση που λέει και ο Σίμος μια και για την
καταγραφή
μπορούν να χρησιμοποιηθούν embedded systems χαμηλής κατανάλωσης και
για την απομαγνητοφώνηση απλά/φτηνά Linux Desktops.
Χαιρετισμούς,
Παντελής
[1] http://www.simon-listens.org
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <https://lists.ubuntu.com/archives/ubuntu-gr/attachments/20121013/58ff1bc3/attachment.html>
More information about the Ubuntu-gr
mailing list