Connaitre l'encodage d'un fichier
Michel D'HOOGE
list.dhooge at gmail.com
Sam 10 Nov 20:03:18 UTC 2007
On Saturday 10 November 2007 14:14:46 Lionel Porcheron wrote:
> La commande "file" te permet d'avoir ce genre de renseignements : file
> ton_fichier.
Surprenant, je n'aurais pas cru ça vraiment possible. Car sinon, on n'aurait
pas ce problème de caractères mal gérés... Mais c'est vrai que
statistiquement, si on voit apparaître certains types de séquences, c'est
qu'on est en UTF-8 et avec d'autres en ISO-8859-15.
En fait seule une analyse du contenu permet vraiment de savoir - c'est ce que
fait notre cerveau quand il voit plein de carrés à la place des accents. Il
se dit qu'il doit y avoir un pb, que la personne n'a pas vraiment voulu
écrire ceci ;-)
Ça serait une extension intéressante : pouvoir indiquer au système quels sont
les formats les plus susceptibles d'être utilisés selon sa langue. Par
exemple, moi qui ne lit que de l'anglais et du français (plus parfois
d'autres langues européennes quand je n'ai vraiment rien trouvé d'autre avec
google), je peux me limiter à UTF-8 et iso-8859-15. Et je ne veux surtout pas
entendre parler des formats windows-1252 et cp-850 : si le fichier est codé
dans un de ces formats, c'est que son contenu est de peu de valeur :-P
--
Michel
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: non disponible
Type: application/pgp-signature
Taille: 481 octets
Desc: non disponible
URL: <https://lists.ubuntu.com/archives/ubuntu-fr/attachments/20071110/980af9c6/attachment.pgp>
Plus d'informations sur la liste de diffusion ubuntu-fr