cerhu > comp.* > comp.usenet.lecteurs-de-news

yamo' (19/12/2018, 10h55)
Salut,

Copie et FU2 fr.comp.usenet.lecteurs-de-news.

Olivier Miakinen a écrit le 19/12/2018 à 00:09 sur fr.test :
[..]
> to first decode the UTF-16 data to obtain character numbers, which
> are then encoded in UTF-8 as described above.
> </cit.>


Il n'a plus l'air développé depuis un bail et il faut remonter loin dans
les archives pour échapper aux erreurs 404 :

<http://web.archive.org/web/20110929211448/http://40tude.com/dialog/contact.htm>

<http://www.cj-web.de/40tude-dialog-faq/>

Saurais-tu, si tu penses que ça peut être utile, expliciter ce problème
en anglais ou en allemand sur un de ces groupes?

news.software.readers
de.comm.software.40tude-dialog

Le test en question est :

???????

Je n'ai pas vu si le code source a été libéré...
Olivier Miakinen (19/12/2018, 11h44)
Le 19/12/2018 09:55, yamo' a écrit :
> Saurais-tu, si tu penses que ça peut être utile, expliciter ce problème
> en anglais ou en allemand sur un de ces groupes?
> news.software.readers
> de.comm.software.40tude-dialog


Je vais déjà le faire ici, et en français. Si personne ne fait la
traduction en anglais ou en allemand je la ferai, même si je ne
suis pas le plus doué qui soit en langues étrangères. En revanche
ce n'est pas moi qui le signalerai sur ces groupes, car je n'ai
jamais utilisé 40tude Dialog, et je serais donc incapable de
répondre à la moindre question.

************************************************** ********************

Le problème est que 40tude Dialog code incorrectement les caractères
qui sont en dehors du plan multilingue de base d'Unicode (en anglais
Basic Multilingual Plane ou BMP).

Prenons en exemple le caractère YEUX : ?

Son point de code dans Unicode est U+1F440.

En UTF-8, son codage doit être F0 9F 91 80.

Mais ce n'est pas ce que fait 40tude Dialog. Au lieu de l'encodage
correct, il envoie ED A0 BD ED B1 80, ce qui serait l'encodage en
UTF-8 des deux points de code U+D83D U+DC40. Or U+D83D et U+DC40
ne sont pas des points de code valides ; en réalité D83D DC40 est
l'encodage /en UTF-16/ de U+1F440.

Et comme on peut le lire dans le RFC 3629 :

<cit. https://tools.ietf.org/html/rfc3629#page-5>
The definition of UTF-8 prohibits encoding character numbers between
U+D800 and U+DFFF, which are reserved for use with the UTF-16
encoding form (as surrogate pairs) and do not directly represent
characters. When encoding in UTF-8 from UTF-16 data, it is necessary
to first decode the UTF-16 data to obtain character numbers, which
are then encoded in UTF-8 as described above.
</cit.>

************************************************** ********************
Discussions similaires
Utilisation de 40tude Dialog

40tude Dialog.

40tude dialog

40tude dialog - messages non lus et lus


Fuseau horaire GMT +2. Il est actuellement 08h29. | Privacy Policy