[Talk-de] OSBugs bug?
Michael Bemmerl
osm-talk at mx-server.de
Mi Mär 14 23:12:46 UTC 2012
Steffen Grunewald schrieb:
> On Mon 2012-03-12 (00:56), Michael Bemmerl wrote:
>>> Ich würde jedenfalls erst einmal die Geocoder-DB ansehen, welche
>>> Überraschungen dort noch warten.
>> Richtig, in der Datenbank ist Mischmasch zwischen ISO-8819-x und UTF-8.
>> Beispiel ID 7: "Châteaugiron". Das â ist als 0xE2 in der DB, wäre als
>> UTF-8 aber 0xC3 0xA2.
>
> Und noch schlimmer, der zugehörige Großbuchstabe wäre 0xC2, ein weit
> verbreiteter UTF-8-"Präfix".
> Ein einzelnes Byte >=0x80 ließe sich ja u.U. noch erkennen (und mit ein
> wenig Hintergrund, der die Zuordnung der Codierung erlaubt, auch automatisch
> korrekt nach UTF-8 wandeln), aber was ist mit aufeinanderfolgenden solchen
> Zeichen ("äß", etc, s.o.)?
Die Änderung am Code, wodurch UTF-8-Zeichen in die Latin-1-DB gekommen
sind, ist ja am 10.08.2011 gepushed worden. Eventuell wäre es somit
möglich, nur die Texte der Bugs zu konvertieren, die vor diesem Datum in
die DB eingetragen worden sind?
Grüße,
Michael
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname : signature.asc
Dateityp : application/pgp-signature
Dateigröße : 195 bytes
Beschreibung: OpenPGP digital signature
URL : <http://lists.openstreetmap.org/pipermail/talk-de/attachments/20120315/ccd11607/attachment.sig>
Mehr Informationen über die Mailingliste Talk-de