[Olug-list] Re: [Olug-list] Emacs, ssh, og ÆØÅ

Alf Kåre Lefdal Alf Kåre Lefdal"
Mon, 13 Mar 2006 23:24:59 +0100


On 13/03/06, Roy-Magne Mo <rmo@sunnmore.net> wrote:
> må den 13.03.2006 klokka 10:10 (-0800) skreiv John L Fjellstad:
> > On Sun, Mar 12, 2006 at 10:47:56PM +0100, Roy-Magne Mo wrote:
> > > Er det egentlig eit problem? Vil tru at du skal encode alle teikn som
> > > ikkje er 7 bit uansett?
> >
> > utf-8 og ISO8859-1 er forskjellig.  Fra det jeg forstår, er ISO8859-1
> > 7-bit, noe some nødvendigvis ikke er sant for utf-8.
>
> Jau det er det, men du skal berre bruke teikn som kan representerast med
> dei første 7 bita i korrekt XML og XHTML. Dette vil føre til at filen=
e
> vil vere ganske like om du brukar UTF-8 eller ISO8859-1/ISO8859-15
>
> For filer der du brukar særteikn som går utanfor dei første 128 tei=
kna i
> teikntabellen, vil det vere ein forskjell.

Så lenge du følger XML-standarden og angir tegnsett i XML-prologen, så
kan du bruke alle gyldige tegn i tegnsettet i et XML-dokument [1].
Eksempel som gir deg tilgang på norske og andre vest-europeiske tegn
(æøåéàö...): <?xml encoding="ISO-8859-1">

Tilsvarende gjelder for XHTML, men siden MSIE går i quirks-mode [2]
når man angir XML-prolog, så kan man (i praksis) bruke HTTP-header
eller tilsvarende meta-element (<meta http-equiv="Content-Type"
content="text/html; charset=iso-8859-1" />) for å angi tegnsett.

Forøvrig anbefaler jeg artikkelen "The Absolute Minimum Every Software
Developer Absolutely, Positively Must Know About Unicode and Character
Sets (No Excuses!)" av Joel Spolsky [3].  Den har gitt meg mange
aha-opplevelser.

[1] http://www.w3.org/TR/REC-xml/#NT-EncodingDecl)
[2] http://www.quirksmode.org/css/quirksmode.html
[3] http://www.joelonsoftware.com/articles/Unicode.html

AK

--
Alf Kåre Lefdal
http://www.lefdal.cc/