Ekler.png

Index.htm Previous Next

Ek-3

Sayfa 2


Nitelik Değerleri (2)

Karakter Kodlaması :

Her geçerli SGML uygulaması (HTML sayfaları da buna dahildir), bir belge karakter kodlamasının (tam doğru olmayan bir tanımla karakter setinin) tanımlanmasını gerektirir. Belge karakter setleri, belgenin kodlanmasında kullanılan bir karakter repertuvarını, her karakterin belirtilmesinde kullanılan bir sayısal kod pozisyon değerini belirtmek için kullanılabilecek sayılar kümesini ve bu sayılardan yararlanarak kod pozisyon değerlerini üretebilecek bir fonksiyonu içermelidir. Yani karakter seti tanımı biraz yanıltıcıdır çünkü burada bir karakter repertuvarı ve bir sayı kümesinden oluşan iki set ve bu iki seti bağdaştıran, yani kod pozisyon değerini üreten bir fonksiyon olmak üzere üç ayrı öğe söz konusudur. Karakter kodlamasının matematik tanımı Dan Conolly tarafından, tanım alanı bir tamsayılar alt kümesi olan ve kapsamı bir karakter kümesi (karakter repertuvarı) olan bir fonksiyon olarak tanımlanmıştır. Karakter repertuvarının genişliği, yani oluşturulabilecek karakter sayısı, bu karakter pozisyonlarının ifadesinde kullanılabilecek sayı kümesinin eleman sayısı ile sınırlıdır. Yani sayılar setinin genişliği, karakter setinin genişliğini belirler. Karakter kodlamaları, tanımlarında kullanılan bit sayısının genişliği ile sınıflandırılırlar.

Bilgisayarlar bilgileri bit oktetlerinden (byte veya word adı da verlen sekiz bitlik gruplardan) yararlanarak oluştururlar. İlk karakter kodlaması kodlama için kullanılan sayı kümesinin eleman sayısını , bir oktetin ilk biti boş bırakılarak (bu bit daima sıfır olarak bırakılarak kontrol biti olarak adlandırılmıştır) geriye kalan 7 bitin kullanımı ile oluşturulmuştur. Kullanılabilen bu 7 adet bitin kombinasyonu ile ancak 27 = 128 karakter tanımlanabilmektedir. Bu durumda, 7-bit içeren bir sayı kümesinin karakter repertuvarı 128 karakter ile sınırlıdır. Oluşturulan bu karakter setinin ilk 32 karakteri, o günkü teknik uygulamaların gerektirmesi nedeni ile, görüntüsel olmayan satır sonu gibi karakterlere ayrılmış ve bunlar genellikle, "escape sequences" olarak adlandırılmıştır. Karakter repertuvarında, bu ilk 32 karakterden sonra gelenler, görüntü verebilen karakterler olup "glyph" (kılıf) olarak adlandırılırlar. Her bir font türü, kendine özgü bir kılıf oluşturur. Sonuçta, 7 bitlik karakter kodlaması ile ancak 128 karakter oluşturulabilen ve bunun da ilk 32 sinin görüntü üretmeyen karakterlere saklandığı sistem yaygınlık kazanarak, 7 bit ASCII veya US-ASCII (American Standard Code for Information Exchange) olarak adlandırılmış ve ISO 646 olarak Uluslararası Standart Enstitüsü tarafından tescil edilmiştir. ISO 646, ilk uluslarararası karakter kodlama tanımı olarak büyük bir öneme sahiptir ve kısıtlı olanaklarının yarattığı sorunlar ile bu sorunlarının çözümleri için geliştirilen yöntemlere yol açması açısından da dünyada bilgi akımının yaygınlaştırılmasında bir çığır açmıştır. ISO 646 nın kabulu, dünyada karakter kodlaması serüveninin başlangıcı olmuştur, çünkü bu sistem ile sorunsuz olarak ifade edilebilen dünyadaki alfabe sayısı sadece üçtür ve bunlar da, dünyanın en kompakt alfabesi olan İngiliz alfabesi, Latin alfabesi ve Swahili dilidir. 7-bit ASCII sisteminin dar olanakları ile ifade edilemeyen, Türkçe dahil birçok Avrupa dili alfabesi, ISO 646 nın ilanı ile standart dışı kalmış ve bu olay, karakter kodlamasının ilk dışlayıcı eylemi olarak tarihe geçmiştir. Bu problemi aşmak için hemen yeni çalışmalar başlatılmıştır.

İlk aşamada, 8-bitlik guruptan ilk kontrol bitinin kaldırılarak, bir WORD'ün 8 bitinin tümünün sayı kümesinde kullanılması düşünülmüş ve bu durumda, ilk 128 karaktere bir 128 karakter daha ilavesi ile toplam 256 karakterin ifade edilmesi olanağı sağlanmış, fakat esas kıyamet de bundan sonra kopmuştur. 8 bit kullanan bu yeni karakter kodlama sistemi, 7-bit US-ASCII sistemi le tamamen uyumlu olarak tasarlanmış, yani 8 bit karakter kodlaması sisteminin ilk 128 karakteri, 7 bit US-ASCII sisteminin karakterleri ile aynı olarak tanımlanmıştır. Geriye kalan 128 yeni karakter ise, 7 bit ASCII ile ifade edilemeyen karakterlerin tanımı için kullanılmıştır. Bu 256 karakterin ilk 128 karakterinin daima temel, sonraki 128 karakterin de tamamlayıcı gurup olarak düşünülmesi bilgi işlem çalışmalarında her yerde karşılaşılan, uzun süren ve kurumsallaşmış bir ayrımcığa yol açmıştır. İlk kavga, bu ek 128 karakterin hangi ülkelerin karakterlerini tanımlayacağı konusunda çıkmıştır. Burada her türlü ayrımcılık ve önyargı uygulanmış, itibarlı ülkelerin karakterleri, ikinci 128 karakterin arasına alınarak, Latin-1 olarak tanımlanan ilk ve ayrıcalıklı bir 8-bit karakter kodlaması standardı oluşturulmuştur. Bu aşamada, çok az kişinin konuştuğu İzlanda dilinin alfabesinin karakterleri, bu ayrıcalıklı guruba dahil edilirken, Türkçe alfabesininin karakterleri dahil edilmememiş, Türkiyenin bütün çabaları sonuçsuz kalmış ve türk kullanıcılar sürekli uyumsuzluk sorunları ile boğuşma zorunluğunda bırakılmıştır. 8-bit karakter kodlaması standardı ISO 8859-1 (Ayrıcalıklı Gurup) (Latin-1), çeşitli ülke kodları da ISO 8859-X şeklinde, uluslararası olarak standartlaştırılmış, Türkçe karakter seti de ISO 8859-9 (Latin-5) gurubu olarak belirtilmiştir. Ayrıcalıklı gurubun bulunduğu Latin-1 standardına, 8-bit US-ASCII uzantısı adı da verilmektedir. 8-bit kodlama sistemlerinin neden olduğu sorunlardan birisi de, gereğinden çok sayıda 8-bit kodlama sisteminin ortaya çıkması olmuştur. 8-bit Kodlama standartlarının aşağıya doğru uyumlu olması, yani ilk 128 karakterinin 7-bit ASCII ile aynı olması, her kodlamanın en kötü olasılıkla İngiliz alfabesini doğru okumasını öngördüğünden, gereğinden çok sayıda 8-bit karakter seti standardının tanımlanıp kullanılmasına yol açmış, aynı alfabe için birden fazla karakter kodlaması standardının belirlenmesi olağan sayılmaya başlanmıştır. Internet yaygınlaşmaya ve kurumları çalışmaya başladıkça her konuda olduğu karakter kodlaması konusunda da yaşanan dağınıklığın kontrol altına alınabilmesi için, merkezi bir otorite gerekmiş, bu görevi IANA (Internet Assigned Numbers Authority) üstlenmiş ve tüm belge çözümleyicilerin karakter kodlamalarının bu kuruluşa tescil ettirilmiş kodlamaların arasından seçilmesi kabul edilmiştir. Karakter kodlaması nitelik değerleri, DTD deki , %Charset değerlerine karşılık gelir. Karakter kodlaması nitelik değeri, IANA . tarafından kaydedilmiş değerlerden seçilir. IANA da kayıtlı tüm karakter kodlamaları, Ek-3 Sayfa 8de verilmiştir. Bu liste de görülen kayıtlı karakter kodlaması kayıtları arasında, Türkçe için  iki ayrı karakter kodlaması bulunmaktadır. Bunlardan ilki, 8-bitlik Latin-5 spesifikasyonuna göre standartlaştırılmış Türkçe karakter seti olan ISO 8849-9, diğeri de Microsoft tarafından geliştirilmiş Türkçe karakter kodlaması olan windows-1254 dür.

Bilgisayarların henüz izole durumda oldukları, yani bilgisayarların bilgi iletim işlevleri fazla vurgulanmadığı Internet öncesi 1990 yıllarında, bu karakter kodlaması farklılıkları kullanıcılar açısından fazla etki yapmamamıştır. Internet ile birlikte, sorunlar da başlamıştır. Internet kullanıcıları belge çözümleyicilerinde hem kendi öz dillerinde, hem de örnek olarak Danimarkaca yazılı belgeleri açmak isteyince, belge çözümleyicilerin karakter kodlarını değiştirme gereği ile karşı karşıya kalmışlar ve şikayetler artmaya başlamıştır. Yine de, HTML 3.2 standardına kadar, karakter kodlarına temel olarak 8-bit US-ASCII uzantısı olarak tanınan Latin-1 karakter seti kullanılmıştır. HTML 4 ile birlikte, UNICODE sistemi sistemine geçilerek birleştirici bir görüş benimsenmiştir.

Dünyada kullanılan yaklaşık 6000 dilin, yazı karakterlerinin ne kadar çok karakter içerdiği tahmin edilebilir. Basit 8-bitlik karakter setinin kısıtlı olanakları, SGML temel düşüncesinin amaçladığı evrensel kapsam için yeterli olamayacağı açıktır. Bu konunun çözümü için yapılan açılımlar aslında 80 yılların sonlarında başlamış ve 1991 Unicode Consortium'un kurulması ile resmi bir nitelik kazanmıştır. UNICODE, 16 bit genişliğinde sayı setinin kullanımı ile sağlanabilecek 216 = 65536 karakter ile, tüm canlı ve ölü dilleri içeren evrensel karakter setini oluşturma gibi son derece tutkulu bir hedefi başlatmıştır.

UNICODE ile tüm dillerdeki alfabetik karakterlere tek bir kodlama sisteminde geçerli, tek bir kod verilmesi hedeflenmiştir. Bu kodların ilk 126 sı 7-bit US-ASCII karakterleri ile, ikinci 126 sı da, ISO 8894-1 Latin-1 karakter seti (8-bit ASCII uzantısı) ile uyumludur. Kodlar tam olarak aynı değildir fakat soldaki fazla sıfırlar değerlendirme dışı olduğundan ve sadece birbirleriyle aynı olan sayısal karakterler değerlendirmeye alındığından eşit gibi hareket ederler. Örnek olarak ) karakterinin kodu Unicode için (ondaklı) 0041 iken ASCII kodu (ondalıklı) 41 değerindedir. Her iki değerde de, sıfırdan farklı olan 4 ve 1 karakterleri ortak olarak bulunmaktadır ve değerlendirilen de sadece bu karakterlerdir. Bilinen tüm alfabetik diller yanında, uzakdoğu dilleri gibi ideografik dillerin kodlamalarının da UNICODE ile gerçekleştirilebilmesi için çalışmalar sürmektedir.

Bu çalışmalar sırasında, UNICODE standardının, tam evrensel karakter kodlaması için yeterli olamayabileceği endişesi oluşmuştur. Bu durumda, kapsamı arttırmak için bir oktet daha kullanılması akla yakın iken, üç oktetik bilgilerin bilgisayarlarda zor işlendiği, dört oktetlik 32 bit grupların ise daha iyi kabul gördüğü ve yeni nesil işletim sistemlerinin de 32 bit sistemi ile çalıştıkları düşünülerek 4 oktet (32 bit) lik sayı sisteminin temel alındığı yeni bir sistem, Universal Multiple-Octet Coded Character Set (kısaca UCS) geliştirilerek, ISO/IEC 10646-1 standardı olarak yayınlanmıştır. Bu sistem ilk kontrol bitini boş bıraktığı için, aslında 31 bit sistem olarak tanımlanabilir. UCS sistemi, 231 = 2147483648 karakter tanım kapasitesi ile aslında gereksinimden daha fazla olanak sağlamaktadır.

Evrensel Çok Oktetli Kodlanmış Karakter Seti UCS, en azından kuramsal planda, tüm karakterlerin aynı uzayda ifade edilebilmesini sağlamaktadır. Bu standardın yaygınlaşması ile, karakter kodları evrensel bir kodlama sistemi ile ifade edilmiş olacaktır.

Pratikte, karakterlerin tanımlanması için kullanılan sayı kombinasyonunda yer alan sayıların bit  sayıları fazlalaştıkça, bu karakterlerin kullanımı ile oluşturulan belgelerin dosya büyüklüklerinin de artmaktadır. Boyları büyüyen dosyaların, iletimleri için gereken bant genişliği gereksinimi fazlalaşarak, belgenin Internet ortamında yükleme süresi de uzamaktadır. Dosya indirme sürelerinin uzaması, Internet ortamında en istenmeyen olayların başında gelmektedir. Bunun alternatifi olan, az bitli sayıların kombinasyonu kullanılması halinde ise, bu mahzurlar azalmakla birlikte, ifade edilebilen karakter sayısı da azalmakta, bu da bazı durumlarda hedeflenen alfabedeki karakter sayısı için yeterli olmamaktadır. Yani bir optimizasyon yapılarak hem aşırı dosya boyu yükünden kurtulunmalı, hem de yeterli karakter sayısı üretme şansı elde tutulmalıdır.

Yükleme süresinin yükselmesinden kurtulmak için, ilk bir önlem olarak, UCS nin henüz kullanılmasına gerek olmayan ikinci oktet çifti alanından kaçılması düşünülmüştür. Tam kanonik hali 4 oktet olan UCS nin ilk iki oktetlik kısmı UCS-2 olarak adlandılır. Kanonik UCS, UNICODE'un 2 oktet olan genişliğine iki ek oktet ilave edilerek tanımlanmış olduğuna göre, bu ek iki oktet çıkarıldığında geriye kalan iki oktet genişliğindeki tanım alanı, UNICODE ile aynıdır. Yani, UCS-2 prensip olarak UNICODE anlamını taşır. UCS-2, UNICODE ile tamamen aynı, 8-bit US-ASCII ve 7-bit ASCII ile tam uyumludur. Kanonik UCS de (UCS-4 olarak düşünülebilir), UCS-2, UNICODE, 8-bit US-ASCII ve 7-bit ASCII ile tam uyumludur. UCS karakter setinin sadece ilk yarısı, bugün için UNICODE adı altında kullanılabilmektedir. ISO 10646, karakter başına 4 oktet gerektiren kanonik UCS yi simüle edebilecek bazı başka mekanizmaları da tanımlamıştır. Bunlardan birisi, bir tür kod anahtarlama yöntemi ile, /-bit ASCII karakterleri kullanılarak UCS karakterlerine uyum sağlamayı sağlayabilen UTF-8 (Unicode Transformation Format) kod dönüştürme tekniğidir. UTF-16 da, henüz geliştilmekte daha geniş kapsamlı bir diğer dönüştürme algoritmasıdır. Bu tekniklerle, belge indirme süreleri büyük ölçüde azaltılabilmektedir.

Belgelerin karakter kodlamaları incelenirken, iki önemli kavramın karıştırılmaması, ileride konunun daha iyi anlaşılmasını sağlayacaktır. Bu kavramlar, Belge Karakter Seti ve Belge Karakter Kodlaması (encoding) kavramlarıdır. HTML 4.01 spesifikasyonu ile birlikte, HTML belgelerinin karakter seti, Kanonik UCS olarak belirlenmiştir. Yani, belge çözümleyiciler, HTML belgelerini artık, UCS karakter setine değerlendirerek görüntüleyeceklerdir. Buna belge karakter seti adı da verilmektedir. Bu şekilde, belge karakter setinin tüm belgeler için tek ve UCS olduğu belirlenmiş olmaktadır. Belgenin gerçek karakter kodlaması ise, her türlü kodlama olabilir. Doğal olarak, hem kullanılan kodlamanın belgede kullanılacak tüm karakterleri görüntüleyebilecek kapasitesi olmalı, hem de bu kodlama standart bir kodlama olmalı ki, belge çözümleyiciler bu kodlamayı tanımalı ve UCS ye dönüştürecek mekanizmalara sahip olmalıdır. Buna dış kodlama adı verilir ve belgedeki gerçek karakter kodlamasıdır. Belgeler, kendi kodları ile sunucularda tutulurlar ve istemcilerin isteği ile istemcilerdeki belge çözümleyicilera indirilirler. Bu şekilde, belgelerin dosya büyüklükleri az, dolayısı ile indirilme süreleri de kısa tutulabilir.

Sunucularda yer ekonomisi ve iletimde hız sağlanması amacı ile belgenin içeriği için yeterli olacak bir şekilde az sayının kombinasyonunun kullanımı ile karakter kodlaması yapılmış belgeler, sunucudan istemciye iki aşamalı bir iletim ile ulaşırlar. İlk aşamada gönderilen, HTTP başlık kısımı "HTTP header" adı verilen ve başlık alanlarını içeren kısımdır. Başlık kısmı, belegenin içerdiği  Multipurpose Internet Mail Extensions MIME bilgilerini içerir. Bu bilgiler tarayıcıya iletimin ikinci aşamasında iletilecek olan tüm belgenin değerlendirilmesi için gerekli olan bilgilerdir.

İstemci bilgisayarına ulaşmış belgelerin, istemci bilgisayarındaki çözümleyici tarafından değerlendirilip görüntülenebilmesi için, belegenin dış karakter kodlamasının, belge karakter setine dönüştürülmesi gerekir. Bunun gerçekleşebilmesi için, tarayıcıya dış karakter kodlaması türünün bildirilmesi gerekir. Karakter kodlaması bilgilerinin ya iletişim sırasında HTTP başlığı halinde, veya en iyisi bir meta bilgi şeklinde belge gövdesinde gömülü olarak kullanıcı ajanınına bildirilmesi gereklidir. İletişim sırasında, bir sunucu tarfı script yazılarak HTTP başlığında karakter kodlamasının belirtilmesi, her kullanıcıdan istenebilecek bir çalışma olmadığı gibi, işlerin akışını da engelleyeceği açısından da uygun değildir. Bunun yerine, dış karakter kodlaması bilgilerinin, bir meta-bilgi olarak HTTP başlığına eşdeğer halde belge çözümleyiciye tanıtılması daha geçerlidir. Belge çözümleyiciler, çoğunlukla, meta bilgi alanlarına öncelik verirler ve bu yöntemle karakter kodlaması bilgilerinin atlanmasına olanak verilmemiş olur. Fakat, bir belge, yazıldığı karakter kodlamasından başka bir karakter kodlamasına dönüştürüldüğünde, meta bilgi olarak belirtilen karakter kodlaması değerinin, el ile değiştirilmesinin gerekli olması, karakter kodlaması değerinin, meta bilgi olarak verilmesinin en büyük mahzurudur. Karakter kodlamasının bir meta bilgi olarak belge çözümleyiciye gönderilmesinin yarattığı bir başka sorun da, meta bilginin okunmasına kadar belge çözümleyicinin belgenin karakter kodlamasını çözümlemeye başlamış olmasıdır. Uygulamada en iyi yöntemin, karakter kodlaması meta-bilgisinin, belge kodlamasının en başında verilmesi olacaktır. Örnek olarak aşağıda verilen bir uygulamada, belge başlığının, karakter kodlaması bilgisinden önce verildiği görülmektedir.

Bu belgenin görüntülenmesi, sırasında belge başlığının karakter kodlaması, belge karakter kodlamasından daha önce ve tarayıcının varsayılan karakter kodlamasına göre değerlendirilecektir. Sayfa başlıkları genellikle işletim sisteminin belirlediği karakter setinde görüntülendiğinden, bu fazla bir sorun sayılmayabilir. Sonuçu görmek için Ek 3 s 2 uygulama 2.htm dosyasını görüntüleyiniz. HTTP başlığının iletilmesi veya belgedeki meta-bilginin okunması ile, belge çözümleyiciye dış belgenin karakter kodlaması üzerine gerekli bilgi aktarılmış olur ve belge çözümleyici dış karakter kodlamasından belge karakter seti (UCS) ye dönüştürümü başlatır.

Belge çözümleyici, dış belge kodlaması bildiği bir tür ise, dönüştürmeyi gerçekleştirir ve belgenin görüntülenmesi aşamasına geçilebilir. Belgenin görüntülenmesi için, belge çözümleyici ile belge çözümleyicinin çalıştığı istemci bilgisayarının işletim sistemi arasında uyum sağlanması için, bazı ek dönüştürmelerin yapılması da gerekebilir. Örnek olarak, belge çözümleyicinin oluşturduğu görüntü kodlarında bulunabilecek fakat işletim sisteminin desteklemediği fontlar, işletim sisteminde bulunan en yakın uyumlu fontlar ile değiştirilerek görüntü oluşturulur.

Bir belgenin karakter kodlaması ne olursa olsun, belgede kullanılan karakter varlıklarının ve bunların sayısal referanslarının sadece UCS karakter setine referans vermesi öngörülmüştür. Bu şekilde, karakter varlıklarının anlamlarında dağınıklık ve belirsizlik olması nedeni ile belgenin değerlendirilmesi sırasında yanlışlık olasılığı da ortadan kaldırılmış olur. HTML karakter varlıkları Ek-2 de görülebilir. Örnek olarak bir belgeye Fransızca "yumurtalar" anlamına gelen "les Sfs" (lezö olarak okunmalıdır) sözcüğündeki küçük "S" (ö) harfinin yazılması için, bu harfin UNICODE (UNICODE karakter referansları UCS uyumludur) karakter değeri olan ondalıklı œ veya hex œ veya karakter varlığı œ yazılması yeterli olacaktır. Bu kodları değerlendiren belge çözümleyici, dış karakter kodlaması ne olursa olsun, yazılan kodu "S" harfi olarak değerlendirilecektir. Bu standardın getirilmesi, gerçekten uygulamada büyük bir kullanım kolaylığı sağlamıştır. Bu örnek, Ek-3 Sayfa 2 uygulama 1.htm olarak kaydedilmiştir.

KarakterKodlaması (charset) değerleri, büyük/küçük harf ayrımına duyarlı değildir. Bu nedenle, Windows-1254 ile windows-1254 ifadeleri aynı karakter kodlaması referansı olarak değerlendirilirler.

Dikkat edilmesi gereken bir nokta, <title> elementinin değerlerinin, belge çözümleyicinin üst çizgisinde görüntülenmesi sırasında, belge karakter seti değil, işletim sistemi fontlarının kullanılmasıdır. Bu nedenle, bazı harfler burada yetersiz görüntülenebilirler.

Yine aynı şekilde, bazı metinleri oluşturan Java Appletleri ve buton (düğme) yazıları tuhaf görüntülenebilirler, çünkü bunlar için de işletim sisteminin karakterleri kullanılır.

Tek Karakter Değerleri :

Bu değerler, DTD de %Character olarak belirtilen değerlerdir. Bu değerler, belgenin karakter seti kapsamındaki bir karakter olabilir. Bu değerler için, Ek-1 deki sayısal veya sembolik karakter referansları da kullanılabilir.

Metin (Text) Değerleri

Bu değerler, DTD de %Text olarak belirtilen değerlerdir.

Tarih ve Zaman Bilgileri (Tarih):

Tarih ve zamanı belirten datetime niteliğinin değeri, DTD deki %Datetime değerine karşıllık gelir. Bu değer,

YYYY-MM-DDThh:mm:ssTZD

şeklinde yazılır. Burada,

YYYY = 4 rakkamlı yıl değeri

MM = İki rakkamlı ay değeri (01=Ocak vb.)

DD = İki rakkamlı gün değeri (01 den 31 e kadar)

hh = İki rakkamlı saat değeri (01 den 23 e kadar)

mm = İki rakkamlı dakika değeri (00 dan 59 a kadar)

ss = İki rakkamlı saniye değeri (00 dan 59 a kadar)

TZD = Saat Dilimi Belirticisi (Time Zone Designator)

Tarih formatı, herşeyden önce yıl ay gün değerlerini içerir ve bu aşama T(time) karakteri ile biter. T karakteri büyük/küçük harf yazımına duyarlıdır ve büyük T harfi olarak kullanılmadır. Saat:dakika:saniye bilgisini takipeden TZD (Time Zone Designator=Saat Dilimi Belirticisi) ifadesi üç türlü belirtilebilir :

Zaman formatı belirtilirken bilinmeyen bir saat, dakika veya saniye değeri, 00 ile belirtilmelidir. Örnekler:

2002-1-16T03:16:00Z ile 2002-1-16T05:16:00+02:00 aynı zamanı gösterir.

1994-11-12T22:08:16-02.00 ile 1994-11-13T00:08:16Z aynı zamanı gösterir.

1990-06-21T18:02:00+01.00 ile 1990-06-21T17:02:00Z aynı zamanı gösterir.

Tüm belirtilen değerlerin hepsi, aynen belirtilen noktalama işaretleri ile kullanılmalıdır. Bilinmeyen saat, dakika ve saniye değerleri yerine 00 değeri kullanılır.

Link tipleri DTD de %LinkTypes nitelik değerlerine karşı gelir. Link tipi değerleri, büyük/küçük harf yazılımına duyarlı değildir. Bu değerler, boşluk karakteri ile ayrılmış değerler listesidir. Boşluk karakterleri sadece ayraç olarak kullanılır, değerler boşluk karakteri içeremez.

Belge çözümleyiciler, link tiplerini değişik şekillerde değerlendirebilirler. Bugün için, belge çözümleyiciler sadece stylesheet değerini değerlendirebilmektedirler.

Alternate

Bağlantı olduğunda, belgenin alternatif şeklini belirtir. Eğer lang niteliği ile birlikte kullanılırsa, belgenin tercüme edilmiş halini belirtir. Eğer, media,niteliği ile birlikte kullanılırsa, belgenin değişik bir ortam veya ortamlar için düzenlenmiş durumunu belirtir.

Stylesheet

Bir dış stil dosyasına bağlantıyı belirtir. Eğer Alternate tipi bir bağlantı ile kullanılırsa, kullanıcı tarafından seçilebilecek birden çok stil sayfasını belirtebilir.

Start

Bir sıralı belge topluluğunda, başlangıç belgesini belirtir.

Next

Bir sıralı belge topluluğunda, bir sonraki belgeyi belirtir.

Prev

Bir sıralı belge topluluğunda, bir önceki belgeyi belirtir. Bazı belge çözümleyiciler, "Previous" değerini destekleyebilirler.

Contents

Bir sıralı belge topluluğunda, içerik listesi görevini yapacak belgeyi belirtir. Bazı belge çözümleyiciler, Table of Contents ifadesinin kısaltılmışı olan, "ToC" değerini destekleyebilirler.

Index

Bir sıralı belge topluluğunda, indeks görevini yapacak belgeyi belirtir.

Glossary

Bir sıralı belge topluluğunda, deyimler listesi görevini yapacak belgeyi belirtir.

Copyright

Bir sıralı belge topluluğunda, telif hakkı bilgilerini içeren belgeyi belirtir.

b

Bir sıralı belge topluluğunda, bir bölüm içeren belgeyi belirtir.

Section

Bir sıralı belge topluluğunda, bir kısım içeren belgeyi belirtir.

Subsection

Bir sıralı belge topluluğunda, bir alt kısım içeren belgeyi belirtir.

Ek

Bir sıralı belge topluluğunda, ekler bilgilerini içeren belgeyi belirtir.

Help

Bir sıralı belge topluluğunda, yardım bilgilerini içeren belgeyi belirtir.

Bookmark

Bir işaret noktasına bağlantıyı belirtir. Bir işaret noktası, (bookmark) bir belgede önceden tanımlanmış bir noktadır. Bir işaret noktası, örnek olarak bir title niteliğinden yararlanılarak oluşturulabilir. Bir belgede birden fazla işaret noktası olabilir.

Bu spesifikasyonda tanımlanmamış bağlantı tipleri, <head> elementinin profile niteliğinden yararlanılarak tanımlanabilir. Şu anda bu profileniteliğinin değerlendirilmemesine rağmen, kullanıcılar tarafından, yeni link tiplerinin tanımlanması teşvik edilmektedir.

Bağlantı tiplerinin kullanım örnekleri, link ve anchor konularında görülebilir.

Medya Tanımlayıcıları (Media Descriptors):

Bu nitelik değeri , DTD de %Mediadesc parametre varlığı olarak tanımlanmıştır. Bu nitelik değeri için tanımlı değerler, aşağıda belirtilmiştir :

screen

Bilgisayar ekranı.

tv

Televizyon.

projection

Projeksion Cihazı.

 

handheld

El bilgisayarı.

print

Ekranda print preview modunda görüntü için.

braille

Görme özürlüler için Braille alfabesini işleyebilen tactile cihazlar için.

aural

Ses sentezi yapan cihazlar için.

all

Tüm cihazlar için.

CSS3 spesifikasyonu bazı yeni medya tipleri eklemiştir. Bunlar,

embossed

Braille yazıcı cihazları için.

tty

Teleks cihazları için.

speech

Ses sentezi yapan cihazlar için.

Bu aşamada henüz hiç bir belge çözümleyicisi, media tanımlayıcısı nitelik değerlerini tam olarak değerlendirememektedir.