Žymėjimo kalbos. Dokumentų žymėjimo kalbos – koks jų pagrindinis tikslas ML nereiškia „žymėjimo kalbos“

(Standartinė bendroji žymėjimo kalba), pateikta ISO 8879 standarte. Ši kalba naudojama kaip pagrindinė kalba kuriant techninę dokumentaciją, įskaitant interaktyvius elektroninius techninius vadovus gaminiams, sukurtiems naudojant CALS technologijas.

SGML apibrėžia dokumentų struktūrą kaip duomenų objektų seką. Duomenų objektai, vaizduojantys dokumento dalis, gali būti saugomi skirtingose ​​bylose. SGML standartas nustato informacijos vaizdavimo simbolių ir taisyklių rinkinį, leidžiantį įvairioms sistemoms teisingai atpažinti ir identifikuoti šią informaciją. Šie rinkiniai aprašyti atskiroje dokumento dalyje, vadinamoje DTD deklaracija(Dokumento tipo apibrėžimas), kuris perduodamas kartu su pagrindiniu SGML dokumentu. DTD nurodo simbolių ir jų kodų atitiktį, maksimalų naudojamų identifikatorių ilgį, žymų skiriamųjų ženklų vaizdavimo būdą, kitus galimus susitarimus, DTD sintaksę, dokumento tipą ir versiją. Todėl SGML galima vadinti metakalba tam tikrų žymėjimo kalbų šeimai. Visų pirma, XML žymėjimo kalbos gali būti laikomos SGML pogrupiais ir HTML.

Techninis aprašymas SGML dokumento forma apima:

  • pagrindinė byla su techniniu vadovu, pažymėta SGML žymomis;
  • subjektų aprašymas, jei dokumentas priklauso grupei, kurioje naudojami tie patys subjektai ir numanoma jų šlovė;
  • žodynas, paaiškinantis SGML žymas;

Tačiau SGML sunku išmokti ir naudoti. Todėl už platų žymėjimo naudojimą WWW pateikiamuose dokumentuose-technologijomis, 1991 metais SGML pagrindu buvo sukurta supaprastinta HTML kalba(HyperText Markup Language), o 1996 m. – XML kalba(eXtensible Markup Language), kuri kartu su HTML tampa pagrindine kalba pateikiant dokumentus įvairiose programose.

HTML kalba buvo sukurta plačiai naudoti žymėjimą dokumentuose, pateikiamuose WWW technologijomis.

HTML aprašą sudaro ASCII tekstas ir į jį įtraukta komandų (valdymo kodų) seka, dar vadinama deskriptoriais arba žymomis. Šis tekstas vadinamas HTML dokumentu arba HTML puslapiu, arba, kai jis paskelbtas žiniatinklio serveryje, tinklalapiu.. Žymos dedamos tinkamose šaltinio teksto vietose, jos nustato šriftus, brūkšnelius, grafikos išvaizdą, nuorodas ir kt. Naudojant WWW redaktorius, komandos įterpiamos tiesiog paspaudus atitinkamus klavišus.

XML, kaip ir HTML, laikomas SGML poaibiu. Šiuo metu XML kalba yra pagrindinė dokumentų pateikimo kalba informacinėse technologijose, ji gali būti laikoma metakalba, kuri yra pagrindas kuriant privačias žymėjimo kalbas įvairiose programose. Tuo pačiu metu XML yra patogesnis nei SGML, o tai užtikrina kai kurių nedidelių SGML ypatybių pašalinimas XML. XML aprašymai yra lengviau suprantami ir pritaikyti naudoti šiuolaikinėse naršyklėse išlaikant pagrindines SGML savybes.

Tam tikroms programoms sukuriamos savos XML versijos, vadinamos XML žodynais arba XML programomis. Taigi sukurta XML programa OSD (Open Software Description), skirta tekstams apibūdinti specifiniais matematiniais simboliais. CALS domina produkto apibrėžimo mainų (PDX) parinktis, skirta apsikeitimui duomenimis. Yra gerai žinomi chemijos (CML – Chemical Markup Language), biologijos (BSML – Bioinformatic Sequence Markup Language) žodynai ir kt.

žymėjimo kalbos) yra specialių instrukcijų, vadinamų žymomis, rinkinys, skirtas formuoti dokumentų struktūrą ir apibrėžti ryšius tarp įvairių šios struktūros elementų. Kitaip tariant, žymėjimas parodo, kuri dokumento dalis yra antraštė, kuri yra paantraštė, kas turėtų būti laikoma autoriaus vardu ir tt Žymėjimas skirstomas į stilistinį, struktūrinį ir semantinį. Stilistinis žymėjimas

Stilistinis žymėjimas yra atsakingas už dokumento išvaizdą. Pavyzdžiui, HTML šio tipo žymėjimas apima tokias žymas kaip (kursyvas), (pusjuodis), (pabrauktas), (perbrauktas tekstas) ir kt.

Konstrukcinis žymėjimas

Struktūrinis žymėjimas apibrėžia dokumento struktūrą. Pavyzdžiui, HTML žymos (paragrafas), (pavadinimas), (skyrius) ir kt. yra atsakingos už tokio tipo žymėjimą.

Semantinis žymėjimas

Semantinis žymėjimas informuoja apie duomenų turinį. Šio tipo žymėjimo pavyzdžiai yra žymos (dokumento pavadinimas), (kodas, naudojamas kodų sąrašams), (kintamasis), (autoriaus adresas).

Pagrindinės bet kurios žymėjimo kalbos sąvokos yra žymos, elementai ir atributai.

Žymos ir elementai.

Žymų ir elementų reikšmės dažnai painiojamos.

Žymos arba valdymo deskriptoriai, kaip jie dar vadinami, tarnauja kaip instrukcijos programai, kuri kliento pusėje rodo dokumento turinį, ką daryti su žymos turiniu. Norint paryškinti žymą, palyginti su pagrindiniu dokumento turiniu, naudojami kampiniai skliaustai: žyma prasideda mažesniu nei ženklu (), kurio viduje dedamas instrukcijų pavadinimas ir jų parametrai. Pavyzdžiui, HTML žyma nurodo, kad toliau esantis tekstas turi būti kursyvu.

Elementas yra žymos kartu su jų turiniu. Toliau pateikta konstrukcija yra elemento pavyzdys:

Šis tekstas yra kursyvu .

Elementą sudaro pradinė žyma (mūsų pavyzdyje tai yra žyma ), žymos turinys (pavyzdyje tai yra tekstas „Tai tekstas kursyvu“) ir baigiamoji žyma (), nors kartais HTML, baigiamoji žyma gali būti praleista.

Atributai

Norint nustatyti bet kokius parametrus, paaiškinančius šio elemento charakteristikas apibrėžiant elementą, naudojami atributai.

Atributus sudaro poros pavadinimas = reikšmė, kurią galima nurodyti apibrėžiant elementą pradžios žymoje. Galite palikti tarpus lygybės simbolio kairėje ir dešinėje. Atributo reikšmė nurodoma kaip eilutė su viengubomis arba dvigubomis kabutėmis.

Bet kuri žyma gali turėti atributą, jei tas atributas yra apibrėžtas.

Kai naudojamas atributas, elementas įgauna tokią formą:

žymėti turinį

Tekstas sulygiuotas su centru

Vienoje pradžios žymoje gali būti keli atributai, pavyzdžiui:

Nurodytas teksto dydis ir spalva

Žymėjimo kalbų raidos istorija.

Hiperteksto sąvoką W. Bushas pristatė 1945 m., o nuo 60-ųjų pradėjo atsirasti pirmosios programos, naudojantys hiperteksto duomenis. Tačiau ši technologija sulaukė pagrindinio tobulėjimo, kai iškilo realus poreikis kelių informacijos išteklių sujungimo mechanizmui, suteikiančiam galimybę kurti ir peržiūrėti nelinijinį tekstą.

1986 m. ISO patvirtino standartizuotą apibendrintą žymėjimo kalbą. Ši kalba skirta kurti kitas žymėjimo kalbas, ji apibrėžia galiojantį žymų rinkinį, jų atributus ir vidinę dokumento struktūrą. Taigi galima susikurti savo žymas, susijusias su dokumento turiniu. Dabar tampa akivaizdu, kad tokius dokumentus sunku interpretuoti be žymėjimo kalbos apibrėžimo, kuris yra saugomas dokumento tipo apibrėžime (DTD). DTD sugrupuoja visas kalbos taisykles SGML standarte. Kitaip tariant, DTD aprašo žymų tarpusavio ryšį ir jų naudojimo taisykles. Be to, kiekvienai dokumentų klasei yra apibrėžtas savo taisyklių rinkinys, apibūdinantis atitinkamos žymėjimo kalbos gramatiką. Taigi, tik DTD pagalba galima patikrinti, ar teisingai naudojamos žymos, todėl jis turi būti siunčiamas kartu su SGML dokumentu arba įtrauktas į dokumentą.

Tuo metu, be SGML, buvo dar keletas panašių kalbų, kurios konkuravo tarpusavyje, tačiau populiarumas (HTML, kuris yra vienas iš jo palikuonių) suteikė SGML neabejotiną pranašumą prieš savo kolegas.

Naudodami SGML galite apibūdinti struktūrizuotus duomenis, tvarkyti dokumentuose esančią informaciją ir pateikti šią informaciją tam tikru standartizuotu formatu. Tačiau dėl savo sudėtingumo SGML pirmiausia buvo naudojamas apibūdinti kitų kalbų sintaksę, o kelios programos tiesiogiai dirbo su SGML dokumentais. SGML dažniausiai naudojamas tik dideliuose projektuose, pavyzdžiui, kuriant vieningą dokumentų valdymo sistemą didelei įmonei.

HTML žymėjimo kalba yra daug paprastesnė ir patogesnė nei SGML, jos instrukcijos pirmiausia skirtos dokumento turinio rodymo ekrane procesui valdyti. HTML kaip būdą pažymėti techninius dokumentus 1991 m. specialiai mokslo bendruomenei sukūrė Timas Bernersas-Lee. Iš pradžių tai buvo tik viena iš SGML programų.

Nepaisant to, kad vienintelis dalykas, kurį HTML gali padaryti, yra klasifikuoti dokumento dalis ir užtikrinti teisingą jo atvaizdavimą naršyklėje, tai yra pati populiariausia žymėjimo kalba. Taip yra todėl, kad HTML yra gana lengva išmokti. Viskas, ką jums reikia padaryti, tai išmokti HTML komandas. HTML DTD saugomas naršyklėje. Be to, reikia pažymėti, kad HTML yra sukurtas veikti įvairiose platformose. Tačiau jis turi keletą reikšmingų apribojimų:

  • HTML turi fiksuotą žymų rinkinį ir šio rinkinio negalima išplėsti ar pakeisti;
  • HTML kalbos žymės rodo tik tai, kaip turi būti pateikti duomenys, ty dokumento išvaizdą. HTML neteikia informacijos apie žymose esančio turinio reikšmę ar dokumento struktūrą.
  • Loginis ir vizualus žymėjimas

    Yra loginis ir vaizdinis žymėjimas. Pirmuoju atveju kalbame tik apie tai, kokį vaidmenį tam tikra dokumento dalis atlieka bendroje jo struktūroje (pavyzdžiui, „ši eilutė yra antraštė“). Antrasis apibrėžia, kaip tiksliai bus rodomas šis elementas (pavyzdžiui, „ši eilutė turi būti rodoma paryškintu šriftu“). Žymėjimo kalbų idėja yra ta, kad vizualinė dokumento išvaizda turėtų būti automatiškai gaunama iš loginio žymėjimo ir neturėtų priklausyti nuo tikrojo jo turinio. Taip lengviau automatiškai apdoroti dokumentą ir rodyti jį skirtingose ​​aplinkose (pavyzdžiui, tas pats failas gali skirtingai pasirodyti kompiuterio ekrane, mobiliojo telefono ekrane ir spausdinimo ekrane, nes šių išvesties įrenginių savybės labai skiriasi). Tačiau ši taisyklė dažnai pažeidžiama: pavyzdžiui, kurdamas dokumentą redaktoriuje, pavyzdžiui, MS Word, vartotojas gali paryškinti antraštes paryškintu šriftu, bet niekur nenurodo, kad ši eilutė yra antraštė.

    Žymėjimo kalbų pavyzdžiai

    Žymėjimo kalbos naudojamos visur, kur reikia formatuoto teksto išvesties: spausdinant (SGML, TeX, PostScript, PDF), kompiuterių vartotojo sąsajose (Microsoft Word, OpenOffice, troff), žiniatinklyje (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL).

    Lengvos žymėjimo kalbos

    Vadinamos kalbos, skirtos lengvam ir greitam teksto rašymui paprastu teksto redaktoriumi pašviesėjo(lt: Lengva žymėjimo kalba). Tokių kalbų ypatybės:

    • Minimalios funkcijos.
    • Nedidelis palaikomų žymų rinkinys.
    • Lengva išmokti.
    • Šaltinio tekstas šia kalba skaitomas taip pat lengvai, kaip ir baigtas dokumentas.

    Jie naudojami ten, kur žmogus turi ruošti tekstą įprastoje teksto rengyklėje (tinklaraščiuose, forumuose, vikiuose) arba kai svarbu, kad tekstą galėtų skaityti ir vartotojas, turintis įprastą teksto rengyklę. Štai keletas dažniausiai naudojamų lengvųjų žymėjimo kalbų:

    • Wiki žymėjimas (žr. Wikipedia: Kaip redaguoti straipsnius)
    • Įvairios automatinio dokumentavimo sistemos (pavyzdžiui, Javadoc).
    Istorija

    Terminas „žymėjimas“ (dėl to paties pavadinimo proceso, angl. žymėjimas) kilęs iš angliškos frazės „ žymėjimas” („žymėjimas (kaip procesas)“, liet. „žymėjimas, žymėjimas“), paimtas iš tradicinės leidybos praktikos rankraščio ar korektūros paraštėse ir tekste prieš siunčiant spausdinti specialius sutartinius užrašus. Taigi „žymėjimo vyrai“ nurodė kiekvienos teksto dalies šriftą, stilių ir šrifto dydį. Šiais laikais teksto žymėjimą atlieka redaktoriai, korektoriai, grafikos dizaineriai – ir, žinoma, patys autoriai.

    GenCode

    Idėją naudoti žymėjimo kalbas kompiuteriniame tekstų apdorojime greičiausiai pirmą kartą pristatė Williamas Tunnicliffe'as. William W. Tunnicliffe) konferencijoje 1967 m. Jis pats pavadino savo pasiūlymą „universaliu kodavimu“ (angl. "bendras kodavimas"). 1970-aisiais Tunnicliffe'as vadovavo GenCode standarto leidybos pramonei kūrimui, o vėliau tapo vieno iš Tarptautinės standartizacijos organizacijos (ISO) komitetų vadovu. Tarptautinė Standartizacijos Organizacija), kuris sukūrė SGML – pirmąją aprašomąją žymėjimo kalbą. Brianas Reidas (ur. Brianas Reidas) disertacijoje, kurią 1980 m. apgynė Carnegie universitete. Carnegie Mellon universitetas), kurdama siūlomą koncepciją, atliko praktinį aprašomojo žymėjimo įgyvendinimą.

    Tačiau šiais laikais žymėjimo kalbų „tėvu“ dažniausiai vadinamas IBM tyrinėtojas Charlesas Goldfarbas. Charlesas Goldfarbas). Pagrindinė koncepcija jam gimė 1969 m., kuriant primityvią dokumentų valdymo sistemą, skirtą advokatų kontoroms. Tais pačiais metais jis dalyvavo kuriant IBM GML kalbą, kuri pirmą kartą buvo pristatyta 1973 m.

    Kai kuriuos ankstyvus kompiuterių žymėjimo kalbų diegimus galima rasti UNIX tipografijos priemonėse, tokiose kaip troff ir nroff. Jie leidžia į dokumento tekstą įterpti formatavimo komandas, kad jis būtų suformatuotas pagal redaktoriaus reikalavimus.

    Leidybos programinės įrangos su WYSIWYG funkcija prieinamumas "ką matote, yra tai, ką jūs gaunate"- „ką matai, tą ir gauni“) pakeitė daugumą šių kalbų tarp paprastų vartotojų, nors rimtuose leidybiniuose darbuose vis dar naudojamas žymėjimas konkrečioms nevaizdinėms teksto struktūroms, o WYSIWYG redaktoriai dabar dažniausiai išsaugo dokumentus formatais, pagrįstais žymėjimo kalbos.

    ΤΕ Χ

    Kitas svarbus leidybos standartas yra ΤΕ Χ, kurį XX amžiaus aštuntajame ir devintajame dešimtmečiuose sukūrė ir vėliau patobulino Donaldas Knuthas. ΤΕ Χ sujungia aukštos kokybės teksto formatavimo ir šrifto aprašymo galimybes, ypač profesionalioms matematikos knygoms. Šiuo metu ΤΕ Χ yra de facto standartas daugelyje mokslo disciplinų. Be Tech, yra LaTeX, kuri yra plačiai naudojama aprašomoji žymėjimo sistema, pagrįsta ΤΕΧ.

    Scribe, GML ir SGML

    Devintojo dešimtmečio pradžioje idėja, kad žymėjimas turėtų sutelkti dėmesį į struktūrinius dokumento aspektus, o išorinį dokumento atvaizdavimą palikti vertėjui, paskatino sukurti SGML. Kalbą sukūrė Goldfarbo vadovaujamas komitetas. Jis sujungė idėjas iš daugelio šaltinių, įskaitant Tunnikoflick projektą, GenCode. Sharon Adler, Anders Berglund ir James A. Marke taip pat buvo pagrindiniai SGML komiteto nariai.

    SGML tiksliai apibrėžė žymėjimo įtraukimo į tekstą sintaksę, taip pat konkrečiai apibūdino, kurios žymos buvo leidžiamos ir kur (DTD – dokumento tipo apibrėžimas). Tai leido autoriams kurti ir naudoti bet kokius norimus žymėjimus, pasirenkant naudotinas žymas ir suteikiant jiems pavadinimus įprasta kalba. Taigi SGML reikėtų laikyti metakalba; iš jo išsivystė kelios specialios žymėjimo kalbos. Devintojo dešimtmečio pabaigoje atsirado naujų SGML pagrindu sukurtų žymėjimo kalbų, tokių kaip TEI ir DocBook.

    1986 m. SGML buvo paskelbtas kaip tarptautinis standartas ISO numeriu 8879. SGML buvo plačiai pripažintas ir buvo plačiai naudojamas labai dideliuose projektuose. Tačiau paprastai buvo nustatyta, kad tai sudėtinga ir sunkiai išmokstama, o šalutinis kalbos poveikis buvo tas, kad ji bandė padaryti per daug ir būti per lanksti. Pavyzdžiui, SGML sukūrė ne visada būtinas uždarymo žymas (arba atidarymo žymas, ar net abi), nes tikėjo, kad šį žymėjimą rankiniu būdu pridės projekto pagalbiniai darbuotojai, kurie įvertintų sutaupytas klavišų paspaudimas.

    HTML

    Iki 1991 m. SGML buvo naudojamas tik verslo programoms ir duomenų bazėms, o WYSIWYG įrankiai (kurie saugojo dokumentus patentuotais dvejetainiais formatais) buvo naudojami kitoms dokumentų apdorojimo programoms. Situacija pasikeitė, kai seras Timas Bernersas-Lee apie SGML sužinojo iš savo kolegos Anderso Berglando. Andersas Berglundas) ir kiti CERN bendradarbiai naudojo SGML sintaksę kurdami HTML. Kalba turėjo panašumų su kitomis SGML sintaksėmis pagrįstomis žymėjimo kalbomis, tačiau ją pradėti buvo daug lengviau net kūrėjams, kurie to niekada anksčiau nedarė. Stevenas DeRose'as teigė, kad HTML, naudojant aprašomąjį žymėjimą (ir ypač SGML), buvo pagrindinis veiksnys kuriant žiniatinklį, nes jis buvo sukurtas atsižvelgiant į lankstumą ir išplečiamumą (taip pat ir kitų veiksnių, įskaitant URL sąvoką ir laisvą naršyklių naudojimą). . Šiais laikais HTML yra patraukliausia ir dažniausiai naudojama žymėjimo kalba pasaulyje.

    Tačiau kai kurie kompiuterių mokslininkai ginčija HTML, kaip žymėjimo kalbos, statusą. Pagrindinis jų argumentas yra tas, kad HTML riboja žymų įdėjimą, todėl abi žymos turi būti įdėtos į kitas žymas arba pagrindines dokumento žymas. Dėl to šie mokslininkai mano, kad HTML yra konteinerio kalba, kuri vadovaujasi hierarchiniu modeliu.

    XML

    XML (Extensible Markup Language) yra šiais laikais plačiai naudojama metažymėjimo kalba. XML sukūrė World Wide Web Consortium komitete, kuriam vadovauja Jonas Bosas. Pagrindinis XML tikslas yra būti paprastesnis nei SGML ir sutelkti dėmesį į konkrečią problemą – dokumentus internete. XML yra metakalba, tokia kaip SGML, vartotojams leidžiama kurti bet kokias jiems reikalingas žymas (taigi „išplečiamas“). XML atsiradimui padėjo tai, kad kiekvienas XML dokumentas galėjo būti parašytas taip pat, kaip ir SGML dokumentas, o programos ir vartotojai, naudojantys SGML, galėjo gana lengvai pereiti prie XML.

    Tačiau XML prarado daug į žmones orientuotų SGML funkcijų, kurios palengvino naudojimą (kol išplėtė žymėjimą ir atgavo skaitomumą bei redaguojamumą tame pačiame lygyje). Kiti patobulinimai ištaisė kai kurias SGML problemas tarptautiniu mastu ir suteikė galimybę hierarchiškai analizuoti dokumentą, net jei nebuvo DTD.

    XML pirmiausia buvo sukurtas pusiau struktūruotoms aplinkoms, tokioms kaip dokumentai ir leidiniai. Tačiau jis buvo laimingas tarp lankstumo ir paprastumo, ir jį greitai priėmė daugelis vartotojų. XML dabar plačiai naudojamas duomenims perduoti tarp programų. Kaip ir HTML, jį galima apibūdinti kaip „konteinerio“ kalbą.

    XHTML

    Nuo 2000 m. sausio mėn. visos W3C rekomendacijos buvo pagrįstos XML, o ne SGML, ir buvo pasiūlytas akronimas XHTML (Extensible HyperText Markup Languge). Kalbos specifikacijos reikalavo, kad XHTML dokumentai būtų formatuojami kaip XML dokumentai, todėl XHTML galima naudoti aiškesniems ir tikslesniams dokumentams naudojant HTML žymas.

    Vienas iš labiausiai pastebimų HTML ir XHTML skirtumų yra taisyklė, kad visos žymos turi būti uždarytos: tuščios žymos, pvz., , turi būti uždarytos standartine uždarymo žyma arba specialiu įrašu: (tarpas prieš „/“ uždarymo žyma yra neprivaloma, bet dažnai naudojama, nes ją naudoja kai kurios iki XML naršyklės ir SGML analizatoriai). Kiti atributai žymose turi būti kabutėse. Galiausiai, visos žymos ir atributų pavadinimai turi būti parašyti mažosiomis raidėmis, kad būtų skaitomi teisingai; HTML neskiria didžiųjų ir mažųjų raidžių.

    Kiti XML pagrįsti patobulinimai

    Dabar naudojama daug XML pagrįstų patobulinimų, tokių kaip RDF (išteklių aprašo sistema), XFORMS, DocBook, SOAP ir OWL (ontologijos žiniatinklio kalba).

    Ypatumai

    Bendra visų žymėjimo kalbų savybė yra ta, kad jos sumaišo dokumento tekstą su žymėjimo instrukcijomis duomenų sraute arba faile. Tai nėra būtina, naudojant rodykles, etiketes, identifikatorius ar kitus koordinavimo būdus, atskirti žymėjimą nuo teksto. Šis „atskiras žymėjimas“ būdingas vidiniam programų, veikiančių su pažymėtais dokumentais, vaizdavimui. Tačiau įterptasis arba „įdėtas“ žymėjimas labiau priimtinas kitur. Pavyzdžiui, čia yra nedidelė teksto dalis, pažymėta naudojant HTML:

    Anatidae

    Šeima Anatidae apima antis, žąsis ir gulbes, bet ne glaudžiai susijusius riksmus.

    Žymėjimo instrukcijos kodas (žinomas kaip žymos) yra kampiniuose skliaustuose. Tekstas tarp šių instrukcijų yra dokumento tekstas. Kodai h1, p Ir em- struktūrinio žymėjimo pavyzdžiai, nusakoma juose esančio teksto padėtis, paskirtis ar prasmė.

    Tiksliau, h1 reiškia „tai pirmo lygio antraštė“ p reiškia „tai pastraipa“ ir em reiškia „tai yra pabrauktas žodis ar frazė“. Vertimo programa gali taikyti šias taisykles ar stilius, kad būtų rodomos skirtingos teksto dalys, naudojant skirtingus šriftus, šriftų dydžius, tarpus, spalvas ar kitus stilius, jei reikia. Žyma, pvz., h1, gali būti pateikta, pavyzdžiui, dideliu, paryškintu tipografiniu šriftu arba dokumente su vienu tarpu esančiu tekstu (kaip rašomąja mašinėle) gali būti pabraukta arba visai nepakeisti jo išvaizdos.

    Norėdami kontrasto, pažymėkite i HTML – vaizdinio žymėjimo pavyzdys; jis dažniausiai naudojamas specifinėms teksto ypatybėms nustatyti (šiame bloke naudokite kursyvą), nepaaiškinant kodėl.

    TEI (Tex Encoding Initiative) paskelbė išsamius rekomendacinius dokumentus, kuriais vadovaujamasi, kaip koduoti tekstą žmonijos ir mokslo visuomenių labui. Šiuose žinynuose buvo koduojami istoriniai dokumentai, konkretūs mokslininkų darbai, periodiniai leidiniai ir pan.

    Alternatyvūs naudojimo būdai

    Nors idėja naudoti žymėjimo kalbas su tekstiniais dokumentais vystėsi, ji padidino žymėjimo kalbų naudojimą kitose srityse, o tai rodo, kad jos gali būti naudojamos įvairių tipų informacijai, įskaitant grojaraščius, vektorinę grafiką, žiniatinklį, pateikti. paslaugas ir vartotojo sąsajas. Dauguma šių programų yra pagrįstos XML, nes tai gerai struktūrizuota ir išplečiama kalba.

    Techninis vertėjo vadovas

    žymėjimo kalba – 06/23/33 žymėjimo kalba: kalba, kurią sudaro integruotos komandos, kurios palaiko teksto žymėjimą jį apdorojant.

    Žymėjimo kalbos

    Žymėjimo (teksto) kalba kompiuterių terminologijoje yra simbolių arba sekų rinkinys, įterpiamas į tekstą, siekiant perduoti informaciją apie jo išvestį arba struktūrą. Priklauso kompiuterinių kalbų klasei. Tekstiniame dokumente, parašytame naudojant žymėjimo kalbą, yra ne tik pats tekstas (kaip žodžių ir skyrybos ženklų seka), bet ir papildoma informacija apie įvairias jo dalis – pavyzdžiui, antraštės, paryškinimai, sąrašai ir pan. sudėtingesnis Kai kuriais atvejais žymėjimo kalba leidžia į dokumentą įterpti interaktyvius elementus ir turinį iš kitų dokumentų.

    Reikėtų pažymėti, kad žymėjimo kalba yra neišsami Turingo kalba ir paprastai nėra laikoma programavimo kalba, nors griežtai taip yra.

    HTML (iš anglų kalbos) Hiperteksto žymėjimo kalba– „hiperteksto žymėjimo kalba“ – maždaug 1986–1991 m. Europos branduolinių tyrimų centre Ženevoje (Šveicarija) sukūrė britų mokslininkas Timas Bernersas-Lee. HTML buvo sukurtas kaip kalba keistis moksline ir technine dokumentacija, tinkama naudoti žmonėms, kurie nėra maketavimo srities specialistai. HTML sėkmingai susidorojo su SGML sudėtingumu, apibrėždamas nedidelį struktūrinių ir semantinių elementų rinkinį, vadinamą deskriptoriais. Deskriptoriai taip pat dažnai vadinami „žymomis“. Naudodami HTML galite lengvai sukurti gana paprastą, bet gražaus dizaino dokumentą. Be dokumento struktūros supaprastinimo, prie HTML pridėtas hiperteksto palaikymas. Multimedijos galimybės buvo pridėtos vėliau.

    Iš pradžių HTML kalba buvo sumanyta ir sukurta kaip dokumentų struktūrizavimo ir formatavimo priemonė, nesusiejant jų su atkūrimo (rodymo) įrankiais. Idealiu atveju tekstas su HTML žymėjimu turėjo būti atkuriamas be stilistinių ir struktūrinių iškraipymų ant įrangos su skirtinga technine įranga (modernaus kompiuterio spalvotas ekranas, vienspalvis organizatoriaus ekranas, riboto dydžio mobiliojo telefono ar įrenginio ekranas ir balso programos tekstų atkūrimas). Tačiau šiuolaikinis HTML naudojimas labai toli nuo jo pradinės paskirties. Pavyzdžiui, žymėti

    , kelis kartus naudojamas puslapiui formatuoti, skirtas dažniausiai pasitaikančių lentelių kūrimui dokumentuose. Bėgant metams pagrindinė HTML platformos nepriklausomybės idėja buvo paaukota dėl šiuolaikinių daugialypės terpės ir grafikos poreikių.

    XML eX tempiamasM arkupL kalba-- išplečiama žymėjimo kalba; tariamas [ ex-em-eml]) yra World Wide Web Consortium (W3C) rekomenduojama žymėjimo kalba. XML specifikacija aprašo XML dokumentus ir iš dalies aprašo XML procesorių (programų, kurios skaito XML dokumentus ir suteikia prieigą prie jų turinio) elgseną. XML buvo sukurta kaip kalba su paprasta formalia sintaksė, patogi kurti ir apdoroti dokumentus programomis, o tuo pačiu patogi žmonėms skaityti ir kurti dokumentus, akcentuojant naudojimąsi internete. Kalba vadinama išplečiama, nes nefiksuoja dokumentuose naudojamo žymėjimo: kūrėjas gali laisvai kurti žymėjimą pagal konkretaus domeno poreikius, ribojamas tik kalbos sintaksinėmis taisyklėmis. Paprastos formalios sintaksės, draugiškumo žmogui, išplečiamumo derinys, taip pat Unicode kodavimas, skirtas dokumentų turiniui atvaizduoti, leido plačiai naudoti tiek patį XML, tiek daug išvestinių specializuotų kalbų, pagrįstų XML. programinės įrangos įvairovė.

    XHTML Ex tempiamasH ypert extM arkupL kalba-- Extensible Hypertext Markup Language) yra XML pagrindu sukurtų tinklalapių žymėjimo kalbų, kurios atkartoja ir išplečia HTML 4 galimybes, šeima. XHTML 1.0 ir XHTML 1.1 specifikacijos yra World Wide Web Consortium rekomendacijos, tačiau jos kūrimas šiuo metu sustojo su rekomendacija naudoti HTML. Naujos XHTML versijos neišleidžiamos.

    Pagrindinis skirtumas tarp XHTML ir HTML yra tai, kaip dokumentas apdorojamas. XHTML dokumentus apdoroja jų pačių modulis (analizatorius) taip pat, kaip ir XML dokumentus. Šio apdorojimo metu kūrėjų padarytos klaidos nėra taisomos.

    XHTML atitinka SGML specifikaciją, nes XML yra jos poaibis. HTML apdorojimo procese turi daug funkcijų ir iš tikrųjų nustojo priklausyti SGML šeimai, kuri yra įtraukta į HTML 5 specifikacijos projektą.

    Naršyklė pasirenka analizatorių, kad apdorotų dokumentą pagal turinio tipo antraštę, gautą iš serverio:

    · HTML – tekstas/html

    · XHTML – aplikacija/xhtml+xml

    · Vietiniam peržiūrai kliente pasirinkimas pagrįstas failo plėtiniu.

    · Internet Explorer iki 8 versijos XHTML dokumentams apdoroti nėra analizatoriaus.

    WML (anglų k.) Belaidžio ryšio žymėjimo kalba-- "belaidžio ryšio žymėjimo kalba") yra dokumentų žymėjimo kalba, skirta naudoti mobiliuosiuose telefonuose ir kituose mobiliuosiuose įrenginiuose, naudojantys WAP standartą.

    Struktūra primena kiek supaprastintą HTML, tačiau yra ir esminių skirtumų, nes WML skirtas įrenginiams, kurie neturi asmeninio kompiuterio galimybių (mažas ekranas, ne visi įrenginiai gali rodyti grafiką, mažas atminties dydis ir pan.): visi informacija yra WML formatu vadinamuosiuose „deniuose“ (angl. denis). Dec yra mažiausias duomenų blokas, kurį serveris gali perduoti. Kalėse yra „kortos“ ( kortelę) (kiekvieną žemėlapį riboja žymos ir ). Vienoje kaladėje visada turi būti bent viena korta, tačiau gali būti ir kelios. Tuo pačiu metu įrenginio ekrane bet kuriuo metu rodoma tik viena kortelė, kurią vartotojas gali perjungti sekdamas nuorodas – tai daroma siekiant sumažinti serveriui pateikiamų informacijos užklausų skaičių; tuo pačiu metu WML puslapių dydis neturėtų viršyti 1–4 kilobaitų.

    VML (anglų k.) Vektoriaus žymėjimo kalba-- vektorinė žymėjimo kalba), kurią Microsoft sukūrė vektorinei grafikai apibūdinti. 1998 m. VML W3C pristatė „Microsoft“, „Macromedia“ ir kiti. Maždaug tuo pačiu metu „Adobe“, „Sun“ ir kelios kitos įmonės pateikė dokumentus apie PGML. Abi šios kalbos vėliau tapo SVG pagrindu.

    PGML (Precision Graphics Markup Language, laisvai išversta į rusų kalbą – „tiksliosios grafikos žymėjimo kalba“) yra XML pagrindu sukurta žymėjimo kalba, naudojama apibūdinti vektorinę grafiką tinklalapyje (schemos, atskiri sąsajos elementai) teksto forma tokiu formatu. XML naudoja vaizdo konstravimo modelį, panašų į PDF ir PostScript. Ją W3C konsorciumui pateikė „Adobe Systems“, IBM, „Netscape Communications“ ir „Sun Microsystems“ 1998 m., tačiau jis nebuvo priimtas kaip rekomenduojama. Beveik tuo pačiu metu „Microsoft“ pateikė svarstyti savo VML projektą, o po metų buvo sukurta pažangesnė SVG kalba, pagrįsta dviejų technologijų idėja. SVG rekomendavo W3C ir jis tapo pagrindiniu vektorinės grafikos aprašymo formatu tinklalapyje.

    SVG (iš anglų k. S suderinamasV veikėjasG rapsai-- Scalable Vector Graphics) -- Scalable Vector Graphics Markup Language, sukurta World Wide Web Consortium (W3C) ir Extensible Markup Language XML pogrupio, skirta apibūdinti dvimatę vektorinę ir mišrią vektorinę/rastrinę grafiką XML formatu. formatu. Palaiko ir nejudamą, ir animuotą interaktyvią grafiką – arba, kitaip tariant, deklaratyvųjį ir scenarijų. Nepalaiko trimačių objektų aprašymo. Tai atviras standartas, kurį rekomenduoja W3C konsorciumas – organizacija, kuri sukūrė tokius standartus kaip HTML ir XHTML. SVG yra pagrįstas VML ir PGML žymėjimo kalbomis. Sukurta nuo 1999 m.

    XBRL eX tempiamasB naudingumasR eksportuojančiųL kalba, liet. Extensible Business Reporting Language yra atviras standartas, skirtas finansinėms ataskaitoms pateikti elektroniniu būdu. XBRL formatas yra pagrįstas išplečiama žymėjimo kalba XML. XBRL naudoja XML sintaksę ir su XML susijusias technologijas, tokias kaip XML vardų sritis, XML schema, XLink ir XPath. Vienas iš XBRL tikslų yra atstovauti ir keistis finansine informacija, pavyzdžiui, įmonės finansinėmis ataskaitomis. XBRL kalbos specifikaciją kuria ir skelbia nepriklausoma tarptautinė organizacija XBRL International, Inc.

    Siekiant pagerinti vizualinį žiniatinklio suvokimą, plačiai naudojama CSS technologija, leidžianti nustatyti vienodus daugelio tinklalapių dizaino stilius. Dar viena naujovė, į kurią verta atkreipti dėmesį – URN (angl.) išteklių pavadinimų sistema. Vienodas šaltinio pavadinimas).

    Populiari pasaulinio žiniatinklio kūrimo koncepcija yra semantinio žiniatinklio kūrimas. Semantinis internetas yra priedas prie esamo pasaulinio žiniatinklio, kuris skirtas tinkle skelbiamą informaciją padaryti suprantamesnę kompiuteriams. Semantinis žiniatinklis yra tinklo sąvoka, kurioje kiekvienas išteklius žmonių kalba būtų pateikiamas su kompiuteriu suprantamu aprašymu. Semantinis internetas atveria prieigą prie aiškiai struktūrizuotos informacijos bet kuriai programai, nepriklausomai nuo platformos ir programavimo kalbų. Programos galės pačios susirasti reikiamus išteklius, apdoroti informaciją, klasifikuoti duomenis, nustatyti loginius ryšius, daryti išvadas ir net pagal šias išvadas priimti sprendimus. Jei semantinis žiniatinklis bus plačiai priimtas ir įgyvendinamas išmintingai, jis gali sukelti interneto revoliuciją. Norėdami sukurti kompiuterio skaitomą šaltinio aprašą, semantinis žiniatinklis naudoja RDF (anglų k.) formatą. Išteklių aprašymo sistema), kuris yra pagrįstas XML sintaksė ir naudoja URI ištekliams identifikuoti. Nauji produktai šioje srityje yra RDFS (angl. RDF schema) ir SPARQL (angl. Protokolas ir RDF užklausų kalba) nauja užklausų kalba, skirta greitai pasiekti RDF duomenis.

    Teksto apdorojimo sistemose papildoma informacija, vadinama žymėjimu, įtraukiama į dokumentą ir atlieka šias funkcijas:

    • konkretaus dokumento loginių elementų išryškinimas;
    • pasirinktų elementų apdorojimo nustatymo funkcijos.

    Įprastos teksto rengyklės turi integruotas komandas šriftams įjungti/išjungti ir kitas, panašias į komandas, skirtas valdyti informacijos išdėstymą ekrane arba spausdinant (vadinamosios Escare sekos). Šis metodas vadinamas komandiniu arba procedūriniu žymėjimu.

    Alternatyvus žymėjimo būdas yra pasirinkti teksto dalį nenurodant, kaip turėtų būti elgiamasi. Tada kitos komandos priskiria, kaip reikia apdoroti fragmentus. Šis žymėjimas vadinamas aprašomuoju. Jame yra žymų teksto elemento pradžioje ir pabaigoje ir nurodoma, kaip interpretuoti šį fragmentą.

    Pakeitę aprašomąjį žymėjimą atitinkančių procedūrų rinkinį, galite pakeisti to paties dokumento išvaizdą. Idėjų apie aprašomąjį žymėjimą plėtra paskatino žymėjimą apibrėžti kaip formalią kalbą. Tai leidžia patikrinti žymėjimo teisingumą ir sumažinti jo apimtį pakeičiant numatytąsias reikšmes.

    Privalumai

    Pagrindinis aprašomojo žymėjimo pranašumas yra jo lankstumas, nes teksto dalys yra pažymėtos kaip „kas jos yra“ (o ne „kaip jos turėtų būti pateikiamos“), o ateityje gali būti parašyta programinė įranga, skirta tvarkyti šias dalis net ne skirtos kalbos kūrėjams. Pavyzdžiui, HTML hipersaitus, kurie iš pradžių buvo skirti vartotojams naršyti tinkle esančių jungčių rinkinyje, vėliau pradėjo naudoti tinklo paieškos ir indeksavimo mechanizmai, įvertinti išteklių populiarumą ir pan.

    Aprašomasis žymėjimas taip pat palengvina dokumento formatavimą, jei reikia, nes formato aprašymas nesusijęs su turiniu. Pavyzdžiui, kursyvas gali būti naudojamas tiek tekstui paryškinti, tiek svetimžodžiams (ar žargonui) žymėti, tiek kitiems tikslams. Tačiau jei žodžiai tiesiog paryškinami (aprašomuoju ar procedūriniu būdu) kursyvu, šio neaiškumo visiškai išspręsti nepavyks. Jei iš pradžių abu atvejai buvo pažymėti skirtingai, kiekvieną iš jų galima performatuoti nepriklausomai nuo kitų. Bendrasis žymėjimas yra kitas aprašomojo žymėjimo pavadinimas.

    Praktikoje skirtingų žymėjimo klasių elementai paprastai egzistuoja bet kurioje sistemoje. Pavyzdžiui, HTML yra ir žymėjimo elementų, kurie yra procedūriniai (b – paryškinti), ir kiti, kurie yra aprašomieji (atributas „blockquote“ arba „href“). HTML taip pat yra PRE elementas, kuris riboja teksto sritį, kuri bus išdėstyta tiksliai taip, kaip įvestas.

    Aprašomosios žymėjimo sistemos

    Dauguma šiuolaikinių aprašomųjų žymėjimo sistemų dokumentus traktuoja kaip hierarchines struktūras (medžius), taip pat suteikia tam tikrų įtaisytųjų kryžminių nuorodų galimybių. Todėl tokie dokumentai gali būti traktuojami ir tvarkomi kaip duomenų bazės, kurių struktūra yra gana gerai apibrėžta (tačiau, kadangi jie neturi tokių griežtų schemų kaip reliacinės duomenų bazės, jos dažniausiai vadinamos „silpnai struktūrizuotomis duomenų bazėmis“).

    Atėjus III tūkstantmečiui, atsirado susidomėjimas nehierarchinių struktūrų dokumentais. Pavyzdžiui, senovės ir religinė literatūra dažniausiai turi retorinę ar prozinę struktūrą (pasakojimas, skyrius, pastraipa ir kt.), taip pat apima pagrindinę informaciją (knygos, skyriai, posmai, eilutės). Kadangi šių modulių ribos dažnai sutampa, jų negalima visiškai užkoduoti naudojant tik medžio struktūros žymėjimo sistemą. Tokias struktūras palaikančios dokumentų modeliavimo sistemos apima MECS, TEI Guidelines, LMNL ir CLIX.

    Terminas „žymėjimas“ kilęs iš tradicinės rankraščių žymėjimo prieš paskelbimą praktikos (ty popierinio rankraščio paraštėse ir tarp eilučių pridedamos simbolinės komandos). Daugelį amžių tai darydavo leidyklos darbuotojai (redaktoriai ir korektoriai), kurie pasižymėdavo, kokiu šriftu, stiliumi ir taško dydžio teksto fragmentus reikia spausdinti, o paskui rankraštį perdavė rinkėjams, kurie, atsižvelgdami į žymėjimą, įvedė tekstą rankiniu būdu. simboliai.

    Šiuo metu yra daug žymėjimo kalbų, tarp plačiausiai žinomų yra DocBook, MathML, SVG, Open eBook, XBRL ir kitos. Jos daugiausia skirtos įvairiems tekstiniams dokumentams atvaizduoti, tačiau specializuotos kalbos gali būti naudojamos ir daugelyje kitų sričių. Žinoma, labiausiai žinoma žymėjimo kalba yra HTML (HyperText Markup Language), vienas iš WWW (World Wide Web) pagrindų.