Iezīmēšanas valodas. Dokumentu iezīmēšanas valodas - kāds ir to galvenais mērķis ML nenozīmē "iezīmēšanas valoda"

(Standarta vispārīgā iezīmēšanas valoda), kas sniegta ISO 8879 standartā. Šī valoda ir pieņemta kā galvenā valoda tehniskās dokumentācijas, tostarp interaktīvo elektronisko tehnisko rokasgrāmatu, izstrādei produktiem, kas radīti, izmantojot CALS tehnoloģijas.

SGML definē dokumentu struktūru kā datu objektu secību. Datu objektus, kas attēlo dokumenta daļas, var glabāt dažādos failos. SGML standarts nosaka simbolu un noteikumu kopumu informācijas attēlošanai, kas ļauj dažādām sistēmām pareizi atpazīt un identificēt šo informāciju. Šīs kopas ir aprakstītas atsevišķā dokumenta daļā, ko sauc par DTD deklarāciju(Dokumenta tipa definīcija), kas tiek pārraidīts kopā ar galveno SGML dokumentu. DTD nosaka rakstzīmju un to kodu atbilstību, maksimālo izmantoto identifikatoru garumu, veidu, kā tiek attēloti tagu norobežotāji, citas iespējamās konvencijas, DTD sintakse, kā arī dokumenta veids un versija. Tāpēc SGML var saukt par metavalodu konkrētu iezīmēšanas valodu saimei. Jo īpaši XML iezīmēšanas valodas var uzskatīt par SGML apakškopām un HTML.

Tehniskais apraksts SGML dokumenta formā ietver:

  • galvenais fails ar tehnisko rokasgrāmatu, atzīmēts ar SGML tagiem;
  • entītiju apraksts, ja dokuments pieder grupai, kurā tiek izmantotas vienas un tās pašas vienības un tiek domāta to slava;
  • vārdnīca SGML tagu skaidrošanai;

Tomēr SGML ir grūti iemācīties un lietot. Tāpēc, lai plaši izmantotu marķējumu WWW iesniegtajos dokumentos-tehnoloģijas, 1991. gadā tika izstrādāta vienkāršota HTML valoda, kuras pamatā ir SGML(HyperText Markup Language) un 1996. gadā XML valodu(eXtensible Markup Language), kas kombinācijā ar HTML kļūst par galveno valodu dokumentu prezentēšanai dažādās lietojumprogrammās.

HTML valoda tika izstrādāta, lai plaši izmantotu marķējumu dokumentos, kas tiek prezentēti WWW tehnoloģijās.

HTML apraksts ir ASCII teksts un tajā iekļauta komandu (vadības kodu) secība, ko sauc arī par deskriptoriem vai tagiem. Šo tekstu sauc par HTML dokumentu vai HTML lapu, vai, ja tas ir ievietots tīmekļa serverī, par Web lapu.. Atzīmes tiek ievietotas pareizajās vietās avota tekstā, tās nosaka fontus, defises, grafikas izskatu, saites utt. Izmantojot WWW redaktorus, komandas tiek ievietotas, vienkārši nospiežot atbilstošos taustiņus.

XML, tāpat kā HTML, tiek uzskatīts par SGML apakškopu. Šobrīd XML valoda pretendē uz galveno dokumentu prezentācijas valodu informācijas tehnoloģijās, to var uzskatīt par metavalodu, kas kalpo par pamatu privāto iezīmēšanas valodu veidošanai dažādās lietojumprogrammās. Tajā pašā laikā XML ir ērtāks par SGML, ko nodrošina dažu mazāku SGML iezīmju likvidēšana XML. Apraksti XML formātā ir vieglāk saprotami un pielāgoti lietošanai mūsdienu pārlūkprogrammās vienlaikus saglabājot SGML pamatfunkcijas.

Konkrētām lietojumprogrammām tiek izveidotas savas XML versijas, ko sauc par XML vārdnīcām vai XML lietojumprogrammām. Tādējādi ir izstrādāta XML lietojumprogramma OSD (Open Software Description), lai aprakstītu tekstus ar konkrētiem matemātiskiem simboliem. CALS interesē produkta definīcijas maiņas (PDX) opcija, kas paredzēta datu apmaiņai. Ir vārdnīcas ķīmijai (CML — Chemical Markup Language), bioloģijai (BSML — Bioinformatic Sequence Markup Language) u.c.

iezīmēšanas valodas) ir īpašu instrukciju kopa, ko sauc par tagiem, kas paredzēti, lai dokumentos izveidotu struktūru un noteiktu attiecības starp dažādiem šīs struktūras elementiem. Citiem vārdiem sakot, iezīmēšana parāda, kura dokumenta daļa ir virsraksts, kura ir apakšvirsraksts, kas būtu jāuzskata par autora vārdu utt. Marķējumu iedala stilistiskajā, strukturālajā un semantiskajā iezīmēšanā. Stilistiskais marķējums

Stilistiskais marķējums ir atbildīgs par dokumenta izskatu. Piemēram, HTML šāda veida marķējumā ir ietverti tādi tagi kā (slīpraksts), (treknrakstā), (pasvītrot), (pārsvītrots teksts) utt.

Strukturālais marķējums

Strukturālais marķējums nosaka dokumenta struktūru. Piemēram, HTML valodā par šāda veida iezīmēšanu ir atbildīgi tagi (paragrāfs), (nosaukums), (sadaļa) utt.

Semantiskais marķējums

Semantiskais marķējums informē par datu saturu. Šāda veida iezīmēšanas piemēri ir tagi (dokumenta nosaukums), (kods, ko izmanto kodu sarakstiem), (mainīgais), (autora adrese).

Jebkuras iezīmēšanas valodas pamatjēdzieni ir tagi, elementi un atribūti.

Tagi un elementi.

Tagu un elementu nozīmes bieži tiek sajauktas.

Tagi jeb kontroles deskriptori, kā tos sauc arī, kalpo kā norādījumi programmai, kas klienta pusē parāda dokumenta saturu, lai uzzinātu, ko darīt ar taga saturu. Lai izceltu tagu attiecībā pret dokumenta galveno saturu, tiek izmantotas leņķiekavas: atzīme sākas ar mazāka nekā zīmi (), kurā tiek ievietots instrukciju nosaukums un to parametri. Piemēram, HTML tags norāda, ka nākamajam tekstam jābūt slīprakstā.

Elements ir tagi kopā ar to saturu. Elementa piemērs ir šāda konstrukcija:

Šis teksts ir slīprakstā .

Elements sastāv no sākuma taga (mūsu piemērā tas ir tags ), atzīmes saturs (piemērā tas ir teksts "Tas ir teksts slīprakstā") un beigu atzīme (), lai gan dažreiz HTML, beigu tagu var izlaist.

Atribūti

Lai, definējot elementu, iestatītu parametrus, kas precizē šī elementa īpašības, tiek izmantoti atribūti.

Atribūti sastāv no pāra nosaukums = vērtība, ko var norādīt, definējot elementu sākuma tagā. Jūs varat atstāt atstarpes pa kreisi un pa labi no vienādības simbola. Atribūta vērtība ir norādīta kā virkne, kas ir ievietota vienpēdiņās vai dubultpēdiņās.

Jebkuram tagam var būt atribūts, ja šis atribūts ir definēts.

Kad tiek izmantots atribūts, elementam ir šāda forma:

tagu saturu

Teksts ir līdzināts centrā

Viens sākuma tags var saturēt vairākus atribūtus, piemēram:

Norādītais teksta izmērs un krāsa

Iezīmēšanas valodu attīstības vēsture.

Hiperteksta jēdzienu 1945. gadā ieviesa V. Bušs, un, sākot ar 60. gadiem, sāka parādīties pirmās lietojumprogrammas, kurās izmantoja hiperteksta datus. Tomēr šī tehnoloģija savu galveno attīstību saņēma, kad radās reāla vajadzība pēc mehānisma vairāku informācijas resursu apvienošanai, nodrošinot iespēju izveidot un skatīt nelineāru tekstu.

1986. gadā ISO apstiprināja standartizēto vispārīgo iezīmēšanas valodu. Šī valoda ir paredzēta citu iezīmēšanas valodu izveidei, tā nosaka derīgu tagu kopu, to atribūtus un dokumenta iekšējo struktūru. Tādējādi ir iespējams izveidot savus tagus, kas saistīti ar dokumenta saturu. Tagad kļūst acīmredzams, ka šādus dokumentus ir grūti interpretēt bez iezīmēšanas valodas definīcijas, kas tiek glabāta dokumenta tipa definīcijā (DTD). DTD sagrupē visus valodas noteikumus SGML standartā. Citiem vārdiem sakot, DTD apraksta tagu attiecības savā starpā un to lietošanas noteikumus. Turklāt katrai dokumentu klasei ir definēts savs noteikumu kopums, kas apraksta atbilstošās iezīmēšanas valodas gramatiku. Tādējādi tikai ar DTD palīdzību var pārbaudīt, vai tagi ir pareizi lietoti, un tāpēc tas ir jānosūta kopā ar SGML dokumentu vai jāiekļauj dokumentā.

Tajā laikā papildus SGML bija arī vairākas citas līdzīgas valodas, kas konkurēja savā starpā, taču popularitāte (HTML, kas ir viens no tās pēctečiem) deva SGML nenoliedzamas priekšrocības salīdzinājumā ar saviem kolēģiem.

Izmantojot SGML, varat aprakstīt strukturētus datus, sakārtot dokumentos ietverto informāciju un parādīt šo informāciju kādā standartizētā formātā. Taču tā sarežģītības dēļ SGML galvenokārt tika izmantots, lai aprakstītu citu valodu sintaksi, un dažas lietojumprogrammas strādāja tieši ar SGML dokumentiem. SGML parasti izmanto tikai lielos projektos, piemēram, lai izveidotu vienotu dokumentu pārvaldības sistēmu lielam uzņēmumam.

HTML iezīmēšanas valoda ir daudz vienkāršāka un ērtāka nekā SGML, tās instrukcijas galvenokārt ir paredzētas, lai kontrolētu dokumenta satura attēlošanas procesu ekrānā. HTML kā veidu tehnisko dokumentu marķēšanai izveidoja Tims Berners-Lī 1991. gadā īpaši zinātnieku aprindām. Sākotnēji tā bija tikai viena no SGML lietojumprogrammām.

Neskatoties uz to, ka vienīgais, ko HTML var darīt, ir klasificēt dokumenta daļas un nodrošināt to pareizu attēlošanu pārlūkprogrammā, tā ir vispopulārākā iezīmēšanas valoda. Tas ir tāpēc, ka HTML ir diezgan viegli iemācīties. Viss, kas jums jādara, ir jāapgūst HTML komandas. HTML DTD tiek saglabāts pārlūkprogrammā. Turklāt jāņem vērā, ka HTML ir paredzēts darbam uz visdažādākajām platformām. Bet tam ir vairāki būtiski ierobežojumi:

  • HTML ir fiksēta tagu kopa, un šo kopu nevar paplašināt vai mainīt;
  • HTML valodas tagi parāda tikai to, kā dati ir jāuzrāda, tas ir, dokumenta izskats. HTML neietver informāciju par tagos ietvertā satura nozīmi vai dokumenta struktūru.
  • Loģiskais un vizuālais marķējums

    Ir loģisks un vizuāls marķējums. Pirmajā gadījumā mēs runājam tikai par to, kādu lomu konkrēta dokumenta sadaļa spēlē tās kopējā struktūrā (piemēram, “šī rinda ir virsraksts”). Otrais nosaka, kā tieši šis elements tiks parādīts (piemēram, “šī rindiņa ir jāparāda treknrakstā”). Iezīmēšanas valodu ideja ir tāda, ka dokumenta vizuālajam izskatam jābūt automātiski atvasinātam no loģiskā marķējuma, un tas nedrīkst būt atkarīgs no tā faktiskā satura. Tas atvieglo dokumenta automātisku apstrādi un attēlošanu dažādās vidēs (piemēram, viens un tas pats fails datora ekrānā, mobilā tālruņa ekrānā un drukas ekrānā var parādīties atšķirīgi, jo šo izvadierīču īpašības ievērojami atšķiras). Tomēr šis noteikums bieži tiek pārkāpts: piemēram, veidojot dokumentu tādā redaktorā kā MS Word, lietotājs var izcelt virsrakstus treknrakstā, bet nekur nenorāda, ka šī rinda ir virsraksts.

    Iezīmēšanas valodu piemēri

    Iezīmēšanas valodas tiek izmantotas visur, kur nepieciešama formatēta teksta izvade: drukāšanā (SGML, TeX, PostScript, PDF), datoru lietotāja saskarnēs (Microsoft Word, OpenOffice, troff), globālajā tīmeklī (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL).

    Vieglas iezīmēšanas valodas

    Tiek izsauktas valodas, kas paredzētas vienkāršai un ātrai teksta rakstīšanai vienkāršā teksta redaktorā atviegloti(lv: Viegla iezīmēšanas valoda). Šādu valodu iezīmes:

    • Minimālās funkcijas.
    • Neliels atbalstīto tagu komplekts.
    • Viegli iemācīties.
    • Avota teksts šajā valodā tiek lasīts tikpat viegli kā gatavais dokuments.

    Tos izmanto, ja personai ir jāsagatavo teksts parastā teksta redaktorā (emuāros, forumos, wiki), vai arī, ja ir svarīgi, lai lietotājs ar parastu teksta redaktoru varētu arī lasīt tekstu. Tālāk ir norādītas dažas bieži lietotās vieglās iezīmēšanas valodas.

    • Wiki marķējums (skatiet Wikipedia: Kā rediģēt rakstus)
    • Dažādas automātiskās dokumentācijas sistēmas (piemēram, Javadoc).
    Stāsts

    Termins “marķēšana” (tāda paša nosaukuma procesa rezultātā, angļu val. atzīmes) nāk no angļu valodas frāzes " atzīmēšana” (“marķēšana (kā process)”, lit. “marķēšana, marķēšana”), kas ņemta no tradicionālās izdevējdarbības prakses, pirms rokraksta vai korektūras nosūtīšanas drukāšanai malās un tekstā ievieto īpašas konvencionālas piezīmes. Tādējādi “iezīmēšanas vīrieši” katrai teksta daļai norādīja burtveidolu, stilu un fonta lielumu. Mūsdienās teksta iezīmēšanu veic redaktori, korektori, grafiskie dizaineri – un, protams, paši autori.

    GenCode

    Ideju par iezīmēšanas valodu izmantošanu datora tekstapstrādei, visticamāk, pirmo reizi ieviesa Viljams Tuniklifs. Viljams V. Tuniklifs) konferencē 1967. gadā. Viņš pats savu priekšlikumu nosauca par “universālu kodēšanu” (eng. "vispārējs kodējums"). 70. gados Tunniklifs vadīja GenCode standarta izstrādi izdevējdarbībai un vēlāk kļuva par vienas no Starptautiskās standartizācijas organizācijas (ISO) komiteju vadītāju. Starptautiskā standartizācijas organizācija), kurš izveidoja SGML — pirmo aprakstošo iezīmēšanas valodu. Braiens Reids (ur. Braiens Reids) savā disertācijā, kuru viņš aizstāvēja 1980. gadā Kārnegi universitātē. Kārnegija Melona universitāte), izstrādājot piedāvāto koncepciju, veica aprakstošā marķējuma praktisko ieviešanu.

    Tomēr mūsdienās par iezīmēšanas valodu “tēvu” parasti dēvē IBM pētnieku Čārlzu Goldfarbu. Čārlzs Goldfarbs). Pamatkoncepcija viņam dzima 1969. gadā, strādājot pie primitīvas dokumentu pārvaldības sistēmas, kas paredzēta advokātu birojiem. Tajā pašā gadā viņš piedalījās IBM GML valodas izveidē, kas pirmo reizi tika ieviesta 1973. gadā.

    Dažas agrīnas datoru iezīmēšanas valodu ieviešanas var atrast UNIX tipogrāfijas utilītprogrammās, piemēram, troff un nroff. Tie ļauj dokumenta tekstā ievietot formatēšanas komandas, lai formatētu to atbilstoši redaktora prasībām.

    Publicēšanas programmatūras ar WYSIWYG funkciju pieejamība "Tas, ko redzat, ir tas, ko jūs saņemat"- "tas, ko redzat, tas ir tas, ko jūs saņemat") ir aizstājis lielāko daļu šo valodu parasto lietotāju vidū, lai gan nopietns publicēšanas darbs joprojām izmanto iezīmēšanu īpašām nevizuālām teksta struktūrām, un WYSIWYG redaktori tagad visbiežāk saglabā dokumentus formātos, kuru pamatā ir iezīmēšanas valodas.

    ΤΕ Χ

    Vēl viens svarīgs publicēšanas standarts ir ΤΕ Χ, ko izveidoja un pēc tam uzlaboja Donalds Knuts divdesmitā gadsimta 70. un 80. gados. ΤΕ Χ apvieno augstas kvalitātes teksta formatēšanas un fontu apraksta iespējas, īpaši profesionālas kvalitātes matemātikas grāmatām. Pašlaik ΤΕ Χ ir de facto standarts daudzās zinātnes disciplīnās. Papildus Tech ir LaTeX, kas ir plaši izmantota aprakstošā iezīmēšanas sistēma, kuras pamatā ir ΤΕΧ.

    Scribe, GML un SGML

    Astoņdesmito gadu sākumā ideja, ka iezīmēšanai jākoncentrējas uz dokumenta strukturālajiem aspektiem un dokumenta ārējais attēlojums jāatstāj tulka ziņā, noveda pie SGML izveides. Valodu izstrādāja Goldfarba vadītā komiteja. Viņš apvienoja idejas no daudziem avotiem, tostarp Tunenikoflick projekta GenCode. Sharon Adler, Anders Berglund un James A. Marke arī bija galvenie SGML komitejas locekļi.

    SGML precīzi definēja sintaksi marķējuma iekļaušanai tekstā, kā arī īpaši aprakstīja, kuri tagi ir atļauti un kur (DTD — dokumenta tipa definīcija). Tas ļāva autoriem izveidot un izmantot jebkuru vēlamo marķējumu, izvēloties izmantojamos tagus un piešķirot tiem nosaukumus parastā valodā. Tādējādi SGML būtu jāuzskata par metavalodu; no tā ir attīstījušās vairākas īpašas iezīmēšanas valodas. Astoņdesmito gadu beigās parādījās jaunas iezīmēšanas valodas, kuru pamatā ir SGML, piemēram, TEI un DocBook.

    1986. gadā SGML tika publicēts kā starptautisks standarts ar ISO numuru 8879. SGML ir atradis plašu piekrišanu un ir plaši izmantots ļoti lielos projektos. Tomēr kopumā tika konstatēts, ka tas ir apgrūtinošs un grūti apgūstams, un valodas blakusefekts bija tas, ka tā mēģināja darīt pārāk daudz un būt pārāk elastīga. Piemēram, SGML izveidoja ne vienmēr nepieciešamos beigu tagus (vai atvēršanas tagus, vai pat abus), jo uzskatīja, ka šo marķējumu manuāli pievienos projekta atbalsta personāls, kurš novērtētu taustiņsitienu ietaupījumu.

    HTML

    Līdz 1991. gadam SGML tika izmantots tikai biznesa programmām un datu bāzēm, un WYSIWYG rīki (kas glabāja dokumentus patentētos bināros formātos) tika izmantoti citām dokumentu apstrādes programmām. Situācija mainījās, kad sers Tims Berners-Lī uzzināja par SGML no sava kolēģa Andersa Berglanda. Anderss Berglunds) un citi CERN līdzstrādnieki izmantoja SGML sintaksi, lai izveidotu HTML. Valodai bija līdzības ar citām uz SGML sintaksi balstītām iezīmēšanas valodām, taču to bija daudz vieglāk sākt izmantot pat izstrādātājiem, kuri to nekad iepriekš nebija darījuši. Stīvens Derouzs apgalvoja, ka HTML, kas izmanto aprakstošos marķējumus (un jo īpaši SGML), bija galvenais faktors tīmekļa attīstībā, jo tas tika izstrādāts ar elastību un paplašināmību (kā arī citiem faktoriem, tostarp vietrāžu URL koncepciju un pārlūkprogrammu brīvu izmantošanu). . Mūsdienās HTML ir vispievilcīgākā un visbiežāk lietotā iezīmēšanas valoda pasaulē.

    Tomēr daži datorzinātnieki apstrīd HTML kā iezīmēšanas valodas statusu. Viņu galvenais arguments ir tāds, ka HTML ierobežo tagu izvietošanu, pieprasot, lai abi tagi būtu ligzdoti citos tagos vai dokumenta galvenajos tagos. Rezultātā šie zinātnieki uzskata, ka HTML ir konteinera valoda, kas seko hierarhiskam modelim.

    XML

    XML (Extensible Markup Language) ir mūsdienās plaši izmantota meta iezīmēšanas valoda. XML izstrādāja World Wide Web Consortium komitejā, kuru vadīja Jons Bosaks. Galvenais XML mērķis ir būt vienkāršākam par SGML un koncentrēties uz konkrētu problēmu – dokumentiem internetā. XML ir metavaloda, piemēram, SGML, lietotājiem ir atļauts izveidot visus nepieciešamos tagus (tātad "paplašināmus"). XML attīstība tika veicināta, jo katru XML dokumentu varēja rakstīt tāpat kā SGML dokumentu, un programmas un lietotāji, kas izmanto SGML, varēja diezgan viegli migrēt uz XML.

    Tomēr XML zaudēja daudzas uz cilvēkiem orientētas SGML funkcijas, kas padarīja to vieglāk lietojamu (līdz tas paplašināja iezīmēšanas apjomu un atguva lasāmību un rediģējamību tajā pašā līmenī). Citi uzlabojumi izlaboja dažas SGML problēmas starptautiskā mērogā un ļāva hierarhiski parsēt dokumentu pat tad, ja nebija pieejams DTD.

    XML galvenokārt tika izstrādāts daļēji strukturētām vidēm, piemēram, dokumentiem un publikācijām. Tomēr tas radīja laimīgu vidi starp elastību un vienkāršību, un daudzi lietotāji to ātri pieņēma. XML tagad plaši izmanto datu pārsūtīšanai starp programmām. Tāpat kā HTML, to var raksturot kā "konteinera" valodu.

    XHTML

    Sākot ar 2000. gada janvāri, visi W3C ieteikumi tika balstīti uz XML, nevis SGML, un tika ierosināts saīsinājums XHTML (Extensible HyperText Markup Languge). Valodas specifikācijas paredzēja, ka XHTML dokumenti ir jāformatē kā XML dokumenti. Tas ļauj XHTML izmantot skaidrākiem un precīzākiem dokumentiem, izmantojot HTML tagus.

    Viena no ievērības cienīgākajām atšķirībām starp HTML un XHTML ir noteikums, ka visiem tagiem ir jābūt aizvērtiem: tukšiem tagiem, piemēram, abiem jābūt slēgtiem ar standarta beigu tagu vai īpašu ierakstu: (atstarpe pirms "/" beigu tags nav obligāts, taču to bieži izmanto, jo to izmanto dažas pārlūkprogrammas pirms XML un SGML parsētāji). Citiem atzīmju atribūtiem jābūt pēdiņās. Visbeidzot, visi tagi un atribūtu nosaukumi ir jāraksta ar mazajiem burtiem, lai tos pareizi nolasītu; HTML nav reģistrjutīgs.

    Citas uz XML balstītas izstrādes

    Tagad tiek izmantotas daudzas uz XML balstītas izstrādes, piemēram, RDF (resursu apraksta ietvars), XFORMS, DocBook, SOAP un OWL (ontoloģijas tīmekļa valoda).

    Īpatnības

    Visu iezīmēšanas valodu kopīga iezīme ir tā, ka tās sajauc dokumenta tekstu ar iezīmēšanas instrukcijām datu straumē vai failā. Tas nav nepieciešams, marķējumu var izolēt no teksta, izmantojot norādes, etiķetes, identifikatorus vai citus koordinācijas paņēmienus. Šis "atsevišķs marķējums" ir raksturīgs to programmu iekšējai attēlošanai, kuras strādā ar iezīmētiem dokumentiem. Tomēr iegultais vai "iekļauts" marķējums ir vairāk pieņemts citur. Šeit, piemēram, ir neliela teksta daļa, kas atzīmēta, izmantojot HTML:

    Anatidae

    Ģimene Anatidae ietver pīles, zosis un gulbjus, bet ne ar tiem cieši saistītos kliedzējus.

    Marķēšanas instrukcijas kods (pazīstams kā tagi) ir ievietots leņķa iekavās. Teksts starp šiem norādījumiem ir dokumenta teksts. Kodi h1, lpp Un em- strukturālo marķējumu piemēri, tie raksturo tajos ietvertā teksta pozīciju, mērķi vai nozīmi.

    Precīzāk, h1 nozīmē "šis ir pirmā līmeņa virsraksts" lpp nozīmē "šī ir rindkopa" un em nozīmē "šis ir pasvītrotais vārds vai frāze". Tulkošanas programma var lietot šos noteikumus vai stilus, lai attēlotu dažādas teksta daļas, izmantojot dažādus burtveidolus, fontu izmērus, atstarpes, krāsas vai citus stilus pēc vajadzības. Atzīmes, piemēram, h1, var, piemēram, attēlot ar lielu, treknu tipogrāfisku fontu, vai dokumentā ar vienu atstarpes tekstu (kā rakstāmmašīnā) var būt pasvītrots vai tas var vispār nemainīt izskatu.

    Lai iegūtu kontrastu, atzīmējiet i HTML valodā - vizuālās iezīmēšanas piemērs; to parasti izmanto, lai identificētu konkrētas teksta iezīmes (šajā blokā izmantojiet slīprakstu), nepaskaidrojot, kāpēc.

    TEI (Tex Encoding Initiative) ir publicējusi visaptverošus vadlīniju dokumentus, lai vadītu teksta kodēšanu cilvēces un zinātnisko sabiedrību labā. Šīs rokasgrāmatas tika izmantotas, lai kodētu vēsturiskus dokumentus, konkrētus zinātnieku darbus, periodiskos izdevumus utt.

    Alternatīvi lietojumi

    Lai gan ideja par iezīmēšanas valodu izmantošanu teksta dokumentos ir attīstījusies, tā ir palielinājusi iezīmēšanas valodu izmantošanu citās jomās, liekot domāt, ka tās var izmantot dažāda veida informācijas attēlošanai, tostarp atskaņošanas sarakstus, vektorgrafiku, tīmekli. pakalpojumus un lietotāja saskarnes. Lielākā daļa šo lietojumprogrammu ir balstītas uz XML, jo tā ir labi strukturēta un paplašināma valoda.

    Tehniskā tulkotāja rokasgrāmata

    iezīmēšanas valoda — 06/23/33 iezīmēšanas valoda: valoda, kas sastāv no iebūvētām komandām, kas nodrošina atbalstu teksta iezīmēšanai tā apstrādes laikā.

    Iezīmēšanas valodas

    Iezīmēšanas (teksta) valoda datoru terminoloģijā ir simbolu vai secību kopums, kas ievietots tekstā, lai sniegtu informāciju par tā izvadi vai struktūru. Pieder datorvalodu klasei. Teksta dokuments, kas rakstīts, izmantojot iezīmēšanas valodu, satur ne tikai pašu tekstu (kā vārdu un pieturzīmju secību), bet arī papildu informāciju par dažādām tā daļām - piemēram, virsrakstu, izcēlumu, sarakstu u.c. norādi. sarežģītāks Dažos gadījumos iezīmēšanas valoda ļauj dokumentā ievietot interaktīvus elementus un saturu no citiem dokumentiem.

    Jāatzīmē, ka iezīmēšanas valoda ir Tjūringa nepilnīga un parasti netiek uzskatīta par programmēšanas valodu, lai gan stingri runājot, tā tā ir.

    HTML (no angļu valodas) Hiperteksta iezīmēšanas valoda-- “hiperteksta iezīmēšanas valoda”) – izstrādāja britu zinātnieks Tims Berners-Lī aptuveni 1986.–1991. gadā Eiropas Kodolpētījumu centrā Ženēvā (Šveice). HTML tika izveidots kā valoda zinātniskās un tehniskās dokumentācijas apmaiņai, kas piemērota lietošanai cilvēkiem, kuri nav maketēšanas jomas speciālisti. HTML veiksmīgi tika galā ar SGML sarežģītību, definējot nelielu strukturālo un semantisko elementu kopu, ko sauc par deskriptoriem. Deskriptorus bieži sauc arī par "tagiem". Izmantojot HTML, jūs varat viegli izveidot salīdzinoši vienkāršu, bet skaisti noformētu dokumentu. Papildus dokumenta struktūras vienkāršošanai HTML ir pievienots hiperteksta atbalsts. Multivides iespējas tika pievienotas vēlāk.

    Sākotnēji HTML valoda tika iecerēta un izveidota kā līdzeklis dokumentu strukturēšanai un formatēšanai, nesaistot tos ar reproducēšanas (displeja) rīkiem. Ideālā gadījumā tekstu ar HTML marķējumu vajadzētu reproducēt bez stilistiskiem un strukturāliem kropļojumiem uz iekārtām ar dažādu tehnisko aprīkojumu (mūsdienīga datora krāsains ekrāns, organizatora vienkrāsains ekrāns, ierobežota izmēra mobilā tālruņa vai ierīces ekrāns un balss programmas tekstu atskaņošana). Tomēr mūsdienu HTML izmantošana ir ļoti tālu no tā sākotnējā mērķa. Piemēram, tag

    , vairākkārt izmantots lapas formatēšanai, paredzēts visbiežāk sastopamo tabulu veidošanai dokumentos. Gadu gaitā HTML platformas neatkarības pamatideja ir upurēta mūsdienu multivides un grafikas vajadzībām.

    XML eX stiepjamsM arkupL valoda-- paplašināma iezīmēšanas valoda; izrunā [ ex-em-eml]) ir iezīmēšanas valoda, ko iesaka World Wide Web Consortium (W3C). XML specifikācija apraksta XML dokumentus un daļēji apraksta XML procesoru (programmas, kas nolasa XML dokumentus un nodrošina piekļuvi to saturam) uzvedību. XML tika veidots kā valoda ar vienkāršu formālu sintaksi, ērta dokumentu veidošanai un apstrādei ar programmām un vienlaikus ērta cilvēkiem lasīt un veidot dokumentus, liekot uzsvaru uz lietošanu internetā. Valoda tiek saukta par paplašināmu, jo tā nefiksē dokumentos izmantotos marķējumus: izstrādātājs var brīvi izveidot marķējumu atbilstoši konkrēta domēna vajadzībām, ko ierobežo tikai valodas sintaktiskie noteikumi. Vienkāršas formālās sintakses, draudzīguma cilvēkiem, paplašināmības kombinācija, kā arī tā pamatā ir Unicode kodējums dokumentu satura attēlošanai, ir novedis pie tā, ka plaši tiek izmantots gan pats XML, gan daudzas atvasinātas specializētas valodas, kuru pamatā ir XML. dažādas programmatūras.

    XHTML Ex stiepjamsH ypert extM arkupL valoda-- Extensible Hypertext Markup Language) ir uz XML balstītu tīmekļa lapu iezīmēšanas valodu saime, kas atkārto un paplašina HTML 4 iespējas. XHTML 1.0 un XHTML 1.1 specifikācijas ir World Wide Web Consortium ieteikumi, taču to izstrāde ir pašlaik pārtraukta ar ieteikumu izmantot HTML. Jaunas XHTML versijas netiek izlaistas.

    Galvenā atšķirība starp XHTML un HTML ir dokumenta apstrāde. XHTML dokumentus apstrādā savs modulis (parsētājs) tāpat kā XML dokumentus. Šīs apstrādes laikā izstrādātāju pieļautās kļūdas netiek labotas.

    XHTML atbilst SGML specifikācijai, jo XML ir tā apakškopa. HTML apstrādes procesā ir daudz funkciju, un tas faktiski vairs nepieder SGML saimei, kas ir ietverta HTML 5 specifikācijas projektā.

    Pārlūkprogramma atlasa parsētāju, lai apstrādātu dokumentu, pamatojoties uz satura tipa galveni, kas saņemta no servera:

    · HTML - teksts/html

    · XHTML - pieteikums/xhtml+xml

    · Vietējai skatīšanai klientā atlase tiek veikta, pamatojoties uz faila paplašinājumu.

    · Programmā Internet Explorer līdz 8. versijai XHTML dokumentu apstrādei nav parsētāja.

    WML (angļu valodā) Bezvadu iezīmēšanas valoda-- "bezvadu iezīmēšanas valoda") ir dokumentu iezīmēšanas valoda lietošanai mobilajos tālruņos un citās mobilajās ierīcēs, kurās tiek izmantots WAP standarts.

    Struktūra atgādina nedaudz vienkāršotu HTML, taču ir arī būtiskas atšķirības, jo WML ir paredzēts ierīcēm, kurām nav personālo datoru iespējas (mazs ekrāns, ne visas ierīces var attēlot grafiku, mazs atmiņas apjoms utt.): visas informācija ir ietverta WML tā sauktajos “klājos” (eng. klājs). Dec ir minimālais datu bloks, ko serveris var pārsūtīt. Klājos ir “kārtis” ( karti) (katru karti ierobežo atzīmes un ). Vienmēr vienā kāršu komplektā jābūt vismaz vienai kārtei, taču tās var būt vairākas. Tajā pašā laikā ierīces ekrānā jebkurā laikā tiek parādīta tikai viena karte, un lietotājs var pārslēgties starp tām, sekojot saitēm - tas tiek darīts, lai samazinātu informācijas pieprasījumu skaitu serverim; tajā pašā laikā WML lapu izmērs nedrīkst pārsniegt 1-4 kilobaitus.

    VML (angļu valodā) Vektoru iezīmēšanas valoda-- vektoru iezīmēšanas valoda), ko izstrādājusi Microsoft, lai aprakstītu vektorgrafiku. VML 1998. gadā W3C ieviesa Microsoft, Macromedia un citi Aptuveni tajā pašā laikā Adobe, Sun un vairāki citi uzņēmumi iesniedza dokumentus par PGML. Abas šīs valodas vēlāk kļuva par SVG pamatu.

    PGML (Precision Graphics Markup Language, brīvi tulkota krievu valodā - "precīzās grafikas iezīmēšanas valoda") ir uz XML balstīta iezīmēšanas valoda, ko izmanto, lai tīmekļa lapā aprakstītu vektorgrafiku (diagrammas, atsevišķus interfeisa elementus) teksta veidā šādā formātā. XML izmanto attēlu veidošanas modeli, kas ir līdzīgs PDF un PostScript. 1998. gadā to W3C konsorcijam iesniedza Adobe Systems, IBM, Netscape Communications un Sun Microsystems, taču tas netika pieņemts kā ieteikts. Gandrīz vienlaikus Microsoft iesniedza izskatīšanai savu VML projektu, un gadu vēlāk tika izstrādāta progresīvāka SVG valoda, kuras pamatā bija ideja par divām tehnoloģijām. SVG ir ieteicis W3C, un tas ir kļuvis par primāro formātu vektorgrafikas aprakstīšanai tīmekļa lapā.

    SVG (no angļu valodas. S kabeļuV aktierisG rapsi-- Mērogojama vektorgrafika) -- Mērogojama vektorgrafikas iezīmēšanas valoda, ko izveidojis World Wide Web Consortium (W3C) un Extensible Markup Language XML apakškopa, ir paredzēta, lai aprakstītu divdimensiju vektorgrafiku un jauktu vektoru/rastra grafiku XML formātā. formātā. Atbalsta gan nekustīgu, gan animētu interaktīvu grafiku vai, citiem vārdiem sakot, deklaratīvo un skriptu. Neatbalsta trīsdimensiju objektu aprakstu. Tas ir atvērts standarts, ko ieteicis W3C konsorcijs, organizācija, kas izstrādāja tādus standartus kā HTML un XHTML. SVG pamatā ir VML un PGML iezīmēšanas valodas. Izstrādāts kopš 1999. gada.

    XBRL eX stiepjamsB lietderībaR eksportēL valoda, lit. Extensible Business Reporting Language ir atvērts standarts finanšu pārskatu sniegšanai elektroniski. XBRL formāts ir balstīts uz paplašināmu iezīmēšanas valodu XML. XBRL izmanto XML sintaksi, kā arī ar XML saistītas tehnoloģijas, piemēram, XML nosaukumvietu, XML shēmu, XLink un XPath. Viens no XBRL mērķiem ir pārstāvēt un apmainīties ar finanšu informāciju, piemēram, uzņēmuma finanšu pārskatiem. XBRL valodas specifikāciju izstrādā un publicē neatkarīga starptautiska organizācija XBRL International, Inc.

    Lai uzlabotu tīmekļa vizuālo uztveri, plaši tiek izmantota CSS tehnoloģija, kas ļauj daudzām tīmekļa lapām iestatīt vienotus dizaina stilus. Vēl viens jauninājums, kam vērts pievērst uzmanību, ir URN resursu nosaukumu sistēma. Vienots resursa nosaukums).

    Populārs globālā tīmekļa attīstības jēdziens ir semantiskā tīmekļa izveide. Semantiskais tīmeklis ir esošā globālā tīmekļa papildinājums, kas paredzēts, lai tīklā ievietoto informāciju padarītu saprotamāku datoriem. Semantiskais tīmeklis ir tīkla jēdziens, kurā katrs resurss cilvēku valodā būtu nodrošināts ar datoram saprotamu aprakstu. Semantiskais tīmeklis paver piekļuvi skaidri strukturētai informācijai jebkurai lietojumprogrammai neatkarīgi no platformas un programmēšanas valodām. Programmas pašas varēs atrast nepieciešamos resursus, apstrādāt informāciju, klasificēt datus, identificēt loģiskās sakarības, izdarīt secinājumus un pat pieņemt lēmumus, pamatojoties uz šiem secinājumiem. Ja semantiskais tīmeklis tiek plaši pieņemts un saprātīgi ieviests, tas var izraisīt revolūciju internetā. Lai izveidotu datorlasāmu resursa aprakstu, semantiskais tīmeklis izmanto RDF (angļu) formātu. Resursu apraksta ietvars), kuras pamatā ir XML sintakse un resursu identificēšanai izmanto URI. Jaunie produkti šajā jomā ir RDFS (eng. RDF shēma) un SPARQL (ang. Protokolu un RDF vaicājumu valoda) jauna vaicājumu valoda ātrai piekļuvei RDF datiem.

    Tekstapstrādes sistēmās dokumentā tiek iekļauta papildu informācija, ko sauc par iezīmēšanu, un tā veic šādas funkcijas:

    • dotā dokumenta loģisko elementu izcelšana;
    • funkciju iestatīšana atlasīto elementu apstrādei.

    Tradicionālajos tekstapstrādes programmās ir iebūvētas komandas fontu ieslēgšanai/izslēgšanai un citas, līdzīgas komandām informācijas izvietošanas kontrolei ekrānā vai drukāšanas laikā (tā sauktās Escare secības). Šo pieeju sauc par komandu vai procesuālo iezīmēšanu.

    Alternatīva iezīmēšanas metode ir teksta daļas atlasīšana, nenorādot, kā ar atlasi rīkoties. Citas komandas pēc tam piešķir, kā fragmenti jāapstrādā. Šo marķējumu sauc par aprakstošu. Tas ietver atzīmes teksta elementa sākumā un beigās un norāda, kā interpretēt šo fragmentu.

    Mainot procedūru kopu, kas atbilst aprakstošajam marķējumam, varat mainīt tā paša dokumenta izskatu. Ideju attīstība par aprakstošo iezīmēšanu noveda pie iezīmēšanas kā formālas valodas definīcijas. Tas ļauj pārbaudīt marķējuma pareizību un samazināt tā apjomu, aizstājot noklusējuma vērtības.

    Priekšrocības

    Aprakstošās iezīmēšanas galvenā priekšrocība ir tā elastība, jo teksta fragmenti tiek atzīmēti kā "kas tie ir" (nevis kā "kā tie būtu jāatveido"), un nākotnē var tikt rakstīta programmatūra, lai apstrādātu šos fragmentus tādā veidā, kas nav pat ko paredzējuši valodas dizaineri. Piemēram, HTML hipersaites, kas sākotnēji bija paredzētas lietotājiem, lai pārvietotos pa savienojumu kopumu tīklā, vēlāk sāka izmantot meklēšanas un indeksēšanas mehānismi tīklā, lai novērtētu resursu popularitāti utt.

    Aprakstošais marķējums arī atvieglo dokumenta pārformatēšanu, ja nepieciešams, jo formāta apraksts nav saistīts ar saturu. Piemēram, slīpraksts var izmantot vai nu teksta izcelšanai, svešvārdu (vai slengu) atzīmēšanai vai citiem mērķiem. Tomēr, ja vārdi ir vienkārši izcelti (aprakstoši vai procesuāli) kā slīpraksts, šo neskaidrību nevar pilnībā atrisināt. Ja abi gadījumi sākotnēji tika apzīmēti atšķirīgi, katru no tiem var pārformatēt neatkarīgi no citiem. Vispārējais marķējums ir cits aprakstošā marķējuma nosaukums.

    Praksē dažādu marķējumu klašu elementi parasti pastāv līdzās jebkurā noteiktā sistēmā. Piemēram, HTML satur gan procesuālus iezīmēšanas elementus (b treknrakstā), gan citus, kas ir aprakstoši (atribūts "blockquote" vai "href"). HTML ietver arī PRE elementu, kas ierobežo teksta apgabalu, kas tiks novietots tieši tā, kā tas ir ierakstīts.

    Aprakstošās iezīmēšanas sistēmas

    Lielākā daļa mūsdienu aprakstošo iezīmēšanas sistēmu apstrādā dokumentus kā hierarhiskas struktūras (kokus), kā arī nodrošina dažas iespējas iebūvētai savstarpējai atsaucei. Tāpēc šādus dokumentus var uzskatīt un apstrādāt kā datu bāzes, kuru struktūra ir diezgan labi definēta (tomēr, tā kā tiem nav tik stingru shēmu kā relāciju datu bāzēm, tos parasti sauc par "vāji strukturētām datu bāzēm").

    Līdz ar 3. tūkstošgades iestāšanos interese radās par nehierarhisku struktūru dokumentiem. Piemēram, antīkajai un reliģiskajai literatūrai parasti ir retoriska vai prozas struktūra (stāsts, sadaļa, rindkopa utt.), un tajā ir iekļauta arī fona informācija (grāmatas, nodaļas, strofas, rindas). Tā kā šo moduļu robežas bieži pārklājas, tos nevar pilnībā kodēt, izmantojot tikai koka strukturētu iezīmēšanas sistēmu. Dokumentu modelēšanas sistēmas, kas atbalsta šādas struktūras, ietver MECS, TEI vadlīnijas, LMNL un CLIX.

    Termins "marķējums" nāk no tradicionālās manuskriptu marķēšanas prakses pirms publicēšanas (tas ir, simbolisku komandu pievienošana papīra manuskripta malās un starp rindām). Daudzus gadsimtus to darīja izdevniecības darbinieki (redaktori un korektori), kuri atzīmēja, kāda fonta, stila un punkta lieluma teksta fragmenti ir jāraksta, un pēc tam nodeva manuskriptu saliktājiem, kuri manuāli ierakstīja tekstu, ņemot vērā marķējumu. simboliem.

    Pašlaik ir daudz iezīmēšanas valodu, starp visplašāk pazīstamajām ir DocBook, MathML, SVG, Open eBook, XBRL un citas. Tās galvenokārt paredzētas dažādu teksta dokumentu attēlošanai, bet specializētās valodas var izmantot arī daudzās citās jomās. Protams, vispazīstamākā iezīmēšanas valoda ir HTML (HyperText Markup Language), kas ir viens no WWW (World Wide Web) pamatiem.