loading
Preporuke za izradu mrežnih publikacija

Kako bi se građa lakše pronašla na internetu i uspješno pohranila u Hrvatski arhiv weba, potrebno je koristiti normirana rješenja i općeprihvaćene prakse, kako za uređivanje i oblikovanje publikacija tako i za tehnološka i programska rješenja za njihovo objavljivanje na mreži.

1. Uređivanje i oblikovanje mrežnih publikacija

Publikacije moraju sadržavati sljedeće osnovne bibliografske podatke za njihovu identifikaciju:

Naslov
Naslov treba biti jednoznačan i jasan i treba ga navoditi u istom obliku na svim mjestima na publikaciji, npr. na naslovnici, u zaglavlju HTML-a.

Impresum
Gdje se navode podaci o publikaciji:

  • knjige
    • na naslovnici: format HTML
    • na stranici iza naslovne: format PDF
  • časopisi, mrežna mjesta (web sjedišta)
    • na naslovnici
    • u datoteci Impresum

Koje podatke minimalno treba navesti u impresumu:

  • Naslov publikacije:
    • treba ga navoditi u istom obliku na svim mjestima, npr. na naslovnici, u zaglavlju HTML-a
    • ako se radi o prijevodu onda navesti i naslov izvornika
  • Podatak o odgovornosti:
    • ime osobe ili naziv tijela koje je odgovorno za sadržaj i izradu publikacije, npr. autor, urednik
  • ISBN; ISSN:
    • ako nakladnik ili autor objavljuju isti naslov na različitim medijima (papir, elektronički medij) svaki medij ima svoj ISBN, odnosno ISSN
  • Podatak o izdanju:
    • npr. 1. internetsko izdanje ili
      Verzija 2.0
  • Naziv i sjedište nakladnika
    • npr. Zagreb: Fakultet elektrotehnike i računarstva
  • Datum objavljivanja na mreži:
    • datum postavljanja publikacije na mrežu i podatak o učestalosti objavljivanja, tj. datum izlaženja novog broja i datum osuvremenjivanja (zadnje promjene sadržaja)

2. Tehničke preporuke za izradu mrežne publikacije

Poberivost nekog web sjedišta izravno ovisi o načinu na koji se rabe pojedine tehnologije prilikom izrade sjedišta. Ovdje iznesene tehničke preporuke imaju za temeljni cilj osigurati punu poberivost odnosno mogućnost automatske izrade arhivske kopije identične originalu. Poštivanje ovih preporuka donosi i dodatnu korist – bolju vidljivost u svijetu internetskih pretraživača. Naime, različiti pretraživači, poput Googlea, kvalitetnije indeksiraju web sjedišta koja su tehnički prilagođena procesu pobiranja.

Ove su preporuke namijenjene u prvom redu dizajnerima i onima koji realiziraju tehnički dio web sjedišta ili web aplikacije.

Ove su preporuke u potpunosti sukladne s preporukama W3C organizacije, krovnog tijela koje se brine o standardizaciji Web tehnologija, zbog postizanja veće uporabivosti i dostupnosti web-stranica (vidjeti http://www.w3.org/WAI/).

Linkovi i navigacija unutar web sjedišta

Svi sustavi za arhiviranje web sjedišta kao i sustavi za pretraživanje temelje se na robotskim programima koji posjećuju web sjedišta i automatskim radnjama preuzimaju njihov sadržaj. Roboti su u osnovi jednostavni programi i konceptualno su vrlo različiti od uobičajenih web preglednika (browsera). Uobičajeno je da dohvaćaju prvu (zadanu) stranicu web sjedišta, na njoj pronalaze linkove i slijedeći te linkove prikupljaju ostale stranice s tog sjedišta. Da bi ovaj proces ispravno funkcionirao, robot mora prepoznati što je na stranici link koji vodi na neku drugu stranicu.

Za postizanje kvalitetne i cjelovite arhivske kopije dva koraka moraju u cijelosti biti izvršena. Prvi je korak pronalaženje linkova na druge stranice web sjedišta i njihovo prikupljanje.

Drugi važan korak je transformacija linkova u prikupljenom materijalu tako da prikupljene stranice budu pravilno povezane u arhivu kako bi navigacija bila moguća i dok su one smještene na drugoj lokaciji unutar stabla dokumenata. Zbog toga je upotreba relativnih linkova vrlo dobra praksa.

Primjer: Stranica onama.html unutar web stabla nalazi na lokaciji /info/onama.html. Na stranici onama.html nalazi se link koji vodi na početnu stranicu (/index.html) i uključena je slika logotipa koja se nalazi u direktoriju /images.

Preporučuje se: relativni linkovi u odnosu na dokument na kojem se nalaze:
<a href="../index.html">
<img src ="../images/logo.gif>

Ne preporučuje se: apsolutni linkovi - početak staze web sjedišta ili (još lošije) koji u sebi sadrže kompletnu adresu uključujući i naziv poslužitelja.
<a href="/index.html">
<h href="http://www.nasweb.hr/index.html>
<img src="/images/logo.gif">
<img src="http://www.nasweb.hr/images/logo.gif>

Svi će primjeri funkcionirati, a krajnji rezultat u pregledniku će biti isti. No, svi nepoželjni primjeri imaju apsolutne linkove, i kad bi sve stranice bile premještene na neku drugu lokaciju unutar web stabla (npr. /arhiva/2005/), apsolutni linkovi bi pokazivali na pogrešne lokacije.

Praksa korištenja isključivo relativnih linkova ne samo da olakšava ispravno arhiviranje web sjedišta, već olakšava i rukovanje dokumentima ukoliko se pokaže potreba za premještanje na drugu lokaciju, snimanje na disk kako bi se mogli pregledavati offline i slično.

Kad web sjedište nije u cijelosti prikupljeno, najčešći je razlog nemogućnost robota da prepozna linkove unutar stranice. To se uobičajeno događa u situacijama kad su linkovi ostvareni uz pomoć jezika java script korištenjem akcije onClick event ili uz pomoć flash tehnologije. Kako većina robota ne može izvršavati java script, linkovi koji su ostvareni pomoću java scripta obično nisu dostupni robotskim programima.

Preporučuje se: <a href="stranica.html">
Ne preporučuje se: <a href="#" onClick="javascript: otvori_url('stranica.html');">

U gore navedenom primjeru, problem nastaje zbog toga što href atribut ne sadrži URL, odnosno potrebni link, već se do njega dolazi izvršavanjem java script funkcije otvori_url koja se može nalaziti unutar script oznake (HTML tag) u dokumentu. S obzirom da roboti ne izvršavaju java script, linkovi neće biti prepoznati i robot neće prikupiti dokumente na koje ti linkovi upućuju. Isto se događa i kod sjedišta realiziranih u flash tehnologiji.

Ako autori na svojim web sjedištima žele imati dinamičke izbornike koji se ostvaruju java scriptom, stranice će biti uspješno arhivirane kad uz izbornik napravljen u java scriptu sadrže i alternativni način navigacije ostvaren običnim <a href="..."> tagovima (linkovi se mogu postaviti na dno stranice, po jedan za svaku stavku izbornika) i kad su u java script izborniku linkovi relativni (ovo je vrlo važno).

Naime, robot neće prepoznati linkove u java scriptu, ali će ih pronaći u linkovima za alternativnu navigaciju. Takve će se stranice prikupiti, no to još uvijek ne jamči da će navigacija kroz java script izbornik ispravno raditi i unutar arhivirane kopije.

S obzirom da robotski program ne prepoznaje linkove u java scriptu i ne može ih transformirati u relativne, java script funkcija kojom se vrši navigacija mora koristiti relativne linkove.

Uporaba formi za navigaciju

Iako su forme u HTML stranicama inicijalno zamišljene za unos podataka i njihovo slanje na poslužitelj, neki autori ih u određenim situacijama koriste za navigaciju web sjedištem. Jedan od scenarija je uporaba web forme s padajućim izbornikom iz kojeg se odabire stavka i to sa svrhom navigacije u određeni dio web sjedišta. Korisnik odabire stavku padajućeg izbornika i ta akcija vodi korisnika u određeni dio web sjedišta. U ovakvom slučaju robotski programi neće slijediti linkove ostvarene na ovaj način jer roboti nisu programirani da ispunjavaju forme odnosno vrše unos podataka. Čak i odabir stavke iz padajućeg izbornika smatra se unosom podataka.

Ne preporučuje se: navigacija web sjedištem korištenjem forma u HTML stranicama.

Ako nema načina da se to izbjegne, poberivost se može osigurati tako da se negdje unutar web sjedišta, a poželjno na samoj stranici na kojoj se nalazi forma za navigaciju, postave i obični linkovi koji vode na te stranice kao alternativni način navigacije. Ovdje je važno, isto kao i kod izbornika realiziranih u java scriptu, da java script funkcija koja vrši navigaciju radi s relativnim linkovima.

Dinamički generirane stranice

Dinamički generirane stranice rezultat su izvršavanja programa ili nekog skriptnog jezika na poslužitelju. To su tehnologije poput PHP-a, ASP-a, JSP-a i slično. Rad s ovakvim tehnologijama nosi neke svoje specifičnosti koje se odnose i na poberivost takvih web sjedišta. Sadržaj stranica generira se u trenutku dohvata. Može ovisiti o mnogo faktora poput trenutačnog stanja podataka u bazi podataka, prethodnom slijedu navigacije, trenutačnom vremenu na poslužitelju, unosima drugih korisnika i sl. Iako koristimo terminologiju „web stranice“, ovakvi sustavi su mnogo više od toga jer ne poslužuju samo statički HTML koji je uvijek isti, već se radi o ponekad vrlo kompleksnim web aplikacijama, koje koriste višestruke izvore podataka i kompliciranu logiku koja određuje prikaz. Tipični predstavnici takvih aplikacija su: forumi, blogovi, CMS sustavi, web dućani, online katalozi itd. Uz dinamički generirani sadržaj dolazi i dinamičko generiranje linkova, što ponekad dovodi do izuzetno velikog broja različitih URL-ova, koji na različit način prikazuju iste podatke. To može stvoriti poteškoće u prikupljanju, i/ili ga produžiti, uz nepotrebno opterećenje web poslužitelja. Potreba takvih aplikacija da zapamte stanje između pojedinih upita nekog klijenta, za što koriste tzv. sesije (session), dodatno otežava pobiranje. Dobrim dizajnom aplikacije ovakvi se problemi mogu izbjeći.

Uporaba parametara u URL-u:
Preporučuje se: korištenje minimalno potrebnog broja različitih parametara u dinamički generiranim URL-ovima.
Ne preporučuje se: korištenje URL-a za prenošenje parametara između pojedinih stranica.

Rad sa sesijama:
Sesije u web aplikacijama koristite samo na mjestima gdje su potrebne (npr. nakon što se korisnik prijavi u zaštićeni dio web sjedišta).
Preporučuje se: koristiti cookie tehnologiju.
Ne preporučuje se: stavljanje session id-a u generirane URL-ove.

Preporučuje se: koristiti standardne nazive session id varijable (PHPSESSID, session_id).
Ne preporučuje se: koristiti vlastite nazive jer ih je gotovo nemoguće identificirati.

Content Type zaglavlje i MIME:
Preporučuje se: kod dinamičkog generiranja ne-tekstualnih sadržaja važno je ispravno postaviti element ContentType u HTTP zaglavlju. PHP ili neka druga skripta može generirati jpeg ili gif sliku ili ne-tekstualnu datoteku nekog drugog tipa, pri čemu obavezno treba poslati i ispravan ContentType element u HTTP zaglavlju. Isto pravilo vrijedi i kada skripta služi kao 'međusloj' za kontrolirani pristup datotekama (npr. download). Moguće vrijednosti zaglavlja ContentType su definirane MIME standardom.

Ne preporučuje se: praksa stavljanja proizvoljnih vrijednosti jer nije sukladna s internetskim standardima i treba je izbjegavati.

Metapodaci

Metapodaci omogućuju kvalitetnije opisivanje pobranog web sjedišta u arhivu te im je stoga potrebno posvetiti pažnju.

Preporučuje se: opremanje web sjedišta metapodacima, no nije preduvjet za kvalitetno pobiranje web sjedišta.

Naglašavamo kako se pri opremanju metapodacima nužno treba u potpunosti pridržavati nekog standarda.

Preporučuje se:  upotreba standarda Dublin Core (http://dublincore.org). U suprotnom su konačni efekti uporabe metapodataka dvojbeni.

Organizacija informacija

Ovo nije u potpunosti tehničko pitanje, no vezano je uz arhiviranje web sjedišta.
Preporučuje se: dijeljenje informacijskih cjelina u različite direktorije, kad god je moguće. To pomaže administratorima arhiva da preciznije odaberu sadržaj koji će se arhivirati. Postoji više različitih načina na koji informacije mogu biti organizirane, a ova preporuka se odnosi na fizičku lokaciju na kojoj su informacije pohranjene u stablu weba.

Preporučuje se: stavljanje u zaseban direktorij:

  • starih sadržaja koji se žele objaviti na web sjedištu, npr. prethodnih  brojeva časopisa (npr. /arhiva ili /stari_brojevi)
  • dodatne sadržaje ili aplikacije poput foruma (npr. /forum).

 Kad su informacije podijeljene na taj način, administrator sustava može instruirati robotski program da ne preuzima cijelu arhivu starih brojeva ili forum, već samo aktualni broj, što pridonosi bržem prikupljanju, manjem opterećenju poslužitelja, manjoj potrošnji mrežnih resursa i u konačnici kvalitetnijom arhivskom kopijom.