La oss bare rydde det ut av veien først som sist; metadata er gull! Dette er en rask illustrasjon av hvorfor.

I stuen min hjemme, står det i rundt regnet 300 bøker, og fordi jeg er glad i system og orden har jeg jeg registrert alle ISBN-numrene på bøkene mine. Bøkene er fordelt på to kategorier; lest og ulest. ISBN-numrene gir meg detaljert informasjon om de ulike bøkene og gir meg også muligheten til å finne ut hva andre synes om de samme bøkene via nettsteder som BookCrossing og andre lignende nettsteder. Dessverre var jeg litt sløv når jeg registrerte mine bøker, og en god del ble registrert feil slik at tallenes tale er at jeg har 233 uleste bøker og kun 84 leste bøker — mens virkeligheten nok er at tallene er langt jevnere, med flere leste enn uleste bøker. Så selv om metadata er gull, er verdien av det proporsjonal med kvaliteten.

En av de enkleste formene for metadata en har om bøker, er tittelen. Illustrasjonen under viser ordene brukt i titlene til bøkene mine, hvor størrelse tilsvarer hyppighet.

[![Ordsky av bøker](http://hvassing.com/wp-content/uploads/2011/12/ordsky-av-b%C3%B8ker.png "Ordsky av bøker")](http://hvassing.com/wp-content/uploads/2011/12/ordsky-av-b%C3%B8ker.png)Ordsky ut i fra titlene til bøkene i bokhylla, både lest og ulest. Vanlige engelske ord er fjernet fra grafikken. Laget med Wordle.net
Det burde med andre ord ikke være noen tvil om hva jeg har studert, og hvilken tegneserie jeg helst leser. Også her sniker det seg inn feil på grunn av dårlige data. For eksempel har både ordene ‘ross’ og ‘kemp’ sneket seg inn i titlene, til tross for at det er forfatteren på en serie bøker jeg har.

Det er er rundt 923 ord samlet i alle titlene, hvorav disse er ca. 564 unike ord. Ordet ‘the’ går igjen hele 103 ganger, med ‘of’ på andreplass med 46.

Jeg har 21 bøker av forfatteren ‘Scott’ (men bare 12 av forfatteren ‘Adams’ — noe som virker veldig merkelig ettersom forfatteren av Dilbert heter Scott Adams). Igjen er kvaliteten på datamaterialet så-som-så, forfatteren som går igjen oftest heter ‘by’…

Så fort en har alle ISBN-numrene, kan en begynne å hente ned forsidene til bøkene. Så kan man sette disse bildene sammen for en rask oversikt over hvilke bøker en har.

[![](http://hvassing.com/wp-content/uploads/2011/12/collage_resized-1024x896.jpg "Sammenstilling av nesten alle forsidene")](http://hvassing.com/wp-content/uploads/2011/12/collage_resized.jpg)Sammenstilling av nesten alle forsidene
Også her er det noen feil og mangler, blant annet er det ett bilde med teksten ‘No photo available’. I tillegg er det ikke likt format på alle bildene og på noen av bildene er det lagt på en hvit bord rundt forsiden, noe som gjør at proporsjonene ikke nødvendigvis er lik for alle bildene.

Ser en på utgivelsesår– hvor dette er registrert — er 2007 på toppen blant mine bøker, med 2001 som nummer to. Den eldste boka jeg har ble utgitt i 1939. Disse tallene må taes med en god klype salt, ettersom jeg bare har årstall for 80 av bøkene.

Ut i fra metadataene samlet for bøkene, er det helt tydelig at jeg foretrekker nyere bøker fremfor gamle, som enten handler om media, økonomi eller Dilbert.

Dette var en rask illustrasjon av hvorfor metadata er viktig og tilfører en verdi til det originale datasettet. Hadde jeg også ‘tagget’ bøkene og gitt dem fornuftige merkelapper, ville jeg for eksempel kunne hente ut hvilke bøker som handler om de samme temaene eller Konklusjonen er den samme som nevnt innledningsvis, at metadata er gull — så lenge kvaliteten er god!

Spørsmålet er egentlig bare hva jeg skal gjøre videre med disse metadataene?