Saatavilla Euroopan unionin avoin data
EUROPAEU:n avoimen datan portaaliSanasto
Menu
Yleiskatsaus Työkalut Koulutusmateriaali Projektit Sandbox

SANASTO

ADMS

(Asset Description Metadata Schema) Sanasto, joka kuvaa yhteentoimivuusominaisuuksia, jotta tieto- ja viestintätekniikan kehittäjät voivat tutkia ja hakea niitä. ADMS:n avulla julkishallinnot, yritykset, standardointielimet ja korkeakoulut voivat

 • kuvata semanttisia ominaisuuksia yleisesti, jotta tieto- ja viestintätekniikan kehittäjät voivat hakea ristiin ja löytää niitä helposti keskitetystä yhteyspisteestä
 • hakea, tunnistaa, noutaa ja vertailla uudelleen käytettäviä semanttisia ominaisuuksia keskitetystä yhteyspisteestä, jolloin vältetään päällekkäisyydet ja kallis suunnittelutyö
 • ylläpitää omaa dokumentointi- ja tallennusjärjestelmää semanttisille ominaisuuksille
 • parantaa omien ominaisuuksiensa indeksointia ja näkyvyyttä
 • yhdistää semanttiset ominaisuudet toisiinsa rajat ja sektorit ylittävissä tilanteissa.

Lähde: https://joinup.ec.europa.eu/asset/adms/description

API 

(Application Programming Interface) Ohjelmointirajapinta.

Tapa, jolla tietokoneohjelmat keskustelevat keskenään. Voidaan ymmärtää myös tapana, jolla ohjelmoija lähettää komentoja ohjelmien välillä.

Lähde: http://schoolofdata.org/handbook/appendix/glossary

AVOIMET STANDARDIT 

Yleensä teknisiä standardeja, joita eivät koske lisensointiin liittyvät rajoitukset. Voidaan tulkita tarkoittavan myös toimittajista riippumattomasti kehitettyjä standardeja.

Lähde: http://schoolofdata.org/handbook/appendix/glossary

 

CKAN

Tiedonhallintajärjestelmä, joka mahdollistaa tietojen saatavuuden tarjoamalla työkaluja tietojen sujuvaan julkaisemiseen, jakamiseen, löytämiseen ja käyttämiseen. CKAN on tarkoitettu tietojen julkaisijoille (kansalliset ja alueelliset hallinnot, yritykset ja organisaatiot), jotka haluavat tarjota avointa dataa.

Lähde: http://ckan.org/

CORDIS

Julkinen arkisto ja portaali, jonka kautta Euroopan komissio jakaa tietoa kaikista EU-rahoitusta saavista tutkimushankkeista ja niiden tuloksista.

Lähde: http://cordis.europa.eu/home_en.html

CSV

(Comma Separated Values) Tiedostomuoto, jota käytetään tietojen vaihtamiseen erilaisten sovellusten välillä. CSV-tiedostomuotoa voidaan käyttää KSpread-, OpenOffice Calc- ja Microsoft Excel -laskentataulukkosovelluksissa. Useat muut sovellukset tukevat CSV-muotoa tietojen tuomisessa tai viemisessä.

Lähde: http://edoceo.com/utilitas/csv-file-format

DATAJOUKKO 

Toisiinsa liittyvien tietoaineistojen kokoelma, joka koostuu erillisistä osista mutta jota voidaan käsitellä yksikkönä ja käyttää tai ladata yhdessä tai useammassa muodossa.

DCAT 

Tietoluettelosanasto.

RDF-sanasto tietoluetteloiden yhteentoimivuutta varten.

Ks. myös W3C – http://www.w3.org/TR/vocab-dcat

DCAT-AP 

DCAT-sovellusprofiili. DCAT-sanastoon perustuva yleinen sanasto eurooppalaisissa dataportaaleissa isännöityjen datajoukkojen kuvaamiseen.

Ks. myös https://joinup.ec.europa.eu/asset/dcat_application_profile/description

DCMI

(Dublin Core Metadata Initiative) Avoin organisaatio, joka tukee metatietojen innovatiivista suunnittelua ja metatietoekologian parhaita käytäntöjä.

Lähde: http://dublincore.org/

ELI

Eurooppalainen lainsäädäntötunnus, joka mahdollistaa kansallisen ja EU:n lainsäädännön yksilöllisen tunnistamisen ja hakemisen verkossa ja helpottaa lainsäädännön saatavuutta, vaihtoa ja uudelleen käyttämistä viranomaisille, ammattikäyttäjille, tutkijoille ja kansalaisille. ELI mahdollistaa virallisten lehtien semanttisen verkon.

Lähde: https://en.wikipedia.org/wiki/European_Legislation_Identifier

FOAF

(Friend Of A Friend) Koneluettava sanasto, joka kuvaa henkilöitä, heidän toimintaansa sekä suhteitaan toisiin ihmisiin ja kohteisiin. FOAF mahdollistaa ihmisryhmien sosiaalisten verkostojen kuvaamisen ilman keskitettyä tietokantaa.

Lähde: https://en.wikipedia.org/wiki/FOAF_%28ontology%29

HAKUKONEOPTIMOINTI

Prosessi, jolla pyritään parantamaan verkkosivuston tai verkkosivun näkyvyyttä hakukoneen maksuttomissa tuloksissa.

Lähde: https://en.wikipedia.org/wiki/Search_engine_optimization

IMMC

Pienin metatietoelementtien joukko, niin kutsuttu IMMC-ydinmetatieto, jota käytetään tiedonvaihdossa.

Lähde: http://publications.europa.eu/mdr/core-metadata/

 

ISA 

(Interoperable Solutions for European Public Administrations)

Euroopan komission rahoittama ohjelma, jolla pyritään helpottamaan maiden ja/tai hallinnonalojen rajat ylittäviä toimia eurooppalaisten julkishallintojen välillä.

ISA² on vuosina 2010–2015 toimineen ISA:n jatko-ohjelma. ISA² toimii vuodesta 2016 vuoteen 2020.

JOUKKOLATAUS 

Lataus, joka sisältää useista kokoelmista peräisin olevia tiedostoja, jotka voidaan hakea kerralla.

 

JSON

(JavaScript Object Notation) Avoimen standardin muoto, joka välittää attribuutti–arvo-parista muodostuvia tieto-objekteja ihmisen luettavassa muodossa olevan tekstin avulla. JSON on yleisin asynkronisessa selaimen ja palvelimen välisessä viestinnässä (AJAJ) käytetty tietomuoto.

Lähde: https://en.wikipedia.org/wiki/JSON

JULKISHALLINNON AVOIN DATA 

Julkisten elinten keräämä, tuottama tai maksama tieto, joka on käytettävissä vapaasti uudelleen mihin tahansa tarkoitukseen.

 

JÄSENNELTY TIETO 

Tietueen tai tiedoston kiinteiden kenttien sisältämä tieto. Relaatiotietokannat ja laskentataulukot ovat esimerkkejä jäsennellystä tiedosta. Vaikka XML-tiedostojen tieto ei sijaitse kiinteästi tietyssä paikassa kuten perinteisen tietokannan tietueet, se on kuitenkin jäsenneltyä, koska tieto on merkitty ja se voidaan yksilöidä tarkasti.

Lähde: PC Magazine encyclopaedia – http://www.pcmag.com/encyclopedia/term/52162/structured-data

KOLMIKKO, KOLMIKKOTIETOKANTA 

Kolmikkotietokanta on tietokanta, joka on rakennettu semanttisilla kyselyillä haettavien kolmikoiden tallentamista ja noutamista varten. Kolmikko on tietoyksikkö, joka muodostuu subjektista, predikaatista ja objektista, kuten ”Pekka on 35” tai ”Pekka tuntee Matin”.

Relaatiotietokannan tapaan tieto tallennetaan kolmikkotietokantaan, ja sitä haetaan kyselykielellä. Toisin kuin relaatiotietokanta kolmikkotietokanta on optimoitu kolmikkojen tallentamiseen ja noutamiseen. Kyselyjen lisäksi kolmikkoja voidaan yleensä tuota tai viedä RDF-muodossa ja muissa muodoissa.

Lähde: Wikipedia.org – http://en.wikipedia.org/wiki/Triplestore

KONELUETTAVA 

Koneluettava tieto on sellaisessa muodossa olevaa tietoa, jota tietokoneohjelma pystyy tulkitsemaan. Koneluettavia tietoja on kahta tyyppiä:

 • Ihmisen luettavassa muodossa olevat tiedot merkittynä siten, että myös tietokoneet pystyvät ymmärtämään niitä, esimerkiksi mikromuodot ja RDFa.
 • Pääasiassa tietokoneille tarkoitetut tietomuodot, esimerkiksi RDF, XML ja JSON.

KOOSTE (MASHUP) 

Monesta lähteestä peräisin olevien useiden datajoukkojen yhdistelmä, joka muodostaa uuden palvelun, visualisoinnin tai tiedon.

 

 

LINKITETTY DATA 

Linkitetty data kuvaa menetelmää julkaista jäsenneltyjä tietoja siten, että ne voidaan linkittää toisiinsa. Sen perustana ovat verkkoteknologiastandardit, kuten HTTP ja URI, mutta se ei käytä niitä verkkosivujen näyttämiseen ihmislukijoille, vaan jakaa niiden avulla tietoja siten, että tietokoneet voivat lukea niitä automaattisesti.

Lähde: http://www.wikipedia.org

LINKITETYN DATAN PERIAATTEET

Linkitetyn datan periaatteet tarjoavat verkossa oleville tiedoille yleisen API-rajapinnan, joka on kätevämpi kuin monta erillistä ja erikseen suunniteltua yksittäisten tietojen toimittajien julkaisemaa API-rajapintaa. World Wide Webin keksijä ja linkitettyyn dataan liittyvän projektin käynnistäjä Tim Berners-Lee on ehdottanut seuraavia periaatteita linkitetyn datan perustaksi:

 • Käytä URI-tunnisteita asioiden nimeämiseen.
 • Käytä HTTP-muotoisia URI-tunnisteita, jotta ihmiset ja käyttäjäagentit voivat viitata asioihin ja hakea niitä.
 • Kun joku hakee URI-tunnistetta, tarjoa hyödyllistä tietoa käyttämällä avoimen verkon standardeja (esimerkiksi RDF tai SPARQL).
 • Tarjoa linkkejä muihin aiheeseen liittyviin URI-tunnisteisiin, kun julkaiset verkossa.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#linked-data-principles

 

METATIETO 

Metatieto on jäsenneltyä tietoa, joka kuvailee, selittää tai paikantaa tietoresurssin tai muulla tavoin helpottaa sen hakemista, käyttämistä tai hallinnoimista. Metatietoa kutsutaan usein myös tiedoksi tiedosta.

Lähde: NISO – http://www.niso.org/publications/press/UnderstandingMetadata.pdf

 

METATIETOREKISTERI (MDR) 

Metatietorekisteri on tärkeä yhteentoimivuus- ja standardointityökalu. Sinne viedään ylläpidettäväksi EU:n eri toimielinten käyttämiä määritelmätietoja (kuten metatietoelementtejä, viranomaisten nimiluetteloita ja malleja).

http://publications.europa.eu/mdr/index.html

ONTOLOGIA 

Muodollinen malli, joka mahdollistaa tiettyä aluetta koskevan tietämyksen esittämisen. Ontologia kuvaa olemassa olevien asioiden tyyppejä (luokat), niiden välisiä suhteita (ominaisuudet) ja loogisia tapoja, joilla luokkia ja ominaisuuksia voidaan käyttää yhdessä (aksioomat).

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#ontology

 

PDF

(Portable Document Format) Tiedostomuoto, jonka avulla asiakirjoja voidaan esittää ja vaihtaa ohjelmistoista, laitteista tai käyttöjärjestelmistä riippumatta. Kansainvälisen standardisoimisjärjestön ylläpitämä avoin standardi.

Lähde: https://acrobat.adobe.com/be/en/products/about-adobe-pdf.html

PSI 

(Public Sector Information) Suuri määrä tietoja, joita julkisen sektorin elimet keräävät, tuottavat, jäljentävät ja jakavat monilla toiminta-aloilla institutionaalisia tehtäviään suorittaessaan.

Tiedot asetetaan saataville eri lisenssien mukaisesti, jotka eivät aina ole avoimia.

RAAKATIETO 

Ilmaisu, joka viittaa alkuperäisessä tilassa olevaan tietoon, jota ei ole käsitelty, koostettu tai muokattu millään tavoin.

RDF 

(Resource Description Framework)

Tiedonvaihtoa verkossa koskevien kansainvälisten standardien perhe. RDF perustuu ajatukseen siitä, että asioita yksilöidään verkkotunnisteiden tai HTTP-URI-tunnisteiden avulla ja resursseja kuvataan yksinkertaisilla ominaisuuksilla ja ominaisuuden arvoilla.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#rdf

RDFa

(Resource Description Framework in Attributes) W3C:n suositus, joka lisää joukon attribuuttitason laajennuksia HTML-, XHTML- ja XML-tyyppisille asiakirjoille rakenteisen metatiedon sisällyttämiseksi verkkoasiakirjoihin.

Lähde: https://en.wikipedia.org/wiki/RDFa

RESURSSI 

Datajoukon fyysinen kuvaus. Resurssi voi olla mikä tahansa tiedosto, linkki muualla verkossa olevaan tiedostoon tai linkki API-rajapintaan. Esimerkiksi jos tieto toimitetaan useassa muodossa tai jaettuna eri alueisiin tai ajanjaksoihin, kukin tiedosto on erilainen resurssi, joka on kuvattava erikseen.

 

SANASTO 

Kokoelma termejä tiettyä tarkoitusta varten. Sanastot voivat olla yksinkertaisia, kuten laajasti käytetty RDF-malli, FOAF ja Dublin Core Metadata Element Set, tai tuhansia termejä sisältäviä ja monimutkaisia, kuten oireiden, sairauksien ja hoitojen kuvaamiseen terveydenhuollossa käytetyt sanastot. Sanastoilla on hyvin suuri merkitys tietojen linkittämisessä, erityisesti tiedon integroinnin tukemisessa. Termiä käytetään päällekkäisesti ontologia-termin kanssa.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#vocabulary

 

SDMX

(Statistical Data and Metadata Exchange) Kansainvälinen aloite, jonka tavoitteena on standardoida ja nykyaikaistaa tilastotietojen ja metatietojen vaihdon mekanismit ja prosessit kansainvälisissä organisaatioissa ja niiden jäsenvaltioissa.

Lähde: https://en.wikipedia.org/wiki/SDMX

SEMANTTINEN VERKKO 

World Wide Webin laajennus tai osa, joka koostuu koneluettavista tiedoista RDF-muodossa ja josta kyseisiä tietoja voidaan kysellä vakiotavoilla (esim. SPARQL-kielen avulla).

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#semantic-web

 

SOLR

Avoimen lähdekoodin yrityshakualusta. Sen tärkeimpiä ominaisuuksia ovat tekstihaku, osuman korostus, fasettihaku, reaaliaikainen indeksointi, dynaaminen ryhmittely, tietokannan integrointi ja muotoiltujen asiakirjojen (esim. Word, PDF) käsittely.

Lähde: https://en.wikipedia.org/wiki/Apache_Solr

SPARQL 

(Sparql Protocol And RDF Query Language) RDF-tietojen kyselykieli, joka vastaa relaatiotietokantojen SQL-kieltä (Structured Query Language).

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#sparql

SPARQL-PÄÄTEPISTE 

Palvelu, joka hyväksyy SPARQL-kyselyitä ja palauttaa vastauksia niihin SPARQL-vastausjoukkoina. Paras käytäntö datajoukon tarjoajille on mahdollistaa tiedon saatavuus ohjelmakoodin tai web-rajapinnan kautta antamalla SPARQL-päätepisteensä URL-osoite.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#sparql-endpoint

(TIEDON-) HARAVOINTI  

Koneluettavassa muodossa olevan tiedon poimiminen muista kuin puhtaista tietolähteistä, kuten verkkosivuilta tai PDF-asiakirjoista. Lähde lisätään usein etuliitteeksi (verkkoharavointi, PDF-haravointi).

Lähteet: http://en.wikipedia.org/wiki/Data_scraping

http://schoolofdata.org/handbook/appendix/glossary

 

(TIEDON-) LOUHINTA 

Suurien jo olemassa olevien tietokantojen tutkiminen uusien tietojen tuottamiseksi.

Lähde: http://www.oxforddictionaries.com

Esimerkiksi eräs yhdysvaltalainen päivittäistavaraketju käytti Oracle-ohjelmiston tiedonlouhintavalmiutta paikallisten ostotottumusten analysointiin. Havaittiin, että kun miehet ostivat vaippoja torstaisin ja lauantaisin, he ostivat usein myös olutta. Tarkempi analyysi osoitti, että kyseiset ostajat tekivät yleensä viikoittaiset päivittäistavaraostoksensa lauantaisin. Torstaisin he kuitenkin ostivat vain muutaman tuotteen. Vähittäiskauppias päätteli, että he ostivat olutta, jotta sitä olisi valmiina tulevaa viikonloppua varten. Päivittäistavaraketju voi hyödyntää havaittua tietoa monin tavoin tulojen lisäämiseksi. Esimerkiksi olutvalikoima voitaisiin siirtää lähemmäksi vaippavalikoimaa. Lisäksi ketju voisi varmistaa, että olutta ja vaippoja myydään täydellä hinnalla torstaisin.

Lähde: http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm

 

 (TIETOJEN) INDEKSOINTI 

Hakurobotti on ohjelma, joka käy verkkosivustoilla ja lukee niiden sivuja ja muita tietoja ja luo niistä merkintöjä hakukonehakemistoon. Kaikilla verkon suurimmilla hakukoneilla on kyseinen ohjelma, jota kutsutaan myös hakuagentiksi.

Lähde: http://searchsoa.techtarget.com/definition/crawler

Kun verkosta kerätään tietoja, indeksointi-termillä viitataan usein myös tietojen haravointiin. Näillä termeillä on eroa: indeksointi viittaa suurten datajoukkojen käsittelyyn siten, että kehitetään hakurobotteja, jotka indeksoivat verkkosivuja läpikotaisin. Tietojen haravointi taas tarkoittaa tietojen hakemista mistä tahansa lähteestä, ei välttämättä verkosta.

Lähde: https://www.promptcloud.com/blog/data-scraping-vs-data-crawling

(TIEDON) JÄSENNYS 

Tiedon jakaminen pienempiin osiin tiettyjen sääntöjen mukaan, jotta tietokoneen on helpompi tulkita, hallita tai välittää sitä.

Lähde: http://www.businessdictionary.com/definition/parsing.html

(TIETO-) VEDOS 

Järjestelmästä tai sijainnista toiseen siirretty suuri tietomäärä.

Lähde: http://www.oxforddictionaries.com

 

TIETOKANTA

Tietokanta on teosten, tietojen tai muiden itsenäisten aineistojen kokoelma, joka on järjestetty järjestelmällisellä tai menetelmällisellä tavalla ja johon elektronisesti tai muulla tavoin on mahdollistettu yksilöllinen pääsy.

URI 

(Uniform Resource Identifier)

Merkkijono, joka yksilöi lähes kaiken, esimerkiksi fyysisen rakennuksen tai abstraktimpeja käsitteitä, kuten värit.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#uniform-resource-identifier

URL 

(Uniform Resource Locator)

Yleinen tunnus, jota kutsutaan tavallisesti verkko-osoitteeksi.  Kaikki HTTP-URL-osoitteet ovat URI-tunnisteita, mutta kaikki URI-tunnisteet eivät ole URL-osoitteita.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#uniform-resource-locator

URN

(Uniform Resource Name) URI-tunnisteen vanha nimi.

Lähde: https://en.wikipedia.org/wiki/Uniform_Resource_Name

WEB 1.0 

World Wide Webin ensimmäinen sukupolvi, jolle ovat ominaisia erilliset, muuttumattomat verkkosivustot jatkuvasti päivittyvien verkkopäiväkirjojen ja sosiaalisen verkostoitumisen työkalujen sijaan.

Lähde: http://en.wiktionary.org/wiki/Web_1.0

WEB 2.0 

Arkikielinen kuvaus World Wide Webin osasta, johon kuuluvat sosiaaliset verkostot, blogit, käyttäjien kommentit ja arviot, sekä niihin liittyvä ihmiskeskeinen toiminta.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#web-2.0

WEB 3.0  

Arkikielinen kuvaus World Wide Webin osasta, johon kuuluvat koneluettavat tiedot ja mahdollisuus tehdä hajautettuja kyselyjä ja analysoida kyseisiä tietoja. Termillä tarkoitetaan samaa kuin ilmaisuilla semanttinen verkko ja tiedon verkko.

Lähde: W3C – http://www.w3.org/TR/ld-glossary/#web-3.0

XML

(Extensible Markup Language) Merkintäkieli, joka määrittelee sääntöjoukon asiakirjojen koodaamiseen sekä ihmisen että koneen luettavassa muodossa.

Lähde: https://en.wikipedia.org/wiki/XML

YHTEENTOIMIVUUS 

Järjestelmien kyky vaihtaa tietoja ja käyttää vaihdettuja tietoja.