{"id":23,"date":"2011-05-22T20:30:00","date_gmt":"2011-05-22T17:30:00","guid":{"rendered":"http:\/\/tuijasonkkila.fi\/?p=23"},"modified":"2024-09-20T13:25:34","modified_gmt":"2024-09-20T10:25:34","slug":"kuratointia","status":"publish","type":"post","link":"https:\/\/tuijasonkkila.fi\/?p=23","title":{"rendered":"Kuratointia"},"content":{"rendered":"<h4>HS Open #2<\/h4>\n<p>HS Open kakkonen <a href=\"http:\/\/blogit.hs.fi\/hsnext\/kutsu-hs-open-2-seurataan-rahaa-23-5\">on huomenna<\/a>, ja sinne olen min\u00e4kin menossa. Mielenkiintoinen p\u00e4iv\u00e4 tulossa! Luupin alla ovat mm. eduskuntavaalit 2011. Rahoittajia l\u00f6ytyi, ehdokkaita oli, vaalit k\u00e4ytiin. Mit\u00e4 muuta t\u00e4st\u00e4 spektaakkelista voi p\u00e4\u00e4tell\u00e4 numeroiden valossa?<\/p>\n<p>L\u00e4hdet\u00e4\u00e4n liikkeelle datasta.<\/p>\n<p>Keskeist\u00e4 aineistoa HS Open kakkosen Politiikka-ryhm\u00e4lle ovat <a href=\"http:\/\/blogit.hs.fi\/hsnext\/avodataa-hs-openiin-mista-kansanedustajat-saivat-rahaa\">ehdokkaiden ilmoitukset kampanjoiden menoista ja ilmoitukset tukijoista<\/a>. Arvokasta taustainformaatiota tuovat mm. <a href=\"http:\/\/blogit.yle.fi\/kehitys-kehittyy\">YLE:n vaalikonetiedot<\/a>.<\/p>\n<p>Kaksi taulukkoa, kaksi omistajatahoa. Voiko taulukot yhdist\u00e4\u00e4 jonkin yhteisen, uniikin sarakkeen avulla? Ei voi, n\u00e4ill\u00e4 tiedoilla. Mit\u00e4\u00e4n <i>Vaaliehdokas-ID<\/i> -avainta ei ole olemassa. Henkil\u00f6tunnus tietysti kaikilla ehdokkailla on, mutta sit\u00e4 ei saa julkaista eik\u00e4 hy\u00f6dynt\u00e4\u00e4. YLE:n taulukkorivit (ehdokkaat) on yksil\u00f6ity ID-numerolla, mutta se on taulukon tuottamisen sivutuote. Ehdokasnumero taas on vaalipiirikohtainen. Puoluerahoitusvalvonnan aineistossa ei ole mit\u00e4\u00e4n avainsaraketta. Tarvitaan siis yhteinen nimitt\u00e4j\u00e4.<\/p>\n<p>YLE:n aineistossa on mainittu ehdokkaista sukunimi ja kutsumaetunimi. Puoluerahoitusvalvonnan datassa taas sukunimi ja kaikki nimet, joista jokin on todenn\u00e4k\u00f6isesti kutsumanimi. Riitt\u00e4isik\u00f6 etu- ja sukunimen yhdist\u00e4minen avaimeksi? Ehk\u00e4 ei, sill\u00e4 kaimoja saattaa olla. Puolueen lyhenteen lis\u00e4\u00e4minen per\u00e4\u00e4n olisi kai jo aika varmaa? Harmi, ett\u00e4 lyhenne l\u00f6ytyy vain rahoitusdatasta, ei YLE:lt\u00e4.<\/p>\n<p>Ajatus: l\u00e4hes jokaisella ehdokkaalla vaikutti t\u00e4ll\u00e4 kerralla olevan oma vaali-web-domain. Olisiko jonkun jossakin kannattanut tallentaa se?<\/p>\n<p>K\u00e4ytin yhteisen avaimen muodostamisen yritt\u00e4miseen useita tunteja. Lopputulos: ei tullut avainta, mutta tulipa kokemusta datan siivoamis- ja esitysty\u00f6kaluista <a href=\"http:\/\/code.google.com\/p\/google-refine\/\">Google Refine<\/a> ja <a href=\"http:\/\/www.google.com\/fusiontables\/Home\">Google Fusion Tables<\/a>. Ynn\u00e4 h\u00e4mmennyst\u00e4 ja liev\u00e4\u00e4 manailua Google Docs -hipsuista ja muista yll\u00e4tyksist\u00e4.<\/p>\n<h4>Google Refine<\/h4>\n<p>Google Refine (entinen Freebase Gridworks) on n\u00e4ps\u00e4kk\u00e4 ty\u00f6kalu. Esimerkiksi <a href=\"http:\/\/data.gov.uk\/\">data.gov.uk<\/a> on k\u00e4ytt\u00e4nyt sit\u00e4 omissa yhdistetyn avoimen datan hankkeissaan. Jeni Tennisonilta l\u00f6ytyy selke\u00e4sanainen <a href=\"http:\/\/www.jenitennison.com\/blog\/node\/145\">esitys aiheesta<\/a>. Googlen <a href=\"http:\/\/code.google.com\/p\/google-refine\/\">pari omaa esittelyvideota<\/a> kannattaa katsoa. Niill\u00e4 p\u00e4\u00e4see hyvin alkuun.<\/p>\n<p>Rahasummia tullaan laskeskelemaan ja vertailemaan. Niiden on siis syyt\u00e4 olla tietotyypilt\u00e4\u00e4n samanlaisia. Annoin Refinen lukufasetin (numeric facet) k\u00e4yd\u00e4 l\u00e4pi kaikki ne Puoluerahoitusvalvonnan taulukon sarakkeet, joissa oli rahasummia. Suurin osa oli tekstityyppi\u00e4, mutta joukossa oli my\u00f6s numeerista dataa.<\/p>\n<div style=\"clear: both; text-align: center;\"><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_facet.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_facet-300x259.png\" width=\"320\" height=\"277\" border=\"0\"><\/a><\/div>\n<p>Valtavirrasta poikkeavat taulukon solut editoidaan. Kaikille tekstityypi, klik, done. T\u00e4llainen &#8220;masterdatan&#8221; muokkaaminen ei tietysti ole riskit\u00f6nt\u00e4.<\/p>\n<div style=\"clear: both; text-align: center;\"><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_editdatatype.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_editdatatype-300x184.png\" width=\"320\" height=\"198\" border=\"0\"><\/a><\/div>\n<p>Taulukkolaskentaohjelmistot tarjoavat monenlaista vipstaakia datan sis\u00e4\u00e4nlukuvaiheessa. Kokeilin, miten vahingossa mukaan livahtaneet hipsut ja ylim\u00e4\u00e4r\u00e4iset tyhj\u00e4t merkit pystyy poistamaan. Pystyy, helposti.<\/p>\n<div style=\"clear: both; text-align: center;\"><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_whitespace.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_whitespace-300x163.png\" width=\"320\" height=\"175\" border=\"0\"><\/a><\/div>\n<p>Google Refine Expression Language (GREL) ymm\u00e4rt\u00e4\u00e4 s\u00e4\u00e4nn\u00f6llsi\u00e4 lausekkeita. Alla poistetaan Etunimet-sarakkeen soluista lopun tyhj\u00e4t merkit ja sulkeva hipsu.<\/p>\n<div style=\"clear: both; text-align: center;\"><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_transform.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/ilmoitukset_transform-300x253.png\" width=\"320\" height=\"270\" border=\"0\"><\/a><\/div>\n<h4>Google Fusion Tables<\/h4>\n<p>Pinseriss\u00e4 oli muutama viikko sitten mainio salapoliisitarina <a href=\"http:\/\/www.pinseri.com\/2011\/04\/25\/nain-tutkit-iphonen-tallentamaa-paikkatietoa\/\">iPhone-paikkadatasta<\/a>. Siit\u00e4 luin ensimm\u00e4ist\u00e4 kertaa n\u00e4ist\u00e4 fuusiotauluista. K\u00e4tev\u00e4 apu datan k\u00e4\u00e4ntelyyn ja katseluun eri kanteilta. Ja jos mukana on paikkatietoa &#8211; kuten Pinserin tapauksessa &#8211; ne esitet\u00e4\u00e4n automaattisesti karttan\u00e4kym\u00e4ss\u00e4. Taulukkoon voi tallentaa n\u00e4kymi\u00e4, ja n\u00e4kymiin edelleen suodatuksen ja ryhmityksi\u00e4.<\/p>\n<p>Tein YLE:n vaalikonedatalle n\u00e4kym\u00e4n, jossa ovat ehdokkaista vain perustiedot kuten nimi, ik\u00e4, sukupuoli, puolue jne. Suodatin j\u00e4ljelle vain ne rivit, jotka liittyv\u00e4t valittuihin ehdokkaisiin. Ryhmitys keskim\u00e4\u00e4r\u00e4isen i\u00e4n ja puolueen mukaan.<\/p>\n<div style=\"clear: both; text-align: center;\"><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/fusiontables_agg.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2011\/05\/fusiontables_agg-300x165.png\" width=\"320\" height=\"176\" border=\"0\"><\/a><\/div>\n<p>Erilaisten n\u00e4kymien ja ryhmittelyjen m\u00e4\u00e4rittely data-aineistolle l\u00e4hestyy <a href=\"http:\/\/en.wikipedia.org\/wiki\/Pivot_table\">pivot-taulujen<\/a> filosofiaa. Excel ja OpenOffice Calc ovat tunteneet ne jo pitk\u00e4\u00e4n, ja aivan hiljattain niille tuli aito tuki my\u00f6s Google Docsiin. Olen yksi heist\u00e4, joille pivotointi on viel\u00e4 varsin vierasta. <a href=\"http:\/\/blog.ouseful.info\/2011\/05\/19\/reshaping-your-data-pivot-tables-in-google-spreadsheets\/\">Tony Hirstin maanl\u00e4heinen blogaus<\/a> on auttaa alkuun.<\/p>\n<p>Paikkatiedosta puheenollen, leikittelin jonkin aikaa ajatuksella, ett\u00e4 saisin ennen HS Openia k\u00e4siini jonkin eduskuntavaaliehdokkaan, jolla olisi ollut iPhone mukana vaality\u00f6ss\u00e4. Grand Plan: oletetaan, ett\u00e4 h\u00e4n olisi halukas antamaan Tieteen k\u00e4ytt\u00f6\u00f6n viimeisen vaality\u00f6viikkonsa paikkadatan. Oletetaan edelleen, ett\u00e4 h\u00e4n olisi liikkunut nimenomaan omassa vaalipiiriss\u00e4\u00e4n iPhonensa kanssa. Milt\u00e4 n\u00e4ytt\u00e4isi visualisointi, jossa olisivat mukana h\u00e4nen liikkeens\u00e4 ja h\u00e4nen kyseisess\u00e4 vaalipiiriss\u00e4 saamansa \u00e4\u00e4net? Voisiko t\u00e4st\u00e4 vet\u00e4\u00e4 mink\u00e4\u00e4nsortin johtop\u00e4\u00e4t\u00f6ksi\u00e4 vaality\u00f6n vaikutuksista \u00e4\u00e4nestysk\u00e4ytt\u00e4ytymiseen? No, vastaus on tietysti ett\u00e4 ei voi \ud83d\ude42 mutta sormiharjoitteluna se olisi ollut mukava. Terveiset ja kiitokst Jyrki Kasville, joka tuli ensimm\u00e4isen\u00e4 mieleen, kun mietin keneen ottaa yhteytt\u00e4. H\u00e4n oli tehnyt vaality\u00f6t\u00e4 Eduskunnan Nokia E90:n kanssa, koska siin\u00e4 oli ty\u00f6paikan kalenteri. Muita en t\u00e4h\u00e4n h\u00e4t\u00e4\u00e4n ehtinyt saada kiinni.<\/p>\n<h4>Google Docs<\/h4>\n<p>Suurin osa t\u00e4st\u00e4 aurinkoisesta viikonlopusta meni Google Docsin kanssa m\u00e4hkiess\u00e4. Kuvittelin n\u00e4et voivani rakentaa sen avulla puuttuvan lenkin rahoitusdatan ja YLE:n vaalikonedatan v\u00e4lill\u00e4.<\/p>\n<p>Olin muodostanut Google Refine&#8217;n transform-vivulla molempiin taulukoihin ylim\u00e4\u00e4r\u00e4isen apusarakkeen <i>HloID<\/i>, ehdokkaan sukunimi ja ensimm\u00e4inen etunimi. Tavoite: kopioida sen avulla YLE-taulun ID my\u00f6s toiseen tauluun. Silloin minulla olisi kunnon avain.<\/p>\n<p>Lopulta onnistui, edes osittain (mutta ei oikealla aineistolla, josta kohta lis\u00e4\u00e4), kiitos ahkeran googlaamisen ja yst\u00e4v\u00e4llisten Google Docs -foorumin vakioauttajien.<\/p>\n<p><code>=QUERY('Sheet2'!A:C,\"SELECT C WHERE A CONTAINS \"\"\"&amp;A361&amp;\"\"\" \")<\/code><\/p>\n<p>T\u00e4ss\u00e4 ollaan ty\u00f6kirjan lakanalla Sheet1, B-sarakkeen (tuleva ID) solussa B361. Samalla rivill\u00e4, A-sarakkeessa, on HloID. Saman ty\u00f6kirjan lakanasta Sheet2, sarakkeesta A, etsit\u00e4\u00e4n vastaavaa merkkijonoa. Jos l\u00f6ytyy, saman rivin sarakkeesta C haetaan arvo soluun B361.<\/p>\n<p>QUERY-lauseke on tallennettu ensimm\u00e4iselle datariville. Solun oikeasta alanurkasta kiinni, ja lausekkeen kopiointi taulukon kaikille riveille. Suhteellinen viittaus A-sarakkeen soluun kasvaa samalla automaagisesti.<\/p>\n<p>So far so good. Mutta. Varsinainen taulukko on niin iso, ett\u00e4 Google Docs ei suostukaan lukemaan sit\u00e4 samaan ty\u00f6kirjaan. No, t\u00e4m\u00e4n ei <i>pit\u00e4isi <\/i>olla ongelma, sill\u00e4 my\u00f6s kokonaan toisesta ty\u00f6kirjasta voi hakea, ainakin teoriassa.<\/p>\n<p><code>=QUERY(IMPORTRANGE(\"0AvfW9KgU1XzhdHJSRFFwSGR3YWR6MVl3X0ZVWkhibUE\",\"Sheet1!A:C\"),\"SELECT C WHERE A CONTAINS \"\"\"&amp;A361&amp;\"\"\" \")<\/code><\/p>\n<p>Pitk\u00e4 \u00e4l\u00e4m\u00f6l\u00f6 on ty\u00f6kirjan yksil\u00f6iv\u00e4 avain. Sen n\u00e4kee URL:sta.<\/p>\n<p>Ei onnistunut. Google Docs oli joko sit\u00e4 mielt\u00e4, ett\u00e4 C-saraketta ei ole tai ett\u00e4 hitti\u00e4 ei l\u00f6ydy. Joissakin ohjeissa lakana ymp\u00e4r\u00f6itiin yksinkertaisilla hipsuilla, toisissa ei. Joissakin k\u00e4ytettiin puolipistett\u00e4 v\u00e4limerkkin\u00e4, toisissa pilkkua.<\/p>\n<p>Nyt te varmaan sanotte, ett\u00e4 &#8220;miksi ihmeess\u00e4 mokoma vaiva, tauluthan voi yhdist\u00e4\u00e4 simppelisti t\u00e4ll\u00e4 tavalla&#8230;&#8221; ja n\u00e4yt\u00e4tte. J\u00e4\u00e4n odottamaan.<\/p>\n<p>EDIT 23.5: J\u00e4rjest\u00e4j\u00e4t olivat tehneet paljon duunia datan eteen. Aineisto oli siististi kantatauluissa, kanta LAMP-palvelimella ja palvelin Amazonilla. Kiitos t\u00e4m\u00e4n, p\u00e4iv\u00e4n annista tuli hyv\u00e4. Porukassa oli osaajia monelta alalta, ja nopea protoilu sujui. Lahjakasta v\u00e4ke\u00e4!<\/p>\n<p><iframe src=\"http:\/\/www.facebook.com\/plugins\/like.php?href=http%253A%252F%252Ftts2.blogspot.com%252F2010%252F05%252Fvaitoskirjat.html&amp;layout=standard&amp;show_faces=false&amp;width=450&amp;action=like&amp;font&amp;colorscheme=light&amp;height=35\" scrolling=\"no\" style=\"border:none; overflow:hidden; width:450px; height:35px;\" allowtransparency=\"true\" frameborder=\"0\"><\/iframe><\/p>\n","protected":false},"excerpt":{"rendered":"<p>HS Open #2 HS Open kakkonen on huomenna, ja sinne olen min\u00e4kin menossa. Mielenkiintoinen p\u00e4iv\u00e4 tulossa! Luupin alla ovat mm. eduskuntavaalit 2011. Rahoittajia l\u00f6ytyi, ehdokkaita oli, vaalit k\u00e4ytiin. Mit\u00e4 muuta t\u00e4st\u00e4 spektaakkelista voi p\u00e4\u00e4tell\u00e4 numeroiden valossa? L\u00e4hdet\u00e4\u00e4n liikkeelle datasta. Keskeist\u00e4 aineistoa HS Open kakkosen Politiikka-ryhm\u00e4lle ovat ehdokkaiden ilmoitukset kampanjoiden menoista ja ilmoitukset tukijoista. Arvokasta taustainformaatiota &hellip; <a href=\"https:\/\/tuijasonkkila.fi\/?p=23\" class=\"more-link\">Continue reading <span class=\"screen-reader-text\">Kuratointia<\/span> <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":52,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[149],"tags":[23,49,50,48,35,47],"class_list":["post-23","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-diverse-coding","tag-avoin-data","tag-google-docs","tag-google-fusion-tables","tag-google-refine","tag-google-visualisation-api","tag-kuratointi"],"_links":{"self":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/23","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=23"}],"version-history":[{"count":3,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/23\/revisions"}],"predecessor-version":[{"id":962,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/23\/revisions\/962"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/media\/52"}],"wp:attachment":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=23"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=23"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=23"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}