{"id":15,"date":"2012-06-26T16:48:00","date_gmt":"2012-06-26T13:48:00","guid":{"rendered":"http:\/\/tuijasonkkila.fi\/?p=15"},"modified":"2024-09-20T13:24:39","modified_gmt":"2024-09-20T10:24:39","slug":"tekstinlouhintaa-suomitop100-listalla","status":"publish","type":"post","link":"https:\/\/tuijasonkkila.fi\/?p=15","title":{"rendered":"Tekstinlouhintaa SuomiTop100-listalla"},"content":{"rendered":"<p>Yle uutisoi juhannuksen alla: <a href=\"http:\/\/kokeile.yle.fi\/uutiset\/tutustu_heihin__100_kiinnostavaa_suomalaista_twitterissa\/6190961\">Tutustu heihin \u2013 100 kiinnostavaa suomalaista Twitteriss\u00e4<\/a>. Amat\u00f6\u00f6rilouhijalle t\u00e4llainen kotimainen Twitter-ryhm\u00e4 tarjoaa mukavan tutkimuskohteen. Mit\u00e4 sanoja top-tweettajat k\u00e4ytt\u00e4v\u00e4t? Mink\u00e4h\u00e4n takia? Miss\u00e4 yhteydess\u00e4?<\/p>\n<p>Blogista <a href=\"http:\/\/heuristically.wordpress.com\/\">Heuristic Andrew<\/a> l\u00f6ytyi selke\u00e4 ohje juuri t\u00e4h\u00e4n, <a href=\"http:\/\/heuristically.wordpress.com\/2011\/04\/08\/text-data-mining-twitter-r\/\">tekstin louhintaan Twitterist\u00e4 R:n avulla<\/a>.<\/p>\n<p>Hankalinta on saada tarpeeksi louhittavaa. Kohtuullisella hikoilulla sain koottua listalta reilut 500 tweetti\u00e4. En juuri tunne Twitterin API:a, joten saatoin hyvinkin olla v\u00e4\u00e4r\u00e4n l\u00e4hteen \u00e4\u00e4rell\u00e4. Olisiko statusp\u00e4ivitykset pit\u00e4nyt sittenkin ker\u00e4t\u00e4 listan sijaan j\u00e4senten omalta aikajanalta? Harkitsin t\u00e4t\u00e4. Idea kuivahti alkuunsa siihen, ett\u00e4 en pystynyt poimimaan rajapinnan kautta listan kaikkia j\u00e4seni\u00e4 vaan vain 20. Joistakin foorumikirjoituksista j\u00e4i it\u00e4m\u00e4\u00e4n ep\u00e4ilys, ett\u00e4 t\u00e4m\u00e4 olisi API:n rajoitus. Luultavammin rajat ovat kuitenkin n\u00e4iden korvien v\u00e4liss\u00e4. No, hyv\u00e4 ett\u00e4 materiaalia on edes jonkin verran.<\/p>\n<p><a href=\"https:\/\/gist.github.com\/2995732\">R-koodin<\/a> seasta l\u00f6ytyy kommentteja ty\u00f6n etenemisest\u00e4 ja havaintoja tuloksista. Silmiinpist\u00e4v\u00e4\u00e4 on sanaston heterogeenisuus. Esiin nousevat oikeastaan vain Twitter-kommunikoinnin s\u00e4\u00e4timet, sanat joilla osoitetaan mist\u00e4 oma teksti on per\u00e4isin. Aineisto on lis\u00e4ksi monikielist\u00e4, joka v\u00e4hent\u00e4\u00e4 sanojen toistumistiheytt\u00e4 n\u00e4in pieness\u00e4 otoksessa.<\/p>\n<p>Kuten Heuristic Andrew, min\u00e4kin tein ryhmittelyanalyysin (cluster). Sen kuvaus on puumainen <i>dendrogrammi<\/i>. Mit\u00e4 ylemp\u00e4n\u00e4 oksa on, sit\u00e4 enemm\u00e4n on sen lehv\u00e4st\u00f6ss\u00e4 olevien sanojen esiintymisi\u00e4. L\u00e4hekk\u00e4in ja saman punaisen kehyksen sis\u00e4ll\u00e4 olevat oksat kertovat siit\u00e4, ett\u00e4 niiden sanoilla on tietty\u00e4 yhteytt\u00e4 toisiinsa. Kehyksi\u00e4 on t\u00e4ss\u00e4 seitsem\u00e4n, kokeilin pienemp\u00e4\u00e4kin. Oikeaan laitaan syntyi nyt hieman turhankin iso kaatoluokka.<\/p>\n<p><a href=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2012\/06\/tweets1.png\" style=\"margin-left:1em; margin-right:1em\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/tuijasonkkila.fi\/wp-content\/uploads\/2012\/06\/tweets1-300x300.png\" width=\"320\" height=\"320\" border=\"0\"><\/a><\/p>\n<p>Dendrogrammin lukeminen on ty\u00f6l\u00e4st\u00e4, koska niskaa pit\u00e4\u00e4 k\u00e4\u00e4nt\u00e4\u00e4 90 astetta vasempaan. Ep\u00e4ilem\u00e4tt\u00e4 l\u00f6ytyy tapa, jolla k\u00e4\u00e4ntyy graafi, ei p\u00e4\u00e4.<\/p>\n<p>T\u00e4m\u00e4n harjoituksen pohjalta ei pysty sanomaan juuri mit\u00e4\u00e4n siit\u00e4, mit\u00e4, miten ja miksi Suomi twiittaa. Joitakin arvailuja voi esitt\u00e4\u00e4. <b>Saattaa<\/b> olla, ett\u00e4 sanonnat (quote) ja lainaukset (via) ovat melko yleisi\u00e4. <b>Mahdollisesti<\/b> jotkut listan j\u00e4senet ovat suositumpia viittauksen kohteita kuin muut. J\u00e4lkimm\u00e4inen p\u00e4\u00e4telm\u00e4 on itse asiassa tavallaan louhinnan sivutuote; samalla kun kaikki v\u00e4limerkit siivottiin pois, l\u00e4hti my\u00f6s k\u00e4ytt\u00e4j\u00e4nimen edest\u00e4 @-merkki, jolloin henkil\u00f6\u00e4 kuvaavasta nimest\u00e4 tuli ns. tavallinen sana.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Yle uutisoi juhannuksen alla: Tutustu heihin \u2013 100 kiinnostavaa suomalaista Twitteriss\u00e4. Amat\u00f6\u00f6rilouhijalle t\u00e4llainen kotimainen Twitter-ryhm\u00e4 tarjoaa mukavan tutkimuskohteen. Mit\u00e4 sanoja top-tweettajat k\u00e4ytt\u00e4v\u00e4t? Mink\u00e4h\u00e4n takia? Miss\u00e4 yhteydess\u00e4? Blogista Heuristic Andrew l\u00f6ytyi selke\u00e4 ohje juuri t\u00e4h\u00e4n, tekstin louhintaan Twitterist\u00e4 R:n avulla. Hankalinta on saada tarpeeksi louhittavaa. Kohtuullisella hikoilulla sain koottua listalta reilut 500 tweetti\u00e4. En juuri tunne &hellip; <a href=\"https:\/\/tuijasonkkila.fi\/?p=15\" class=\"more-link\">Continue reading <span class=\"screen-reader-text\">Tekstinlouhintaa SuomiTop100-listalla<\/span> <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":45,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[149],"tags":[13,31,28,29],"class_list":["post-15","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-diverse-coding","tag-r","tag-tekstinlouhinta","tag-twitter","tag-twitter-api"],"_links":{"self":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/15","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=15"}],"version-history":[{"count":2,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/15\/revisions"}],"predecessor-version":[{"id":966,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/posts\/15\/revisions\/966"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=\/wp\/v2\/media\/45"}],"wp:attachment":[{"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=15"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=15"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tuijasonkkila.fi\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=15"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}