vis4.net

Hi, I'm Gregor, welcome to my blog where I mostly write about data visualization, cartography, colors, data journalism and some of my open source software projects.

Wie und warum wir die Tweets für die Live Map archivieren

#general#live#map#twitter

Für das Twitter Live Map Experiment habe ich mich in der letzten Woche etwas ausführlicher mit der Twitter API auseinandergesetzt. Da Twitter die öffentliche Timeline und insb. die Suchfunktion nur für einen begrenzten Zeitraum zur Verfügung stellt, war es notwendig selbst ein Archiv von relevanten Tweets anzulegen. In unserem Fall gibt es ein PHP-Cronjob der regelmäßig die Twitter-API anfunkt und die Ergebnisse in einer Datenbank speichert. Im folgdenden nun einige Anmerkungen zur Selektion der relevanten Tweets: Hashtag-Archiv Zunächst lag der Gedanke nahe, alle Tweets zu archivieren, die für unseren Kontext wichtige Hashtags enthalten, also z.B. #castor, #wendland und #gorleben. Damit sind sollten erstmal der Großteil der relevanten Twitternachrichten abgedeckt sein. Da die Tweets für eine Kartenanwendung archiviert werden

  • API-Doku: http://dev.twitter.com/doc/get/search

  • Beispiel: http://search.twitter.com/search.atom?q=%23castor%20OR%20%23wendland Geocode-Archiv Die Twitter-API stellt eine Geocode-Suchfunktion bereit, mit der man alle Tweets in einem bestimmten Umkreis suchen kann. Dabei unterscheidet Twitter zwei Arten von Geocodes: die mit GPS-Code versehenen Nachrichten (naheliegend) und Nachrichten von Nutzern, deren Herkunftsort (wie im Twitterprofil angegeben) zu einem Ort aufgelöst werden konnte. Letzteres hat sich im Zuge der Experimentierung als zu ungenau erwiesen. Zwar ist der Anteil von Wendland-Bewohnern, die in dieser Woche über andere Dinge als den Castor-Transport twittern gering, aber es scheint zu viele Ungenauigkeiten bei der Ortsauflösung zu geben (siehe Beispiel-Feed). Deshalb haben wir uns im Endeffekt nur auf die GPS-Tweets beschränkt, d.h. alle Leute die direkt vor Ort twittern und vielleicht in der Hektiv die Hashtags vergessen.

  • Beispiel: http://search.twitter.com/search.atom?geocode=53.103,11.093,25km User Archiv Als drittes hatten wir die Idee, die Tweets derjenigen Nutzer auf jeden Fall zu archivieren, die mit Sicherheit nur zum Castor-Transport twittern. Das betrifft z.B.@castorticker oder @gorleben2010. Um nicht für jeden Nutzer eine neue Anfrage an die Twitter-API zu stellen, haben wir uns einen neuen Account angelegt und alle relevanten Nutzer zu einer Liste zusammengestellt.

  • API-Doku: http://dev.twitter.com/doc/get/:user/lists/:id/statuses

  • Beispiel: http://api.twitter.com/1/livemap/lists/castor/statuses.xml Keine Retweets Ansonsten haben wir noch alle Retweets rausgeworfen, da sie keine neuen Informationen enthalten und in der Regel nicht von Leuten vor Ort verbreitet werden.