En van de krachtige elementen van sociale netwerken en media is dat ze heel snel en breed allerlei gedachten en ideeën kunnen verspreiden. Dat kunnen diepgaande en inzichtelijke ideeën zijn, maar veelal gaat het om memes en tijdelijke virale grappen die razendsnel over het web verspreiden. Zo zagen we vorige week een plotselinge sneeuwbal aan tweets over #LessAmbitiousMovies, een virale kettingbrief aan tweets met alternatieve titels voor films. Denk aan “Gone in 60 Minutes” en “Saturday Night Couch”. Bij Twitter hebben ze een aardig overzicht van de gebeurtenissen op hun blog staan, Bill Gross heeft een flinke lijst met filmtitels verzameld.
Waarom begin ik daar nu pas over? Omdat de grafiek die Bill in zijn blogpost heeft, n van de zes mogelijke patronen is hoe virale content zich online verspreidt. In een onderzoek van Jure Leskovec (Assistant professor of computer science at Stanford University) en Jaewon Yang (Stanford PhD candidate) zijn bovenstaande grafieken te zien. Dit zijn zes mogelijke patronen voor de verspreiding van content over tijd. Deze “Memetracker” hebben ze verder verwerkt in een eerste model om met 75% zekerheid de verspreidingscurve van een bericht te voorspellen. Op de site Memetracker kun je alle data zelf downloaden om mee te spelen en verder te onderzoeken.
Onderzoeksopzet
De volledige details van het onderzoek kun je in de twee rapporten doorlezen, maar het komt er op neer dat ze 170 miljoen nieuwsberichten en blogposts hebben geanalyseerd van september 2008 tot augustus 2009. Tussen juni 2009 en februari 2010 hebben ze daar nog 580 miljoen Tweets in meegenomen. Ze meten hoe vaak een artikel werd genoemd in andere blogposts, nieuwsberichten en tweets en berekenden daarmee de attentiewaarde van elk individueel item. Hierbij hebben ze niet alleen naar de links gekeken, maar naar specifieke termen in de berichten. Een voorbeeld wat ze in het onderzoek aanhalen is “Lipstick on a pig”, een uitdrukking die tijdens de Amerikaanse verkiezingen veel is gebruikt. Met deze data zijn ze aan het rekenen geslagen en daar zijn bovenstaande zes modellen uit gekomen. Variabelen waar je in zo’n onderzoek rekening mee moet houden zijn onder meer de inhoud van het artikel, de populariteit van de site waar het artikel is vermeld, maar eveneens de community van lezers, wat zijn daar voor kenmerken aan te geven?
Wat komt uit het onderzoek?
Eerlijk gezegd is het onderzoek wat schaars met hele harde voorbeelden, maar je kunt uit bovenstaande bijvoorbeeld concluderen dat een scoop op een weblog een ander verloop zal kennen (drie grafieken bovenin) dan een scoop op een traditionele nieuwssite (grafiek middenonder). Het onderzoek lijkt wel aan te tonen dat blogs een nieuwsbericht langer in de publieke opinie kunnen houden. Een opvallende conclusie uit het onderzoek is dat de verspreiding van hashtags op Twitter een vrijwel gelijke curve kent als de URL’s van nieuwsartikelen of blogposts. In een korte presentatie van Leskovec uit 2009, vooruitlopend op deze papers, laat hij onder andere zien hoe nieuws veelal eerst wordt opgepikt door professionele blogs, waarna de traditionele media het overneemt en de blogosfeer het nieuws weer laat vallen om het daarna wel weer een langere levensduur te geven.
Waarom is het interessant?
In combinatie met het rekenmodel om de verspreiding van nieuws te voorspellen kan dit onderzoek inzicht geven in de invloed van een titel of een blogger. Wat nu veelal is gebaseerd op incomplete of onnauwkeurige data of een onderbuikgevoel, zou over een tijd statistisch kunnen worden bewezen. Modellen als deze kunnen helpen in het vinden en bepalen van interessante artikelen, het kan inzicht geven hoe informatie zich online verspreidt en het kan helpen invloedrijke bloggers en Twitteraars te vinden. Het voorspellingsmodel kan voor virale campagnes een interessant startpunt zijn.
Meer informatie: Technology Review en Memetracker