Logo Universiteit Utrecht

Honours Twitterchecker

Samenvatting

Samenvatting van het literatuuronderzoek

1 Inleiding

In de berichtgeving rondom de coronacrisis, een actuele crisis ten gevolge van het coronavirus (COVID-19) is er veelal sprake van nepnieuws. Niet alleen worden er dubieuze verhalen gedeeld, er wordt ook foutieve gezondheidsinformatie verspreid rondom de herkenning van symptomen en de bestrijding van het coronavirus. Voorbeelden van dit soort artikelen zijn berichten die bijvoorbeeld stellen dat gorgelen met bleek het coronavirus zou doden of dat huisdieren het virus zouden overdragen. Als dit soort berichten worden gedeeld, heeft dit logischerwijs een enorme impact op het verloop van de crisis, zo niet een rol in kwesties van leven of dood. Met het oog op de maatschappelijke relevantie van het herkennen van nepnieuws, is het nuttig om inzicht te verkrijgen in nepnieuws als fenomeen en onderzoek naar nepnieuws. Aan de hand van een combinatie van kwalitatief en kwantitatief onderzoek zal dit bereikt worden. Deze combinatie van kwalitatief en kwantitatief onderzoek biedt een compleet beeld van nepnieuws en biedt de onderzoekers een kans om op een interdisciplinaire en verdiepende wijze hun vak te beoefenen. Tijdens het opstellen van dit onderzoek hebben wij het antwoord moeten vinden op zes onderzoeksvragen, namelijk: wat is nepnieuws, wie verspreidt nepnieuws, hoe wordt nepnieuws verspreid, hoe combineer je kwalitatief en kwantitatief onderzoek, hoe kan een database gevormd worden en welk algoritme kan er gebruikt worden.

 

2 Wat is nepnieuws?

Om nepnieuws te herkennen, is het belangrijk om te weten wat nepnieuws precies is. Voordat de definiëring van nepnieuws behandeld kon worden, is er gekeken naar filosofische kwesties die ten grondslag liggen aan nepnieuws als fenomeen, namelijk: de rol van waarheid en de rol van bewustzijn. Hierbij is er aangenomen dat er waarschijnlijk geen absolute waarheid is, maar dat dit niet betekent dat objectieve verslaggeving is uitgesloten. Bovendien speelt intentionaliteit een belangrijke rol bij het onderscheiden van nepnieuws van foutieve informatie.

De definities van de behandelde artikelen bestonden uit verschillende aspecten, waarvan er drie zijn behandeld, namelijk: the degree of falsity, de verschijningsvormen van nepnieuws en mediaplatformen waarop nepnieuws verschijnt.

Uit the degree of falsity is gebleken dat nepnieuws geen eenduidend begrip is. Er is sprake van een verschil in mate aan ‘nepheid’: sommig nieuws kan nepper zijn dan ander nieuws. Dit betekent echter niet dat er geen sluitende definitie van nepnieuws kan worden gegeven.

Uit het analyseren van de verschillende verschijningsvormen van nepnieuws is gebleken dat er een smalle definitie en een brede definitie van nepnieuws kan worden opgesteld. De smalle definitie is als volgt: “Nepnieuws is het intentioneel produceren of bewust verspreiden van verifieerbaar foutieve informatie.” Deze definitie aangenomen, worden er minder verschijningsvormen van foutief nieuws onder nepnieuws geschaard dan bij de brede definitie, namelijk: fabricated news, propaganda, hoaxes, sommige vormen van satire en eventueel clickbait. Daartegenover luidt de brede definitie als volgt: “Nepnieuws is foutieve informatie”. Deze definitie aangenomen, worden alle verschijningsvormen van foutieve informatie onder nepnieuws geschaard.

Hoewel nepnieuws voornamelijk wordt gelinkt aan digitale mediaplatformen zoals sociale media, lijkt dit niet te worden beschouwd als een noodzakelijke voorwaarde van nepnieuws: nepnieuws komt zowel voor op traditionele media als digitale media.

Nepnieuws is een lastig fenomeen om te definiëren, maar aan de hand van de opgestelde definities kan er toch inzicht worden verkregen in dit fenomeen. Dit is niet alleen theoretisch waardevol, maar zal ook van pas komen in de praktijk bij het analyseren van nepnieuws rondom de coronacrisis. Voor ons onderzoek is het logisch om de smalle definitie van nepnieuws aan te nemen, omdat deze definitie veelvuldig wordt aangenomen in ander onderzoek naar nepnieuws. Aangezien er tussen onderzoekers onderling geen consensus is over de verschijningsvormen die per definitie onder nepnieuws kunnen worden geschaard, lijkt het verstandig om alle verschijningsvormen van foutief nieuws onder nepnieuws te scharen met het oog op het verzamelen van zoveel mogelijk data. Dit zal uiteindelijk de beste resultaten opleveren.

 

3 Wie verspreiden er nepnieuws?

Zodra het begrip ´nepnieuws´ duidelijk is, is de volgende logische stap om te kijken wie er nepnieuws verspreidt. Als er meer duidelijkheid is over de verspreiders van nepnieuws en hun motieven, kunnen deze mensen makkelijker worden opgespoord en kan er eerder een oplossing worden gevonden om de verspreiding van nepnieuws tegen te gaan.

Concluderend kan er gesteld worden dat nepnieuws door zowel software gestuurde programma´s kan worden verspreid, als door menselijke organisaties en individuen. Software gestuurde programma´s, oftewel social bots, hebben als doel om sociale wanorde te creëren. Dit doen ze door zeer gericht misleidende en manipulatieve berichten te plaatsen op sociale platformen, in de hoop gebruikers te beïnvloeden.

De menselijke actoren die nepnieuws verspreiden zijn politieke organisaties, overheden, journalisten, trollen en useful idiots. Zij verspreiden nepnieuws vanuit drie mogelijke motieven. Deze motieven kunnen politiek, financieel en sociaal van aard zijn en hebben als gemeenschappelijke factor dat ze de verspreiding van nepnieuws als einddoel hebben. Politieke organisaties en overheden kunnen nepnieuws verspreiden vanuit politieke motieven. Ze verspreiden nepnieuws omdat ze hun organisatie willen promoten, andere concurrerende organisaties in een slecht daglicht willen zetten of een specifiek verhaal naar het publiek willen brengen. Journalisten kunnen nepnieuws verspreiden vanuit financiële en sociale motieven. .  Financieel, als ze met hun nep berichtgeving de verkoopcijfers van hun blad willen bevorderen en sociaal, als ze door nep berichtgeving de populariteit van hun platform, site of krant willen vergroten. Ten slotte zijn er ook nog trollen en useful idiots. Trollen zijn gebruikers van sociale platformen die bewust provocerende- of niet-relevante berichten plaatsen om andere gebruikers uit te lokken of emotionele druk uit te oefenen. Dit doen ze puur vanuit het sociale motief om chaos te schoppen. Useful idiots verspreiden, anders dan trollen, onbewust nepnieuws omdat ze nepnieuws uit onwetendheid aannemen als waarheid en vervolgens verspreiden.

 

3 Hoe wordt nepnieuws verspreid?

Het internet kan worden beschouwd als een netwerken met daarin allerlei kleine subnetwerken aan gebruikers. In elk (sub)netwerk zijn er slechts een aantal gebruikers die het grootste deel van de nepnieuws verspreiden. Een goed beeld van hun berichten geeft dus een aardig beeld van hun subnetwerk. Andersom zal een subnetwerk waarschijnlijk gedomineerd worden door berichten die zijn te herleiden tot een aantal gebruikers. Als het gaat om misinformatie lijkt dit effect versterkt. Verder volgen beide misinformatie en correcte informatie hetzelfde patroon qua deel gedrag. Voor beide geldt dat een groot deel van de berichten niet langer dan 2 uur worden gedeeld en de meeste niet langer dan een dag. Berichten met misinformatie waar veel interesse voor is worden langer gedeeld, terwijl berichten met correcte informatie waar veel interesse voor is niet per se langer worden gedeeld.

Hierom wordt er aangeraden om bij het kwalitatieve deel van het onderzoek te kijken naar de berichten waar veel interesse in is. Het  liefst ook een bericht dat komt van een bron in het netwerk met veel invloed, deze zou geïdentificeerd kunnen worden a.d.h.v. een frequentie analyse op een groot deel van de berichten in een subnetwerk. Mocht dit niet lukken, dan kan er rekening mee worden gehouden dat berichten met weinig participatie waarschijnlijk niet representatief zijn voor het hele subnetwerk.

 

4 Hoe combineer je kwalitatief en kwantitatief onderzoek?

Om nepnieuws te identificeren zal er gebruik worden gemaakt van zowel een kwalitatieve als een kwantitatieve methode. Op deze manier kunnen de krachten van beide methoden samengevoegd worden in één onderzoek. Om tot de beste onderzoeksresultaten te komen zal er eerst kwalitatief onderzoek gedaan worden, gevolgd door kwantitatief onderzoek.

Bij het kwalitatieve onderzoek gaat het om het onderzoeken van de variatie van data op kleinere schaal. Schrijvers van nepnieuws willen hun lezers vaak misleiden door middel van overdreven uitdrukkingen en sterke emoties. Hier kan er gebruik worden gemaakt van het kwalitatief onderzoeken van teksten. Er zal eerst bepaalt moeten worden welke eigenschappen onderzocht willen worden en welke eigenschappen het meest kenmerkend zijn voor nepnieuws. Er kan gekozen worden voor attribute-based language features, die vooral gaan over de emotie in een tekst, of voor structure-based language features, die de inhoudsstijl van teksten analyseert op taalniveau. Aan beide aanpakken zitten voor- en nadelen. Zo is attribute-based onderzoek erg specifiek, maar moeilijk te kwantificeren, terwijl structure-based onderzoek makkelijk te kwantificeren, maar minder specifiek is. Wanneer de eigenschappen waarop getest willen worden gekozen zijn, kan het handmatig analyseren van teksten beginnen. Zowel nepnieuws als echt nieuws zal gecontroleerd worden, waardoor over beide teksten genoeg informatie hebben verkregen zal worden.

Wanneer het kwalitatieve onderzoek is afgerond, kan het kwantitatief onderzoek beginnen. Er is nu genoeg data beschikbaar over de kenmerken van nepnieuws en echt nieuws, waardoor nieuwe teksten hiermee vergeleken kunnen worden. Dit zal gebeuren door middel van een algoritme, dat de kennis bezit die verkregen is uit het kwalitatieve onderzoek. Deze kan kenmerken van nieuwe teksten vergelijken met zijn database, waardoor het algoritme nieuwe teksten kan bestempelen als nepnieuws of echt nieuws. Op deze manier kunnen grote hoeveelheden teksten kwantitatief gecontroleerd worden op echtheid.

Door het combineren van kwalitatief en kwantitatief onderzoek, kunnen de beste resultaten verkregen worden.

 

5 Hoe kan er een database opgesteld worden?

Om het kwantitatieve deel van het onderzoek uit te kunnen voeren, moet er zowel een dataset worden opgesteld, als een passend algoritme worden gekozen om deze te verwerken.

Het opstellen van een dataset zal een substantieel deel van dit onderzoek in beslag nemen. Er moet immers data worden verzameld en (deels handmatig) verwerkt. Tegelijkertijd moet er genoeg tijd overblijven om de algoritmes juist te trainen. Om een zo hoog mogelijke graad van automatiseren en dus tijdwinst te krijgen, zullen wij onze database baseren op tweets. Dit betekent dat al onze data al ongeveer van dezelfde lengte is en aangezien het ook vrij kort is, zal het makkelijker te verwerken zijn. Gelukkig is er op Twitter zowel veel nepnieuws als echt nieuws te vinden, maar moet iedere tweet wel worden gecheckt op waarheid door een van de onderzoekers. Wanneer de tweets worden verzameld, zullen ze door verschillende stadia van pre-processing gaan voordat de database kan worden gebruikt door een algoritme.

 

6 Welk algoritme kan er gebruikt worden?

Er zijn vele mogelijke algoritmes te gebruiken, waarvan er drie gedetailleerd zijn bekeken door de onderzoekers. Zo is er de kennisgraaf, waarbij het proces inzichtelijk blijft voor de programmeurs en welke echt gebaseerd is op de inhoud van een tekst, maar ook grote moeite kost om te implementeren. Voor dit onderzoek lijkt dit echter niet de juiste optie, aangezien de kennis over het coronavirus met grote snelheid is veranderd. Het succesvol vangen van de kennis over het virus en de aanpak ervan in een graaf lijkt daarom een opgave van een enorm formaat en misschien niet eens praktisch te realiseren.

Daarom is de focus verlegd naar Naive-Bayes en LSVM. Beide zijn algoritmen die zich baseren op schrijfstijl, waardoor de link met het kwalitatieve deel van dit onderzoek makkelijk te leggen is. Verder zijn implementaties van deze algoritmes makkelijk te vinden, wat de programmeurs veel tijd zal schelen. Helaas zijn beide algoritmes een zogenaamde black box, wat inhoudt dat de classificatie die wordt gemaakt niet geheel te verklaren is door de programmeurs.

Zowel Naive-Bayes als LSVM hebben ook hun eigen voor- en nadelen. Naive-Bayes is zeer bekend bij de programmeurs van dit onderzoek, is erg simpel te implementeren en kost relatief weinig tijd om te trainen, maar de nauwkeurigheid is vaak niet extreem hoog. Daarentegen is LSVM wel een ingewikkeld algoritme, maar kan het een extreem hoge nauwkeurigheid halen, maakt het snellere voorspellingen en biedt het de kans om met een nieuw algoritme te leren werken.

In plaats van een harde keuze maken tussen deze twee algoritmes, zullen wij beide implementeren. Hierbij zou Naive-Bayes als eerste geïmplementeerd worden, zodat er in ieder geval een werkend algoritme is. Wanneer dit is bereikt, kan de focus worden verlegd naar LSVM. Als beide algoritmes uiteindelijk werken, kan worden bekeken welk algoritme de hoogste nauwkeurigheid kan krijgen. Dit algoritme zal dan uiteindelijk het ‘eindproduct’ zijn.

 

Voor een uitgebreide bespreking van de onderzoeksvragen inclusief de gebruikte bronnen, verwijzen we naar onze individuele stukken hieronder.