Analyse: het crowdsourced fact-checking-experiment van Twitter onthult problemen

Analyse

Uit een Poynter-analyse bleek dat minder dan de helft van de Birdwatch-gebruikers bronnen bevat en dat veel aantekeningen bij het controleren van feiten partijdige retoriek bevatten.

Een 14 februari-versie van Twitter's Birdwatch-algoritme versterkte enkele aantekeningen met misleidende informatie.

Op 5 februari markeerde Twitter een bericht van controversiële YouTuber Tim Pool dat zei dat de Amerikaanse presidentsverkiezingen van 2020 waren gemanipuleerd. Het platform merkte op dat de claim werd betwist en schakelde de betrokkenheid uit 'vanwege een risico op geweld'.

Maar, op Vogels kijken , het social media platform’ experiment met crowdsourced fact-checking , zeiden gebruikers overweldigend dat de tweet niet misleidend was, volgens een analyse van Twitter-gegevens op 14 februari. En de meeste Birdwatch-gebruikers gaven in de tool aan dat ze deze aantekeningen die ontkrachte claims ondersteunden, nuttig en informatief vonden.

“Volgens de officiële (sic) bron van TIME was er een goed georganiseerde groep geheime deelnemers aan een schaduworganisatie die klinkt als een kliek die samenwerkte om de verkiezingen te beïnvloeden in het voordeel van Joe Biden”, staat er in een notitie. Terwijl de gebruiker een link bevat naar: een artikel in Time Magazine dat inderdaad woorden als 'cabal' en 'samenzwering' gebruikt, de context van het stuk - dat machtige groepen achter de schermen werkten om de verkiezingsintegriteit te beschermen - is verloren gegaan.

De Birdwatch-algoritme , dat tot doel heeft nuttige opmerkingen naar voren te brengen, kende die 'fact-check' een behulpzaamheidsscore toe van 0,68 - de hoogste van de notities op de tweet, net buiten de top 10% van de notities die door het algoritme als 'beoordeeld' als nuttig worden beschouwd vanaf 14 februari. Nuttige aantekeningen vormden ongeveer 7% van de 2.695 in deze analyse en minder dan tweederde daarvan bevat een bronlink die geen andere tweet is.

Op 17 februari Twitter veranderde zijn algoritme en opmerkingen over de Pool-tweet worden niet langer als nuttig beoordeeld, hoewel ze worden nog steeds vermeld onder het bericht . Voorafgaand aan deze wijziging was er een lagere drempel om als nuttig te worden beschouwd - slechts 0,5 vergeleken met de nieuwe grens van 0,84 - en voor biljetten waren slechts drie beoordelingen nodig om als nuttig te worden beschouwd, op volgorde van prioriteit en gemarkeerd met een blauwe noot.

Nu moet een notitie vijf beoordelingen opleveren om die tweet in de nieuw tabblad 'beoordeeld nuttig' in Birdwatch . En van die bijna 2.700 aantekeningen in de database van het platform, voldeden 126 aan de nieuwe drempel - dat is minder dan 5%. Driekwart van de nieuwe 'beoordeelde nuttige' opmerkingen bevatte een bron buiten Twitter.

Het is een tijdige illustratie van een van de problemen waarmee het Birdwatch-model wordt geconfronteerd: kan een algoritme dat wordt gevoed door een schijnbaar willekeurige groep mensen ooit de waarheid nauwkeurig 'waarderen'?

Birdwatch, in de pilotfase met iets meer dan 1.000 gebruikers, stelt deelnemers in staat om tweets als misleidend te markeren en een notitie toe te voegen waarin een bron wordt vermeld en/of de context wordt uitgelegd waarom het misleidend kan zijn. Vervolgens kunnen Birdwatch-gebruikers deze notities rangschikken op basis van behulpzaamheid (daarna neemt het algoritme het over).

Uiteindelijk zullen alle Twitter-gebruikers ogenschijnlijk deze notities direct onder tweets kunnen zien, maar voorlopig zijn ze beperkt tot een specifiek gedeelte van de site . Birdwatch-gebruikers zullen uiteindelijk ook een reputatiescore opbouwen die zal worden meegenomen in het behulpzaamheidsalgoritme.

'Ons doel met de Birdwatch-pilot is om een systeem te bouwen waarin iedereen kan bijdragen, en dat natuurlijk de informatie verheft die mensen nuttig vinden', zei Twitter vice-president van product Keith Coleman in een e-mail. 'Wij geloven dat openheid in wie kan bijdragen belangrijk is, en dat door input van een diverse groep, de nuttigste opmerkingen kunnen worden verhoogd.'

Maar een blik op het systeem zoals het nu is, onthult uitdagingen die factcheckers hebben opgeworpen over Birdwatch: een gebrek aan expertise op het gebied van factchecking onder gebruikers, de moeilijkheid om een algoritme te maken dat op de een of andere manier de nuttige opmerkingen van de meest gerenommeerde gebruikers naar boven haalt en vragen over partijdige motivaties van gebruikers.

“Ik ben niet verrast door die bevindingen, gezien de gepolariseerde aard van sociale-mediaplatforms en de aarzeling van reguliere gebruikers om feedback te geven op dergelijke vragen die door platforms worden aangeboden, terwijl gemotiveerde gebruikers aan beide kanten van het gangpad platforms zien als slagvelden om hun verhalen over anderen”, zegt Baybars Örsek, directeur van het International Fact-Checking Network.

Een meerderheid van de meest productieve aantekeningen van Birdwatch-gebruikers markeert tweets die kritiek hebben op rechts als 'misleidend' en die kritiek op links als 'niet misleidend'. (De gebruiker heeft bijvoorbeeld een tweet gemarkeerd met de tekst ' Team Biden is zacht voor China ” van senator Ted Cruz en de Pool tweet als “niet misleidend”; terwijl een Newsweek-artikel over extreemrechtse extremisten en de GameStop-saga en een tweet het binden van president Donald Trump aan de rellen in het Capitool werden gemarkeerd als 'misleidend' en 'schadelijk'.) En minder dan een vijfde van de 82 aantekeningen van de gebruiker bevatten een bron, waarvan verschillende andere tweets. (Deze Birdwatch-gebruiker heeft niet gereageerd op een verzoek om een interview.)

Coleman zei dat Birdwatch kan worden gestimuleerd om aantekeningen te overwegen die afkomstig zijn van een 'diverse reeks bijdragers'. Verder is het beoordelingssysteem de belangrijkste drijfveer achter het platform

'We geloven dat deze bijdragen die veel mensen waardevol vinden zullen belonen en stimuleren, en het risico aanpakken dat een specifieke groep of ideologie Birdwatch overneemt', zei Coleman. 'Dit is iets waar we tijdens de pilot actief aan zullen werken.'

En inderdaad, de notities die het algoritme als het nuttigst bestempelde na de veranderingen van 17 februari, tonen meer solide bronnen en minder partijdige retoriek dan de iteratie van slechts een dag eerder. Maar het veranderen van een algoritme voor een pilotprogramma met 1.000 gebruikers en minder dan 2.700 biljetten is één ding, een algoritme wijzigen zodra Birdwatch beschikbaar is voor alle gebruikers is iets anders - en wie weet of de doeltreffendheid van het algoritme standhoudt als gebruikers beginnen te gieten in het platform, misschien het gedrag van enkele van de meest productieve pilotdeelnemers nabootsen.

'We hebben momenteel geen specifieke tijdlijn voor opschaling, omdat we eraan werken om zoveel mogelijk te leren en te herhalen terwijl de pilot klein is', zei Coleman. 'We zijn van plan op te schalen naarmate we dit veilig kunnen doen en wanneer dit kan helpen het leren te verbeteren.'

Toch zijn er, net als bij de opmerkingen onder de Pool-tweet, voorbeelden van partijdige of Misleidende informatie nog steeds zichtbaar als gewone notities.

Vier van de vijf meest actieve gebruikers, die goed zijn voor meer dan 10% van de totale notities, hebben dezelfde activiteit als de meest productieve gebruiker. Een van hen beweert dat de dood van Jeffrey Epstein nooit als zelfmoord werd beschouwd. De op één na meest productieve Birdwatcher citeert echter een bron in elke notitie, inclusief links van de Wereldgezondheidsorganisatie en FactCheck.org .

Geen van de top 10 gebruikers, volgens hun Twitter-bios, zijn professionele factcheckers of journalisten.

'Factchecken is eigenlijk hard werken omdat het mentaal veeleisend is', zegt hoofdredacteur Angie Holan van PolitiFact in een e-mail. 'Je moet je echt concentreren en mentale traagheid doorbreken om claims te identificeren en vervolgens brainstormen over manieren om ze te ontkrachten of te verifiëren. Dan moet je doorgaan met zoeken en vervolgens de bevindingen opschrijven. Het is geen dag op het strand, om het maar bot te zeggen. En als een factchecker een partijdige motivatie heeft, maakt dat een grondige en evenwichtige inspanning nog moeilijker.”

Ondanks de problemen signaleert Birdwatch desinformatie die traditionele fact-checkers mogelijk missen of ervoor kiezen om ze niet te controleren vanwege mogelijke schade - wat zou kunnen helpen om enkele hiaten in digitale desinformatie op te vullen. Tijdens de spel stop saga , verkeerde informatie over de aandelen van dat bedrijf snel verspreid over platforms.

Snopes en PolitiFeit beoordeelde claims met betrekking tot GameStop niet, terwijl Leadverhalen beoordeeld één Reddit-bericht. Maar op Birdwatch markeerde de hoogst gewaardeerde notitie - met een behulpzaamheidsscore van 1,00 - een misleidende tweet over Reddit, waar een gesprek over de voorraad plaatsvond. Er waren ongeveer 50 aantekeningen over Reddit, GameStop en de Robinhood-investeringsapp, waarop eerder deze maand veel werd gehandeld.

En Birdwatch-gebruikers markeerden een account dat beweerde toe te behoren aan Virginia Sen. Amanda Chase als nep, daarna getweet , '... We hebben een drugsprobleem in Virginia, en het legaliseren van marihuana zal alleen maar leiden tot meer overdoses en sterfgevallen van marihuana ...'

Crowdsourcing kan het leven van professionele factcheckers gemakkelijker maken door verkeerde informatie op te sporen, zei Örsek.

Coleman zei dat Twitter zich inzet voor het handhaven van transparantie - wat deze analyse mogelijk maakte - en het opnemen van input van experts over de toekomst van het platform.

“Van het werken met een embedded teamlid van de Universiteit van Chicago Centrum voor RISC , om feedbacksessies met verslaggevers en onderzoekers te organiseren, werken we eraan om gebruik te maken van de enorme hoeveelheid expertise en kennis die buiten Twitter bestaat”, zei hij.

Holan en Örsek bevelen incentives en training aan voor Birdwatch-gebruikers, en het gebruik van professionele factcheckers om hooggeplaatste notities te controleren.

'Maar ik heb nogal mijn twijfels over technologiebedrijven die denken dat hun gebruikers gratis content voor hen modereren', zei Holan. 'De meeste gebruikers zien het niet als hun taak om de platforms te helpen bij het runnen van hun eigen bedrijf.'

Ontdek De Compatibiliteit Door Zodiac Sign

Analyse: het crowdsourced fact-checking-experiment van Twitter onthult problemen

Analyse

Uit een Poynter-analyse bleek dat minder dan de helft van de Birdwatch-gebruikers bronnen bevat en dat veel aantekeningen bij het controleren van feiten partijdige retoriek bevatten.