Indholdsmoderation i 2019: Human vs AI

Internettet, selv med alt dets positive, kan være et meget mørkt og foruroligende sted. Anonymitetens skjold gør det let for folk at opføre sig på en bestemt måde, som samfundet ellers ville virke for. Denne artikel undersøger, hvad der er den aktuelle tilstand af måder at moderere stødende indhold på og hjælper dig med at tage en mere informeret beslutning.

Det er 2019, og vi uploader og forbruger indhold hurtigere end nogensinde før. I 2017 alene blev der taget 1,2 billioner fotos, og milliarder af dem blev delt online - det er i gennemsnit ~ 200 fotos pr. Person pr. År (hvis man antager en verdensbefolkning på 7 milliarder). Facebook selv har en svimlende sats på 300 millioner fotos, der uploades hver dag, og en hær på 7.500 moderatorer, der arbejder for at moderere dette indhold.

Kilde: BusinessInsider

Porn er overalt

Med en så stor stigning er der også sket en hurtig stigning i mennesker, der uploader indhold af tvivlsom karakter, og helt ærligt kæmper vi for at kontrollere det. De store sociale netværk til trods for hvad du synes er chockede med NSFW-indhold som porno. Det er et katte- og musespil, hvor sådan indhold filtreres, og brugere / hashtags / grupper er forbudt, men de bliver ved med at vende tilbage kun smartere og hårdere for at fange. Her er et skærmbillede af en artikel, der taler om obskure arabiske hashtags, der bruges til at dele porno på Instagram.

Kilde: Daily Express

Da hovedparten af ​​vores indholdsforbrug flytter til mobil, er Apple (App Store) og Google (Play Store) gate-keepere til det indhold, vi ser.

Vi hørte alle den nylige udgave af Apple fjerne Tumblrs app fra App Store efter at have fundet børnepornografi, men det er kun et sådant eksempel på en platform, der kæmper for at moderere indhold og blive straffet.

Kilde: The Verge

Tumblr overlever muligvis stadig og er korrekt. men der er mange apps, der er mislykkedes, da det er brugere tilbage i horder, da det blev en bastion af porno og andet stødende indhold, som administratorerne ikke var i stand til at kontrollere.

Hvorfor skulle du være bekymret? Hvis du er en appejer, der arbejder med brugergenereret indhold eller UGC, som det er populært kendt, er du potentielt udsat for flere risici såsom omdømme, økonomiske eller endda store juridiske risici. (se: Indien kaster Ebay-chef i fængsel)

Men lad os først forstå, hvad der betragtes som "stødende" for at være i stand til at moderere det bedre, da det ikke er så enkelt som du først måske tror, ​​det er.

Definition af "stødende" indhold (?)

Global kontekst

Venstre: Shakiras originale cover til Oral Fixation; Højre: Samme omslag i Mellemøsten

Det er vanskeligt at operere globalt og sætte standarder for indhold. De fleste virksomheder forsøger at indføre de samme regler på tværs af brugere, der kommer fra forskellige demografier med forskellige kulturelle følsomheder. Og det er her, de fejler.

Virksomheder, der ekspanderer globalt, falder ofte i problemer med lokal administration, hvis de ikke tager højde for deres lokale kultur. I juli 2018 forbød den indonesiske regering TikTok, en populær app til kort videofremstilling. Her er et uddrag fra en avisartikel, der rapporterer om emnet:

Ministeriet sagde, at det forbød appen, fordi den indeholder negative videoer, der anses for at have en dårlig indflydelse på ungdommen… .Offentlig stemning i Indonesien drejer mod Tik Tok, som er populær blandt 13 til 15-årige, da det har klip af teenagere, der engagerer provokativ opførsel. En sådan video viser en teenagedans. Derefter skæres den til en død krop, tilsyneladende en slægtning til teenageren.

Bortset fra nøgenhed / porno er der regionale regler, der er specifikke for:

  • religiøs hadudtalelse, der tilskynder til vold
  • falske nyheder og sprede sig for en politisk dagsorden
  • ærekrænkende sprog mod en enkeltperson / organisation

Listen kan fortsætte baseret på det område, du dominerer i, og ytringsstandarderne, der findes i den geografi

Her er et uddrag fra Wikipedia-siden til Orkut - det engang populære sociale netværk:

I 2008 annoncerede Google, at Orkut ville blive fuldt styret og opereret i Brasilien, af Google Brasilien, i byen Belo Horizonte. Dette blev besluttet på grund af den store brasilianske brugerbase og væksten i juridiske problemer

Overvej dette, blev hele operationerne i et amerikansk-baseret netværk flyttet til et andet land for bedre at overholde dets lokale love.

Hvad udgør nøgenhed / porno

Selv den grundlæggende definition af hvad der udgør som "nøgenhed" eller "porno" er yderst subjektiv og lige så vilkårlig som samfundets regler. Overvej Instagram, der tillader "mandlige brystvorter", men forbyder "kvindelige brystvorter".

Nogle tillader, at nøgenhed vises i visse særlige tilfælde.

Overvej Tumblr, der for nylig har opdateret dets indholdsregler med nogle interessante undtagelser:

Forbudt indhold inkluderer fotos, videoer og GIF'er af menneskelige kønsorganer, brystvorter, der præsenterer kvinder, og ethvert medie, der involverer sexhandlinger, herunder illustrationer. Undtagelserne inkluderer nøgen klassiske statuer og politiske protester, der indeholder nøgenhed. De nye retningslinjer udelukker tekst, så erotik forbliver tilladt. Illustrationer og kunst, der indeholder nøgenhed, er stadig okay - så længe sexhandlinger ikke er afbildet - og det samme gælder amning og efter fødselsbilleder

Lad os se indholdsretningslinjerne for andre store sociale netværk:

Jeg håber, at jeg har gjort mig opmærksom på, at det er virkelig vanskeligt at skabe standarder for indhold på grund af deres subjektive karakter.

Så lad os antage, at du har oprettet et bredt første sæt regler, der fungerer til din applikation. Det næste trin er at enten ansætte menneskelige moderatorer, stole på, at dit samfund "rapporterer" om sådant indhold eller bruger AI til at registrere dem eller typisk en blanding af alle 3.

Brug af menneskelige moderatorer

De vigtigste spørgsmål, du har brug for at besvare, mens du ansætter menneskelige moderatorer, er:

Hvor meget koster det? Hvad er gennemstrømningen og responstiden? Hvordan vurderer de typisk video? Hvordan vil strømmen se ud? Hvordan definerer du klare standarder for at reducere subjektivitet, især i kantsager?

Vi gik videre og nåede ud til 7 moderator outsourcing agenturer og fik tilbage vage (ish?) Svar fra 4 af dem. De er typisk BPO'er bevæbnet med hundreder af dataregistreringsentreprenører baseret på en lav-lønudviklingsøkonomi. Du kan finde deres svar her.

Taskus
Scale.ai
Webpurify
Foiwe
Olapic
Assivo
UGC-moderatorer
  1. Omkostninger:

De prissvar, vi modtog.

UGC-moderatorer er den billigste mulighed ud af 3 for billeder, der koster $ 0,01 / billede.

2. Vendetid: Webpurify nævner en behandlingstid på <2 minutter. Alle andre er åbne for det. Når man håndterer store mængder, er tjenesten nødt til at opretholde en stor arbejdsstyrke af moderatorer til at operere på næsten realtidsbasis, hvilket er vigtigt for nogle.

3. Videoer: Webpurify nævner også at lave videoer til $ 0,15 / minut.

En anden udbyder, UGC-moderatorer, er prissat til $ 2 / time. Hvis vi antager, at de kan tjekke 5 1-minuts videoer pr. Minut, er det ~ $ 0,07 / minut af video

Overvej dette til Youtube, hvor 400 timers video uploades hvert minut. = 2400 minutters video / minut.
Multiplicer det med det samlede antal minutter i et år (60 x 24 x 365), og det er en svimlende udgift på ~ 1,2 milliarder dollars hvert år!
Selv med 50% vederlag for volumenrabatter, ~ $ 600 millioner.

Den subjektive karakter af at beslutte, hvilket indhold der får lov til at blive, gør det vigtigt at have et vist antal menneskelige moderatorer på plads. Men som du kan se, kan de blive meget dyre meget hurtigt.

Trauma

En vigtig ting at tilføje er, at jobbet er meget foruroligende og kan forårsage traumer hos de personer, der gør det dag ind og ud. En ex-content moderator sagsøgte Facebook og sagde voldelige billeder forårsagede hendes PTSD. En stor dokumentar med titlen ”Moderatorerne”, der viser livet for nogle af disse individer:

Selv Facebook med alt dets jernbeklædte arrangementer er stadig udsat for en risiko for juridiske procedurer på grund af "umenneskelig" arbejdspraksis. Et uddrag fra den samme artikel i New York Times:

”Du ville gå på arbejde kl. 21 hver morgen, tænde for din computer og se, at nogen har hovedet afskåret,” sagde en mand, der valgte at forblive anonym, men blev citeret i retssagen til The Guardian sidste år. ”Hver dag, hvert minut, det er det, du ser. Hovedene bliver afskåret. ”

Det er et hårdt job.

Nøjagtighed

På trods af at der er fastlagt klare retningslinjer, kan menneskelige moderatorer stadig være tilbøjelige til fejl, da de forventes at arbejde hurtigt for at håndtere det høje volumen og imødekomme deres definerede SLA. En moderator fra et agentur, vi talte med i Indien, forventes at moderere 10-15 <1 minuts videoer i minuttet ved hurtigt at skumme gennem dem.

De kæmper især i randsager og ender med at begå en masse falske positiver, dvs. kalde noget porno, der ikke er. Dette kan ende med at hindre ytringsfriheden, som nogle af disse platforme står for, og brugere kan oprør på grund af de dobbelte standarder.

Kilde: The Mic

For at opsummere er menneskelige moderatorer:

  • Uundgåeligt, lige nu, på grund af indholdets subjektive karakter
  • Dyrt, især når du skalerer
  • Tilbøjelig til traumer
  • Tilbøjelig til fejl, især når volumener er høje og på kant

Så det bliver virkelig vigtigt at spore, om dine moderatorer klarer sig tilfredsstillende.

Metrics for at spore moderatorens ydeevne

Dette er de målinger, du typisk skal spore for at se, hvordan dine individuelle moderatorer fungerer, selvom du kan anvende forskellige målinger baseret på dine forretningskrav. Metrics er inspireret af kunstig intelligens og stress på de to ting, der kan skade mest:

Falske positiver

At kalde noget "porno", som er "ikke porno"

Falske negativer

At kalde noget "ikke porno" men er porno (gør mest ondt!)

Nøjagtighed

Antal billeder korrekt identificeret (Porno er porno, Safe being safe). En mere af en sundhedsmetrik, som du skal spore for at sikre, at du er på banen.

Præcision

Antal identificerede pornobilleder, der faktisk er porno. Jo højere jo bedre.

Hvis du har en virksomhed, hvor ytrings- / ytringsfriheden er kritisk (for eksempel Reddit), skal du sørge for, at moderatorerne ikke mærker noget billede, der overholder reglerne som "ikke sikkert". Din vigtigste metrik da er præcision.

Minde om

I de samlede pornobilleder, hvor mange opdagede de. Jo højere jo bedre.

Hvis du har en virksomhed, hvor du har brug for at imødekomme dit publikum, sundt familievisning passende indhold, skal du sørge for, at ethvert billede, der ikke overholder reglerne, ikke passerer dine filtre. Din vigtigste metric er derefter Husk.

F-1-score

En mere sund metrisk inklusive både præcision og tilbagekaldelse. Jo højere jo bedre.

Hvis du er nødt til at være midtlinie mellem ikke at hindre ytringsfriheden og håndhæve strenge regler, er F1-score din måle at spore.

Sådan beregner du dem:

Her er et flowdiagram, der hjælper dig med at forstå terminologien bedre:

Ved at gennemgå en tilfældig% prøve af hver moderators daglige arbejde og indstille benchmarks, kan du kontrollere deres præstationer.

Vi har også bemærket, at tagging af underkategorien for det kasserede indlæg (Gore, suggestiv nøgenhed, eksplicit nøgenhed, stoffer osv.) Og sporing af metrics inden for disse kategorier er meget mere indsigtsfuld i planlægningen af ​​dine fremtidige træningsprogrammer.

Brug af kunstig intelligens

Der er flere kommercielle API'er på markedet, der registrerer NSFW-indhold.

Ved hjælp af dybe neurale netværk giver disse API'er maskinlæring som en tjeneste til at moderere indhold på en brugerplatform, der primært detekterer nøgenhed, pornografi (seksuelle handlinger) og gore. De vigtigste spørgsmål, der skal besvares, mens du vælger en API, er:

Hvor meget koster det? Hvad er responstiden? Hvilke målinger bruger du til at evaluere deres ydeevne? Hvad er installations- og integrationstiden?

Vi sammenlignede følgende API'er:

Amazon
Clarifai
DeepAI
Google
Microsoft
Nudedetect
Nanonets
Picpurify
Sightengine

Koste

Dette koster de meget pr. Billede:

Nanonets er den laveste pris til $ 0,0009 / billede efterfulgt af Amazon & Microsoft til $ 0,001 / image.

Plotter dette:

Pris pr. API

Den gennemsnitlige prisfastsættelse pr. Billede kommer ud $ 0,001

Sammenlignes dette med den billigste pris for menneskelige moderatorer, som er $ 0,01. Menneskelige moderatorer er 10 gange prisen for AI API-udbydere! Visualiserer det gennem en graf:

Metrics

De beregninger, der skal evalueres, forbliver de samme som menneskelige moderatorer: Nøjagtighed, præcision, tilbagekaldelse og F1. Der er en fantastisk artikel, der giver en sammenligning af de bedste NSFW Image Moderation API'er fra og med 2018 langs disse metrics.

Opsætning og integration

De fleste af disse API'er er webhostede og let at integrere.

De har typisk et par kodelinjer, som du har brug for for at integrere og videregive din billed-URL eller bytes (rå fil).

Nanonets giver en ekstra fordel ved at generere et docker-billede til din model og være vært på det på din server.

sudo nvidia-docker-kør -p 8081: 8080 docker.nanonets.com/{{model_id}}:gpu

En prøve linje til kode for at køre modellen i en dockercontainer.

Responstid

De fleste API'er lover en responstid på 200–300 hundrede millisekunder. Dette inkluderer dog ikke rejsetid mellem dine servere og kan også variere afhængigt af størrelsen på det billede, du sender. Så du skulle sandsynligvis ønske, at din udbyder skal have en server i dit område for hurtig responstid eller bare bruge Nanonets 'docker-service og distribuere den på stedet.

Sammenlign dette med Webpurifys service for menneskelig moderering, der lover en responstid på <2 minutter. Det er 10x responstid sammenlignet med API'er!

For at opsummere dette godt er maskinlæringsbaserede API'er sammenlignet med menneskelige moderatorer:

  • Billigere
  • Hurtigere
  • Nemmere at skalere
  • Maskiner udsættes ikke for traumer (!)

Så alt i alt er maskiner bestemt meget mere egnede til jobbet end mennesker.

Så hvorfor har vi stadig brug for menneskelige moderatorer?

Nå, svaret på det er, at maskiner stadig ikke er velegnede til at håndtere subjektivitet og let kan narre.

  1. Racisk bias

Overvej følgende billede:

Du kan se det originale billede her. ADVARSEL: Det er eksplicit

Vi prøvede ovenstående billede med 2 af de ovenfor nævnte tjenester:

Clarifai

Clarifai klassificerede det forkert som SFW med en 91% tillid

Picpurify

Picpurify forkert klassificering af det som SFW

Så hvad skete der her? Mønstrene og den gennemsigtige karakter af kvindens tøj forvirrede de neurale netværk, og de var ikke i stand til at klassificere billedet som NSFW eller gav en helt anden forudsigelse.

Manglen på træningsdata for nøgen japanske kvinder i en traditionel kimono kan skabe denne form for en bias for disse API'er, som for det meste er baseret ud af USA og Europa og træner deres netværk på for det meste billeder af individer med majoritetens etnicitet i deres region. Så hvis du har brugere bortset fra disse regioner og uploader lokal porno (eller andet stødende indhold), er de fleste af de klar-til-brug API'er muligvis ikke til meget hjælp her.

2. Samfundsforhold

Som undersøgt ovenfor, kan det, der er okay i en region, blive forvirret i en anden. Da de fleste af AI API-udbydere er baseret på vestlige regioner, er de typisk ikke indstillede i mere konservative dele af verden. Så spørgsmålet om, hvad der er NSFW, er meget specifikt for dig, din brugerdemografiske og de regioner, du opererer i. Det er klart, at en klar-til-brug-API ikke er svaret og dermed behovet for menneskelige moderatorer.

Ariana Grande's omslagskunst, der er fotograferet til at overholde lovgivningen om beskedenhed i Iran og Saudi-Arabien (kilde: Petapixel)

3. En størrelse passer ikke alle

De fleste API-udbydere giver en score på, om billedet er acceptabelt, eller derudover kan de mærke det i henhold til deres forudbestemte metatags. Amazon mærker dets billeder som følger:

Nu har du måske nogle af dine egne tags til at oprette baseret på den niche, du serverer, der falder i mellem disse kategorier. Du har ikke en mulighed for at gøre det. Tagging (som er rygraden i anbefalingen) er brød og smør i de fleste sociale UGC-apps i dag, og hvis du bruger nogen af ​​de klar-til-brug API'er, vil du sidde fast med de forudbestemte tags.

Sådan reduceres afhængigheden af ​​menneskelige moderatorer

Ved konstant at træne dine modeller til at identificere de manglende huller er måden at reducere menneskelig afhængighed. Re-træning betyder dybest set at tilføje dit specifikke NSFW datasæt og træne det "ovenpå" i en allerede eksisterende model. På denne måde bliver modellen ved at blive bedre til at identificere ting, som den tidligere gik glip af.

Så sig for eksempel at der er billeder på din platform, der er antisemitiske og du ønsker at forbyde dem for at sikre et had-fritt miljø. Din valgte API-udbyder filtrerer ikke i øjeblikket sådanne billeder, og du ønsker at oprette et datasæt med disse antisemitiske billeder, der følger et typisk mønster. Du kan oprette et datasæt med disse billeder og træne på toppen af ​​den allerede eksisterende model, så det kan begynde at klassificere dem som "usikre".

Men de fleste API-udbydere lader dig ikke gøre det, eller det er inkluderet i deres "Enterprise" -del.

Gå ind i Nanonets

Vi i Nanonets er klar over dette særlige problem og har tilføjet funktionen til at tilføje dine egne billeder og definere dine ekstra tags oven på vores indholdsmoderationsmodel, så du kan forbedre den generelle nøjagtighed for dig.

Forbedre nøjagtigheden for dig af vores hostede model på app.nanonets.com

Ved hjælp af transfer learning lærer vi en model, der lærer af dine data og tilpasser sig dine behov.

Casestudie: Største indiske sociale netværk

Problem

Vi havde Indiens største lokale sociale netværk med over 50 millioner månedlige aktive brugere, der kommer til os med et meget specifikt problem. Deres valgte API-udbyder begik fejl, når de sendte indiske billeder. Nøjagtigheden af ​​deres tidligere udbyder var ~ 72% på sådanne billeder.

Hvorfor fungerede deres eksisterende løsning ikke?

En ML-model er kun så god som de data, den udsættes for. De fleste af de nuværende moderationsmodeller, der er tilgængelige, er blevet trænet i generiske data. De undlader således at forudsige, om brugergenereret indhold produceret lokalt ved hjælp af kameraer af lav kvalitet på budget-smartphones i det landlige Indien.

Disse billeder er meget forskellige i indhold, hudfarve, kamera osv. End de offentligt tilgængelige billeder, man kunne finde på søgemaskinen efter dit valg eller ethvert offentligt tilgængeligt datasæt.

Løsning:

Vi spurgte virksomheden om deres krævede følsomhedsniveauer for den bruger demografiske, de tjener, og omkring 10.000 billeder - både positive og negative prøver.

Vi brugte disse data til at træne ny model på toppen af ​​vores allerede eksisterende model. Dette gjorde det muligt for os at finjustere følsomheden og udsætte modellen for indhold, der er specifikt for deres platform.

Resultater:

Vi havde nu en model, hvis nøjagtighed blev forbedret med over 23% og sprang til ~ 95%! Hele øvelsen fra ende til anden fra at definere problemopgørelsen til at dele dataene og derefter endelig levere en model tog <1 måned.

nøjagtighed forbedret med over 23% og sprang til ~ 95%!

Evnen til at indstille vores modeller til specifik demografi og definitioner af NSFW giver det mulighed for at være meget mere kraftfuld og dygtig til at håndtere dette problem.