Buscas de Baixo Rendimento: Disponibilidade de Informação na Wikipédia Afeta Decisões de Turistas

Alguma vez você já buscou algo na Wikipédia ou no Google e não encontrou muitos conteúdos bons ou relevantes? Toda vez que isso acontece, nos dá uma pequena índice que o assunto sobre o qual buscamos nos informar não é importante ou interessante. No entanto, essas mensagens implícitas muitas vezes são enviesadas em contra da diversidade e em favor da cultura dominante, sua linguagem e suas tendências.

Um estudo recente (Hinnosaar, Hinnosaar, Kummer, & Slivko, 2019) usou um experimento controlado na Wikipédia para obter uma estimativa do tamanho do efeito que esses vieses podem ter num resultado economicamente relevante no mundo real. Os autores identificaram cidades espanhóis que tinham artigos de baixa qualidade nas Wikipédias em italiano, alemão e francês. Eles dividiram os artigos em um grupo de tratamento e um grupo de controle, ambos de 120 artigos. Depois adicionaram novas informações relevaãéntes aos artigos no grupo de tratamento (principalmente traduzindo das Wikipédias em espanhol e inglês), enquanto os artigos no grupo de controle não foram editados. Eles calculam que o número de turistas vindo da Itália, França e Alemanha (mais especificamente, o total de noites registrados nos hotéis da cidade) aumenta por uma média de 9% em cidades cujos artigos eles melhoraram, comparado com o grupo de controle.

Os autores concentram nas implicações na área de economia, especialmente a questão de por que as pessoas parecem não fornecer informações para a Wikipédia tanto quanto corresponderia ao incentivo econômico que parece existir. Mas o estudo também nos lembra que o viés informacional tem impactos reais e significativos no âmbito social. A maioria dos editores da Wikipédia são homens, e a Google tem incentivo para maximizar o seu lucro através de propagandas e acumular dados pessoais e não para apresentar informações de uma forma equilibrada. As culturas e línguas minoritárias são extremamente sub-representadas na internet como um todo. Então, não surpreende que as buscas com resultados de baixa qualidade afetam desproporcionalmente a pessoas que buscam informação sobre culturas minoritárias e/ou estrangeiras, sobre mulheres, pretos, indígenas, pessoas não brancas, LGBTQ, e àqueles que buscam informações em línguas outras que o inglês. Querendo ou não, toda vez que os criadores de conteúdo ignoram um assunto, e toda vez que um algoritmo dá preferência para assuntos populares à custa dos menos populares, correm o risco de exercer um efeito marginalizador.

O Escândalo da Wikipédia em Ânglico Escocês (Scots)

A situação com a Wikipédia em língua ânglica escocesa (Scots) está mudando o meu jeito de pensar sobre a internet e as línguas minoritárias.

O que aconteceu?

Alguns dias atrás, um post que viralizou no Reddit alegou que um único usuário — norte-americano e não falante de Scots — inundou a versão de Wikipédia nessa língua de artigos escritos em uma versão falsa dessa língua, que não passa de inglês com palavras substituídas usando um dicionário. (Este usuário parece ter agido com boas intenções; era criança quando começou a editar e já pediu desculpas). Outros usuários não falantes de Scots também fizeram um monte de contribuições de baixa qualidade. Aparentemente nunca existiu uma comunidade de autênticos falantes de Scots grande o suficiente para controlar a proliferação de “inglês aescocesado” e preencher o wiki de bons artigos em Scots autêntico. Agora a comunidade da Wikipédia tem que decidir como lidar com esta situação desastrosa: apagar o wiki inteiro, reverter o site a uma versão anterior, recrutar a comunidade de falantes de Scots para reabilitar os artigos?

Scots é uma das duas línguas minoritárias nativas da Escócia. Ao passo que o gaélico escocês é uma língua celta do mesmo grupo que o irlandês, o Scots é essencialmente um dialeto inglês, tendo divergido do inglês da Inglaterra já na época do inglês médio (Middle English) e se desenvolvido separadamente por vários séculos. Assim, o Scots divergiu do inglês padrão mais cedo do que as outras variedades de inglês falados nas Ilhas Britânicas e ao redor do mundo. Scots “largo” — isto é, com pouca influência do inglês padrão — é praticamente ininteligível para falantes de inglês que não têm experiência com ele. No entanto, existem variedades mistos que são bastante influenciados pelo inglês padrão.

É difícil saber exatamente quantas pessoas falam Scots. Dados do censo de 2011 apontam que aproximadamente 1,5 milhão de pessoas na Escócia afirmam que conseguem falá-lo. O futuro da língua é incerta, considerando que novas gerações talvez a abandonem em favor do inglês, enquanto outras pessoas podem usá-la até mais por causa do nacionalismo crescente ou simplesmente por serem orgulhosos da própria cultura. Em qualquer caso, a maioria das pessoas que falam Scots em casa e nas suas comunidades ainda prefere ler e escrever em inglês, especialmente para o tipo de conteúdos relevantes num contexto como a Wikipédia.

A Wikipédia representa um desafio particularmente difícil para as línguas orais que carecem de forma padrão

Notei que vários escoceses comentaram algo como “quero ajudar, mas não me considero qualificado para melhorar os artigos.” Não é só que os falantes nativos não têm a confiança nas suas habilidades na escrita. Existe um outro problema até mais fundamental com este projeto e outros similares. Não existe nem gramatica, nem vocabulário, nem ortografia padrão aceitados por todos os falantes. Existem variedades bem distintas do idioma (Doric, Ulster, Lallans). E as formas não são bem padronizadas nem dentro de uma variedade regional específica. Por isso, quando um editor potencial vê um artigo escrito com formas muito diferentes daqueles do seu próprio idioleto, é muito difícil contribuir ao texto. Então faz sentido que muitos falantes nativos são reticentes a contribuir, especialmente considerando o estado miserável em que a enciclopédia se encontrava e ainda se encontra. E agora a mensagem para os falantes nativos e, “nós criamos uma grande bagunça, mas agora fica pra vocês consertarem.”

Um caso de estudo sobre o comportamento na internet?

Parece que há três tipos de resposta a essa situação. Primeiro, ódio e assédio ao usuário que supostamente causou o problema, e denúncias sobre o estado (de fato, ofensivo) do conteúdo na Wikipédia Scots atual. Segundo, gente tirando sarro da situação bizarra e os artigos meio ridículos que parecem ser só inglês escrito com sotaque escocês. Terceiro, as discussões mais construtivas sobre o que fazer para melhorar a situação.

Ficamos fragmentados em pequenas comunidades, cada uma com seu próprio jeito específico e previsível de reagir a uma notícia como essa. Isso foi claro ao ver as reações na comunidade da Wikipédia, no Twitter, e nos subreddits r/linguistics, r/badlinguistics, r/scotland, etc. Como um prisma, a estrutura das comunidades online separa a nossa interação social em suas partes componentes, cada uma exibindo um caráter puro e limitado. Então, nos cabe ser proativo e nos informar de forma adequada, usando várias fontes e fazendo uso do pensamento crítico, favorecer a discussão construtiva e evitar de alimentar os trolls.

A Wikipédia e frequentemente citada como um dos grandes triunfos da bondade humana realizada na forma de colaboração online. (Todo o conhecimento da humanidade! Gratuito! Acessível por todo mundo, criado por qualquer um!) Mas essa visão não dá conta da instabilidade que existe sob a superfície. Apesar de que a grande maioria da informação na Wikipédia é, de fato, verdadeira e útil, é impossível eliminar o viés enquanto suas editores são um grupo pequeno e não muito diverso, que não representa bem a população de seus usuários e muitas vezes não inclui contribuições de pessoas das comunidades relevantes para os artigos que cobrem fenômenos históricos e culturais. Grandes desastres já ocorreram — notavelmente, o controle sobre a Wikipédia em língua croata foi tomada por neonazistas (existe uma Wikipédia em servo-croata, que é a forma internacional de essencialmente a mesma língua, onde as coisas parecem mais normais).

Isso representa uma ameaça para a língua?

O post original no Reddit sugeriu que o usuário ofensor pode ter feito “mais dano à língua Scots do que qualquer outra pessoa na História.” Se isso parece absurdo, imagina quantas pessoas devem ter visitado o site, visto os artigos aparentemente escritos em inglês com uma caricatura dum sotaque escocês, e concluído que Scots não é uma língua de verdade, e além do mais uma não-língua bastante ridícula. Isso ocorre no contexto agravante de séculos de marginalização. Apesar que eu acho que tudo isso pode ter um resultado mais positivo se acontecer uma reação forte e construtiva, deve ser óbvio: Não se deve colocar uma imitação fraca e inautêntica de uma outra cultura na internet como se fosse verdadeira!

Para saber mais sobre a língua ânglica-escocesa, sugiro o Centro para a Língua Scots, o curso da Open University, o Dicionário da língua Scots, ou a obra do grande poeta Robert Burns.