Sesgo de contextualización: el primer paso hacia la mitigación y más allá

https://www.ethicalintelligence.co/blog/contextualizing-bias

Durante todo el mes de marzo para la ECUACIÓN, nos hemos centrado en el sesgo; cómo se refleja en el proceso algorítmico y formas de mitigarlo en la sociedad. Hasta ahora, hemos podido determinar que el sesgo es mucho más que un problema técnico; Los prejuicios algorítmicos son representaciones asombrosamente precisas de los prejuicios y estereotipos sociales existentes. Por lo tanto, puede ser bastante difícil corregir el sesgo en la IA sin corregir la causa raíz, que es la desigualdad social y la injusticia.

Como dice Yonatan Zunger, “los modelos de aprendizaje automático tienen un hábito muy desagradable: aprenderán lo que les muestran los datos y luego te dirán lo que han aprendido. Se niegan obstinadamente a aprender «el mundo como nos gustaría que fuera» o «el mundo como nos gusta decir que es», a menos que les expliquemos explícitamente qué es eso, incluso si nos gusta fingir que estamos haciendo no hay tal cosa.

En nuestra entrevista de expertos con Rahaf Albalkhi de este mes, nos enteramos de que hay más de veinte (20) tipos diferentes de sesgos. Debido a que los prejuicios son una parte tan intrínseca de nuestra existencia, la forma de comenzar a abordarlos es, en primer lugar, admitir y aceptar que todos somos parciales de alguna manera. Solo después de esta admisión podremos comenzar a avanzar hacia la eliminación o mitigación del sesgo. Como notaremos a continuación, la aceptación de que nuestros modelos son defectuosos podría ayudarnos a estar más dispuestos a aprender de nuestros errores y explorar cómo hacer las cosas de manera diferente.

¿CUÁL ES LA MEJOR MANERA DE ELIMINAR EL SESGO?

No existe una mejor manera de eliminar el sesgo. Las técnicas de mitigación de sesgos pueden clasificarse ampliamente en tres métodos; preprocesamiento, en procesamiento y posprocesamiento. El preprocesamiento implica las actividades preliminares realizadas antes del comienzo del proyecto, tanto técnicas como no técnicas, como la obtención y limpieza de datos, y sopesar la importancia de ciertas características de valor en el algoritmo. El procesamiento interno se refiere a las actividades a través de las cuales se regulariza el procesamiento de datos o actividades que generalmente se refieren a la ejecución del algoritmo o al uso de datos, mientras que el procesamiento posterior se refiere e implica ajustes de salida con fines de optimización. En cada una de estas etapas de los enfoques de mitigación de sesgos, también se debe tener cuidado de observar cómo se aplica a los individuos, grupos y subgrupos que se verán afectados por la implementación del algoritmo.

Por ejemplo, un modelo desarrollado para combatir la subrepresentación de las mujeres negras en el aprendizaje automático podría, en cambio, como efecto secundario, perjudicar a las mujeres asiáticas, si se aplica de manera amplia e indiscriminada, en función de los modelos utilizados y sin el debido cuidado y reflexión sobre las consideraciones impuestas para la toma de decisiones. en el sistema.

Por lo tanto, la aplicación de modelos de mitigación de sesgos en la IA, al igual que el despliegue de la IA en sí, debe basarse en el contexto con información sobre el objetivo específico y el propósito detrás de la creación del sistema en mente. Por lo tanto, un sistema entrenado con datos optimizados a través de un historial de influencias raciales no puede reflejar la equidad cuando se aplica a otra situación en la que el resultado esperado es una mejor inclusión para los grupos históricamente marginados.

¿CUÁL ES EL LADO BRILLANTE?

En cierto modo, a pesar de los impactos negativos, la concentración actual en el sesgo de la IA podría ser algo bueno, especialmente porque obliga a las grandes y pequeñas empresas, y a otras partes interesadas, en la sociedad actual a prestar más atención a los problemas de sesgo que podrían restar valor a sus intereses. línea de fondo. Así como un informe reciente de McKinsey ha revelado que Hollywood podría obtener $ 10 mil millones en ingresos anuales si aborda la desigualdad racial persistente, las empresas que desarrollan e implementan soluciones de inteligencia artificial pueden ganar mucho si implementan activamente procesos de mitigación de sesgos en sus soluciones de inteligencia artificial.

La traducción automática es desesperadamente sexista, pero no culpes al algoritmo ni a los datos de entrenamiento.

Desde que se lanzó Google Translate a fines de la década de 2000, los usuarios notaron que se equivocaba en el género. A principios de la década de 2010, algunos usuarios de Twitter expresaron su indignación porque la frase «los hombres deberían limpiar la cocina» se tradujo a «Frauen sollten die Küche sauber» en alemán, que significa «las mujeres deberían limpiar (sic) la cocina».

Diez años después, la traducción automática mejoró drásticamente. «Los hombres deben limpiar la cocina» ahora está traducido correctamente a los 107 idiomas que ofrece Google Translate. Pero quedan muchos problemas.

Google traduce constantemente la frase francesa «une historienne écrit un livre» (una historiadora escribe un libro) a la forma masculina en idiomas con inflexión de género. El error surge de la dependencia de Google del inglés como eje, como AlgorithmWatch mostró anteriormente. Al traducir entre idiomas con inflexión de género, Google primero traduce al inglés, que tiene pocos marcadores de género (por ejemplo, «un historiador» podría ser una persona de cualquier género). Luego, la versión en inglés se traduce al idioma de destino. En este paso, Google Translate adivina el género en función de los datos que recibió durante el entrenamiento.

Estos errores no son inherentes a la traducción automática. Algunos servicios, como Bing Translator o eTranslation de la Comisión Europea, aceptan la existencia de historiadoras.

Hay más. En uno de los dominios específicos de eTranslation, la «jurisprudencia de la propiedad intelectual», los pronombres que son neutrales al género en un idioma no se les asigna un género en el idioma de destino. La frase «hän hoitaa lapsia» en finlandés se traduce como «él / ella cuida a los niños». Otros servicios asignan un género, generalmente femenino, al sujeto de esa oración.

Solo los datos de entrenamiento

Markus Foti encabeza el equipo de 20 personas detrás de eTranslation. Cuando le pregunté cómo lograron proporcionar traducciones más precisas que otros, al menos en lo que respecta al género, se apresuró a señalar que, de hecho, no hacían mucha ingeniería. “El resultado es el resultado de lo que el modelo aprende de los datos utilizados para entrenarlo”, me dijo.

La Comisión Europea creó varios conjuntos de datos desde cero. El uso de «él / ella» para traducir el finlandés «hän» no es una decisión consciente del personal de eTranslation. Más bien, todo se reduce a las decisiones tomadas por los traductores que se especializan en la jurisprudencia de la propiedad intelectual y que tradujeron las numerosas resoluciones que luego se incorporaron a un conjunto de datos de capacitación.

Foti explicó que no sería práctico forzar tales alternativas de género en todos los modelos. Los idiomas que codifican el género de formas más complejas que el inglés (por ejemplo, en las terminaciones de palabras) serían un desafío, sin mencionar que los resultados serían difíciles de leer.

Dentro de ParaCrawl

Para Foti, los datos de formación siguen siendo el factor principal de los resultados sexistas de los servicios de traducción automática. Uno de estos conjuntos de datos es ParaCrawl, que es mantenido por varias universidades europeas y utilizado, entre otros, por eTranslation.

Cualquiera puede descargar estos conjuntos de datos de formación del sitio web paracrawl.eu. Elegí el que tenía pares francés-inglés. Con más de 100 millones de frases y 2 mil millones de palabras, es la oferta más grande. Usé grep, una herramienta de línea de comandos, para explorar el archivo de 26 gigabytes.

El conjunto de datos contiene un millón de frases que contienen la palabra «homme» (hombre) y 900.000 frases que contienen «femme» (mujer). La diferencia es solo una décima parte de un porcentaje del número total de frases. Pero no se distribuye por igual.

Crea tu sitio web con WordPress.com
Comenzar