SAN FRANCISCO: Docenas de bases de datos de rostros de personas están siendo compiladas sin su conocimiento por parte de compañías e investigadores, muchas de las imágenes que luego se comparten en todo el mundo, en lo que se ha convertido en un vasto ecosistema que alimenta la difusión de la tecnología de reconocimiento facial.
Las bases de datos se juntan con imágenes de redes sociales, sitios web de fotos, servicios de citas como OkCupid y cámaras colocadas en restaurantes y en quads universitarios. Si bien no hay un recuento preciso de los conjuntos de datos, los activistas de la privacidad han identificado repositorios que fueron construidos por Microsoft, la Universidad de Stanford y otros, con uno que tiene más de 10 millones de imágenes, mientras que otro tiene más de dos millones.
Las compilaciones de caras están siendo impulsadas por la carrera para crear sistemas de reconocimiento facial de vanguardia. Esta tecnología aprende a identificar a las personas mediante el análisis de tantas imágenes digitales como sea posible utilizando » redes neuronales «, que son sistemas matemáticos complejos que requieren grandes cantidades de datos para construir el reconocimiento de patrones.
Los gigantes tecnológicos como Facebook y Google probablemente han acumulado los conjuntos de datos de caras más grandes, que no distribuyen, según los trabajos de investigación. Sin embargo, otras compañías y universidades han compartido ampliamente sus imágenes con investigadores, gobiernos y empresas privadas en Australia, China, India, Singapur y Suiza para el entrenamiento de inteligencia artificial, según académicos, activistas y periódicos públicos.
Las empresas y los laboratorios han recopilado imágenes faciales durante más de una década, y las bases de datos son simplemente una capa para construir tecnología de reconocimiento facial. Pero la gente a menudo no tiene idea de que sus caras están en ellos. Y mientras que los nombres generalmente no se adjuntan a las fotos, se puede reconocer a los individuos porque cada rostro es exclusivo de una persona.Una visualización de 2,000 de las identidades incluidas en la base de datos MS Celeb de Microsoft.CréditoOpen Data Commons Public Domain Dedicación y licencia, a través de megapíxeles
Las preguntas sobre los conjuntos de datos están aumentando porque las tecnologías que han habilitado ahora se están utilizando de manera potencialmente invasiva. Los documentos publicados el domingo pasado revelaron que los funcionarios de Inmigración y Control de Aduanas emplearon tecnología de reconocimiento facial para escanear las fotos de los automovilistas para identificar a los inmigrantes indocumentados. Según el informe de la Oficina de Responsabilidad del Gobierno del mes pasado, el FBI también pasó más de una década utilizando estos sistemas para comparar la licencia de conducir y las fotos de visa con las caras de presuntos delincuentes . El miércoles, una audiencia en el Congreso abordó el uso de la tecnología por parte del gobierno.
No hay supervisión de los conjuntos de datos. Los activistas y otros dijeron que estaban enojados por la posibilidad de que las semejanzas de las personas se hubieran utilizado para construir tecnología éticamente cuestionable y que las imágenes pudieran ser mal utilizadas. Al menos una base de datos creada en los Estados Unidos se compartió con una compañía en China que se ha vinculado al perfil étnico de los minoristas musulmanes uigures del país.
Durante las últimas semanas, algunas empresas y universidades, incluidas Microsoft y Stanford, eliminaron sus conjuntos de datos de Internet de Internet debido a problemas de privacidad. Pero dado que las imágenes ya estaban tan bien distribuidas, lo más probable es que todavía se estén usando en los Estados Unidos y en otros lugares, dijeron investigadores y activistas.
«Llegan a ver que estas prácticas son intrusivas y se dan cuenta de que estas compañías no respetan la privacidad», dijo Liz O’Sullivan, quien supervisó una de estas bases de datos en la empresa de inteligencia artificial Clarifai. Ella dijo que dejó la compañía con sede en Nueva York en enero para protestar por tales prácticas.»Cuanto más omnipresente es el reconocimiento facial, más expuestos estamos todos a ser parte del proceso», dijo Liz O’Sullivan, una tecnóloga que trabajó en Clarifai, una empresa emergente de inteligencia artificial.CréditoNathan Bajar para The New York Times
«Cuanto más omnipresente es el reconocimiento facial, más expuestos estamos todos a ser parte del proceso», dijo.
Google, Facebook y Microsoft declinaron hacer comentarios.
[Si está en línea y, bueno, lo está, es probable que alguien esté usando su información. Te diremos lo que puedes hacer al respecto. Suscríbase a nuestro boletín de noticias de edición limitada. ]
Una base de datos, que data de 2014, fue elaborada por investigadores en Stanford. Se llamaba Brainwash, después de un café de San Francisco del mismo nombre, donde los investigadores utilizaron una cámara. Durante tres días, la cámara tomó más de 10,000 imágenes, que ingresaron en la base de datos, escribieron los investigadores en un artículo de 2015 . El documento no abordó si los clientes de los cafés sabían que sus imágenes estaban siendo tomadas y utilizadas para la investigación. (La cafetería ha cerrado.)
Los investigadores de Stanford luego compartieron Brainwash. Según documentos de investigación, fue utilizado en China por académicos asociados con la Universidad Nacional de Tecnología de Defensa y Megvii, una compañía de inteligencia artificial que The New York Times informó anteriormente que ha proporcionado tecnología de vigilancia para monitorear a los uigures .
El conjunto de datos Brainwash se eliminó de su sitio web original el mes pasado después de que Adam Harvey, un activista en Alemania que rastrea el uso de estos repositorios a través de un sitio web llamado MegaPixels , llamó la atención. De acuerdo con la documentación del Sr. Harvey, también se han eliminado los vínculos entre el lavado de cerebro y los documentos que describen el trabajo para construir sistemas de inteligencia artificial en la Universidad Nacional de Tecnología de Defensa en China.
Los investigadores de Stanford que supervisaron Brainwash no respondieron a las solicitudes de comentarios. «Como parte del proceso de investigación, Stanford hace que la documentación de la investigación y los materiales de apoyo estén disponibles públicamente», dijo un funcionario de la universidad. “Una vez que los materiales de investigación se hacen públicos, la universidad no rastrea su uso ni los funcionarios de la universidad”.
Los investigadores de la Universidad de Duke también iniciaron una base de datos en 2014 con ocho cámaras en el campus para recopilar imágenes, de acuerdo con un documento de 2016 publicado como parte de la Conferencia Europea sobre Visión por Computador. Las cámaras fueron denotadas con signos, dijo Carlo Tomasi, el profesor de informática de Duke que ayudó a crear la base de datos. Las señales dieron un número o correo electrónico para que las personas lo rechacen.
Los investigadores de Duke finalmente reunieron más de dos millones de cuadros de video con imágenes de más de 2,700 personas, según el periódico. También publicaron el conjunto de datos, llamado Duke MTMC, en línea. Más tarde, se citó en innumerables documentos que describen el trabajo para capacitar a AI en los Estados Unidos, China, Japón, Gran Bretaña y otros lugares.Los investigadores de la Universidad de Duke comenzaron a construir una base de datos en 2014 con ocho cámaras en el campus para recopilar imágenes.CreditOpen Data Commons Atribución de licencia, a través de megapíxeles
Los investigadores de Duke finalmente reunieron más de dos millones de cuadros de video con imágenes de más de 2,700 personas.CreditOpen Data Commons Atribución de licencia, a través de megapíxeles
El Dr. Tomasi dijo que su grupo de investigación no reconocía la cara y que era poco probable que el MTMC fuera útil para esa tecnología debido a los ángulos y la iluminación deficientes.
«Nuestros datos se registraron para desarrollar y probar algoritmos informáticos que analizan movimientos complejos en video», dijo. «Resultó ser gente, pero podría haber sido bicicletas, carros, hormigas, peces, amebas o elefantes».
En Microsoft, los investigadores han afirmado en el sitio web de la compañía que han creado uno de los conjuntos de datos faciales más grandes. La colección, llamada MS Celeb , incluyó más de 10 millones de imágenes de más de 100,000 personas.
MS Celeb era aparentemente una base de datos de celebridades, cuyas imágenes se consideran un juego justo porque son figuras públicas. Pero MS Celeb también trajo fotos de activistas de privacidad y seguridad, académicos y otros, como Shoshana Zuboff, autora del libro «La era del capitalismo de vigilancia», según la documentación del Sr. Harvey del proyecto MegaPixels. MS Celeb se distribuyó internacionalmente, antes de ser retirado esta primavera después de que Harvey y otros lo marcaron.
Kim Zetter, periodista de ciberseguridad en San Francisco que ha escrito para Wired y The Intercept, fue una de las personas que, sin saberlo, se convirtió en parte del conjunto de datos de Microsoft.
«Todos somos solo un forraje para el desarrollo de estos sistemas de vigilancia», dijo. «La idea de que esto se compartiría con gobiernos y militares extranjeros es simplemente atroz».
Matt Zeiler, fundador y director ejecutivo de Clarifai, la empresa emergente de AI, dijo que su compañía había creado una base de datos con imágenes de OkCupid, un sitio de citas. Dijo que Clarifai tenía acceso a las fotos de OkCupid porque algunos de los fundadores del sitio de citas invirtieron en su compañía.
Añadió que había firmado un acuerdo con una gran empresa de medios sociales (se negó a revelar cuál) para usar sus imágenes en los modelos de reconocimiento facial de capacitación. Los términos de servicio de la red social permiten este tipo de intercambio, dijo.
«Tiene que haber un cierto nivel de confianza con las empresas de tecnología como Clarifai para dar un buen uso a la tecnología poderosa y sentirse cómodo con eso», dijo.
Una portavoz de OkCupid dijo que Clarifai se contactó con la compañía en 2014 «sobre cómo colaborar para determinar si podrían desarrollar una tecnología imparcial de reconocimiento facial y de inteligencia artificial» y que el sitio de citas «no entró en ningún acuerdo comercial y no tiene relación con ellos ahora». no abordó si Clarifai había accedido a las fotos de OkCupid sin su consentimiento.
Clarifai usó las imágenes de OkCupid para construir un servicio que podría identificar la edad, el sexo y la raza de las caras detectadas, dijo Zeiler. La puesta en marcha también comenzó a trabajar en una herramienta para recopilar imágenes de un sitio web llamado Insecam, abreviatura de “cámara insegura”, que se conecta a las cámaras de vigilancia en centros urbanos y espacios privados sin autorización. El proyecto de Clarifai se cerró el año pasado luego de que algunos empleados protestaron y antes de que se reunieran las imágenes, dijo.
Zeiler dijo que Clarifai vendería su tecnología de reconocimiento facial a gobiernos extranjeros, operaciones militares y departamentos de policía siempre que las circunstancias fueran las adecuadas. No tenía sentido imponer restricciones generales a la venta de tecnología a países enteros, agregó.
La Sra. O’Sullivan, ex tecnóloga de Clarifai, se unió a un grupo de derechos civiles y privacidad llamado Proyecto de supervisión de tecnología de vigilancia. Ahora forma parte de un equipo de investigadores que están construyendo una herramienta que permitirá a las personas comprobar si su imagen es parte de las bases de datos de caras compartidas.
«Ustedes son parte de lo que hizo que el sistema sea lo que es», dijo.
Siga a Cade Metz en Twitter: @CadeMetz .