Es el mayor conjunto de datos de vídeo en primera persona de la historia. Unas tres mil horas de grabaciones recogidas por 855 personas en nueve países. Al igual que ImageNet, podría revolucionar la inteligencia artificial, pero plantea graves preocupaciones sobre cómo se utilizará la tecnología resultante.

Damos por sentado que las máquinas pueden reconocer lo que ven en fotos y vídeos. Esa capacidad se basa en grandes conjuntos de datos como ImageNet, la colección de millones de fotos creada manualmente y que se utiliza para entrenar a la mayoría de los mejores modelos de reconocimiento de imágenes en la última década.

Pero las imágenes de estos conjuntos de datos retratan un mundo de objetos seleccionados, una galería que no captura el caos de la vida cotidiana tal y como lo experimentan las personas. Conseguir que las máquinas vean las cosas como nosotros supondrá un enfoque totalmente nuevo. El laboratorio de inteligencia artificial (IA) de Facebook quiere lograrlo.

Acaba de lanzar el proyecto Ego4D para construir IA capaz de comprender las escenas y actividades vistas desde una perspectiva en primera persona: cómo ven las cosas las personas involucradas, en vez de un espectador. Algo parecido a las imágenes borrosas de GoPro con movimiento tomadas en acción, en lugar de escenas bien enfocadas tomadas por alguien al margen. Facebook quiere que Ego4D haga con los vídeos en primera persona lo que ImageNet hizo con las fotos.

Durante los últimos dos años, Facebook AI Research (FAIR) ha trabajado con 13 universidades de todo el mundo para reunir el mayor conjunto de datos de vídeo en primera persona, específicamente para entrenar modelos de reconocimiento de imágenes de aprendizaje profundo. Las IA entrenadas en ese conjunto de datos serán mejores para controlar los robots que interactúan con personas, o para interpretar imágenes de anteojos inteligentes. La investigadora principal del proyecto de FAIR, Kristen Grauman, explica: “Las máquinas solo podrán ayudarnos en nuestra vida diaria si realmente comprenden el mundo a través de nuestros ojos”.

Dicha tecnología podría ayudar a las personas que necesitan asistencia en su hogar o guiarlas en tareas que quieran aprender. “Los vídeos de este conjunto de datos se parecen mucho más a cómo las personas observan el mundo”, afirma el investigador de visión artificial en Google Brain y Stony Brook University en Nueva York, Michael Ryoo, quien no participa en Ego4D.

Sin embargo, los posibles usos indebidos son claros y preocupantes. La investigación está financiada por Facebook, el gigante de las redes sociales que recientemente ha sido acusado en el Senado de Estados Unidos de anteponer las ganancias al bienestar de las personas, como corroboran las propias investigaciones de MIT Technology Review.

El modelo de negocio de Facebook y de otras grandes empresas tecnológicas consiste en sacar la mayor cantidad de datos posible del comportamiento online de las personas y venderlos a anunciantes. La IA descrita en el proyecto podría extender ese alcance al comportamiento cotidiano de las personas offline, revelando qué objetos hay alrededor de su hogar, de qué actividades disfrutan, con quién pasan el tiempo e incluso dónde se detiene su mirada: un nivel de información personal sin precedentes.

“Hay cuestiones sobre la privacidad que se deben abordar para sacar esto del mundo de la investigación exploratoria y convertirlo en un producto. Ese trabajo incluso podría estar inspirado por este proyecto”, afirma Grauman.

El mayor conjunto de datos previo de vídeo en primera persona consiste en 100 horas de personas en la cocina. Por su parte, Ego4D consta de 3.025 horas de vídeo grabado por 855 personas en 73 ubicaciones diferentes en nueve países, entre ellos Estados Unidos, Reino Unido, India, Japón, Italia, Singapur, Arabia Saudí, Colombia y Ruanda. Los participantes tenían diferentes edades y orígenes. Algunos fueron reclutados por sus ocupaciones visualmente interesantes, como panaderos, mecánicos, carpinteros y paisajistas.

Los conjuntos de datos anteriores consistían típicamente de vídeo clips semi-planeados con secuencias de sólo unos pocos segundos. Para Ego4D, los participantes llevaron cámaras instaladas en la cabeza durante 10 horas seguidas y capturaron vídeos en primera persona de actividades diarias no planeadas, como caminar por la calle, leer, lavar la ropa, ir de compras, jugar con mascotas, jugar juegos de mesa e interactuar con otras personas. Algunos también incluyen audio, datos sobre dónde iba dirigida la mirada de los participantes y múltiples perspectivas sobre la misma escena. Es el primer conjunto de datos de este tipo, asegura Ryoo.

FAIR también ha lanzado una serie de desafíos que espera que centren los esfuerzos de otros investigadores en el desarrollo de este tipo de IA. El equipo cuenta con algoritmos integrados en los anteojos inteligentes, como las Ray-Ban recientemente anunciadas por Facebook, que graban y registran la vida diaria de los usuarios. Eso significa que las apps de “metaverso” de realidad aumentada o virtual podrían, en teoría, responder a preguntas como “¿dónde están las llaves de mi coche?”, o “¿qué comí y al lado de quién estaba sentado en mi primer vuelo a Francia?” Los asistentes de realidad aumentada podrían comprender lo que queremos hacer y ofrecernos instrucciones o pistas sociales útiles.

Todo esto suena un poco ciencia ficción, pero está más cerca de lo que nos imaginamos, según Grauman. Los grandes conjuntos de datos aceleran la investigación. Y añade: “ImageNet generó importantes avances en poco tiempo. Podemos esperar lo mismo de Ego4D, pero para las vistas del mundo en primera persona en vez de las imágenes de internet”.

Después de recoger los vídeos, los trabajadores colaborativos de Ruanda pasaron un total de 250 mil horas viendo los miles de videoclips y escribiendo millones de frases que describen las escenas y actividades grabadas. Estas anotaciones se utilizarán para entrenar a las IA para que comprendan lo que están viendo.

Queda por ver dónde termina esta tecnología y lo rápido que se desarrollará. FAIR está planeando una competición basada en sus desafíos para junio de 2022. También es importante tener en cuenta que FAIR, el laboratorio de investigación, no es lo mismo que Facebook. De hecho, los conocedores destacan que Facebook ha ignorado las correcciones técnicas que FAIR ha ideado para sus algoritmos tóxicos. Además, al financiar esta investigación resulta ingenuo creer que no está interesada en aplicarla.

Sam Gregory, tecnólogo de la organización de derechos humanos especializado en vídeo Witness, cree que esta tecnología podría ser útil para los espectadores que documentan protestas o abusos policiales, pero que esos beneficios se ven superados por las preocupaciones en torno a las aplicaciones comerciales. También señala que es posible identificar a las personas por su forma de sostener una cámara de video. Los datos de las miradas serían aún más reveladores. “Es un indicador de interés muy fuerte. ¿Cómo se almacenarán los datos de las miradas? ¿Quién tendrá acceso a ellos? ¿Cómo se podrían procesar y usar?”, se pregunta Gregory.

El activista de Electronic Frontier Foundation Rory Mir añade que “la reputación de Facebook y su modelo de negocio central activan muchas alarmas. En estos momentos, muchas personas son conscientes del mal historial de Facebook en materia de privacidad y de su uso de la vigilancia para influir en los usuarios, tanto para mantenerlos enganchados como para vender esa influencia a sus clientes de pago, a los anunciantes”. Cuando se trata de realidad aumentada y virtual, Facebook busca una ventaja competitiva. “Resulta esencial expandir la cantidad y los tipos de datos que recopila”, señala Mir.

Facebook se mostró muy reservado cuando se le preguntó acerca de sus planes. Un portavoz afirmó: “Ego4D es meramente una investigación para fomentar los avances en la comunidad científica en general. No tenemos nada que decir actualmente sobre sus aplicaciones en productos ni sobre su uso comercial”.