La vaca cegahisto.cat



17-04-2021  (1800 ) Categoria: Articles

Reconeixement d'imatges amb xarxes neuronals profundes

Temps de lectura: 10 minuts

És bo adonar-nos que els humans hem aconseguit habilitar màquines amb les nostres pròpies habilitats naturals: aprendre amb l'exemple i percebre el món exterior. L'únic problema és que es necessita més temps i esforç per ensenyar als ordinadors com "veure" com nosaltres. Però si pensem en el propòsit pràctic que aquesta capacitat ja aporta a les organitzacions i empreses, l'esforç es compensa.

En aquest article aprendràs què és el reconeixement d'imatges i com es relaciona amb la visió per computador. També descobrireu què són les xarxes neuronals i com aprenen a reconèixer el que es representa a les imatges. Finalment, discutirem alguns dels casos d'ús d'aquesta tecnologia entre indústries.

Què és el reconeixement d'imatges i la visió per computador?

El reconeixement d'imatges (o classificació de la imatge) és la tasca d'identificar les imatges i classificar-les en una de les diverses classes predefinides. Per tant, el programari i les aplicacions de reconeixement d'imatges poden definir què es mostra en una imatge i distingir un objecte de l'altre.

El camp d'estudi orientat a habilitar màquines amb aquesta capacitat s'anomena visió per computador. Sent una de les tasques de visió per computador (CV), la classificació de la imatge serveix de base per resoldre diferents problemes de currículum, entre els quals destaquen:

Classificació de la imatge amb localització: col·locant una imatge en una classe determinada i dibuixant una caixa delimitadora al voltant d'un objecte per mostrar on es troba en una imatge.

https://lh3.googleusercontent.com/QQDHxfGnuDkQw2zQ8RfXcjhj3D5VwemLyLrwPAmFHPqotRWBxupXTb6oUakcKR0160KXweGv0EuJC56SxDNRsoztyssfpiVDup6VARSnz-G0krL8PghaQKVChle1DuDatR4mXT3A

Classificació de la imatge vs classificació de la imatge amb localització. Font: KDnuggets

Detecció d'objectes: categoritzant diversos objectes diferents de la imatge i mostrant la ubicació de cadascun d'ells amb quadres delimitats. Per tant, és una variació de la classificació de la imatge amb tasques de localització de nombrosos objectes.

Segmentació d'objectes (semàntics): identificant píxels específics que pertanyen a cada objecte en una imatge en lloc de dibuixar quadres delimitats al voltant de cada objecte com en la detecció d'objectes.

Segmentació d'instàncies: diferenciació de diversos objectes (instàncies) pertanyents a la mateixa classe (cada persona d'un grup).

https://lh6.googleusercontent.com/-gGCEd7SyeMJbrnwZ3vE_Og42bluQDtBXFf9DkwR0GcNmavRalXAPQbVGH879axojOQqgFKwPi6KIBZqlTvWwoaimx-ZbJ3IdQ5vHeLis_Flss-ur90iFrKyqUE0g0WBN__rKTiI

La diferència entre la detecció d'objectes, la segmentació semàntica i la segmentació d'instàncies. Font: Els camps aleatoris condicionals es troben amb xarxes neuronals profundes per a la segmentació semàntica

Els investigadors poden utilitzar models d'aprenentatge profund per resoldre tasques de visió per computador. L'aprenentatge profund és una tècnica d'aprenentatge automàtic que se centra en l'ensenyament de màquines d'aprendre amb l'exemple. Atès que la majoria dels mètodes d'aprenentatge profund utilitzen arquitectures de xarxes neuronals, els models d'aprenentatge profund sovint s'anomenen xarxes neuronals profundes.

Xarxes neuronals profundes: el "com" darrere del reconeixement d'imatges i altres tècniques de visió per computador

El reconeixement d'imatges és una de les tasques en què destaquen les xarxes neuronals profundes (DNN). Les xarxes neuronals són sistemes informàtics dissenyats per reconèixer patrons. La seva arquitectura s'inspira en l'estructura del cervell humà, d'aquí el nom. Consisteixen en tres tipus de capes: entrada, capes ocultes i sortida. La capa d'entrada rep un senyal, la capa oculta la processa, i la capa de sortida pren una decisió o una previsió sobre les dades d'entrada. Cada capa de xarxa està formada per nodes interconnectats (neurones artificials)que fan el càlcul.

Què fa que una xarxa neuronal sigui profunda? Nombre de capes ocultes: Mentre que les xarxes neuronals tradicionals tenen fins a tres capes ocultes, les xarxes profundes poden contenir centenars d'elles.

https://lh6.googleusercontent.com/gDa59RrkzXXvSLflGaFbPHgJav3ejfHKRYmJgCu6M5K6Co0oQqqlPmcuUFmXe_4b9X3XMasg0pH0S1PmG4iuYy186U25P2rCOA2DpaqmkZVFSTWYJb0ZjjZcPpWpchpT343sM5XeL'arquitectura d'una xarxa neuronal, cada capa està formada per nodes. El nombre de capes amagades és opcional. Font: MathWorks

Com les xarxes neuronals aprenen a reconèixer patrons

Com entenem si una persona que passa pel carrer és un conegut o un desconegut (no s'inclouen complicacions com la miopia)? Els mirem, analitzem inconscientment la seva aparença, i si algunes característiques inherents – forma de la cara, color dels ulls, pentinat, tipus de cos, marxa o fins i tot opcions de moda – coincideixen amb una persona específica que coneixem, reconeixem aquest individu. Aquest treball cerebral triga un moment.

Per tant, per poder reconèixer cares, un sistema ha d'aprendre primer les seves característiques. S'ha d'entrenar per predir si un objecte és X o Z. Els models d'aprenentatge profund aprenen aquestes característiques d'una manera diferent als models d'aprenentatge automàtic (LM). És per això que els enfocaments d'entrenament de models també són diferents.

Formació de models d'aprenentatge profund (com ara xarxes neuronals)

Per construir un model ML que pugui, per exemple, predir el churn dels clients,els científics de dades han d'especificar quines característiques d'entrada (propietats del problema) tindrà en compte el model a l'hora de predir un resultat. Això pot ser l'educació, els ingressos, l'etapa del cicle de vida, les característiques del producte o els mòduls utilitzats, el nombre d'interaccions amb el servei d'atenció al client i els seus resultats. El procés de construcció de característiques utilitzant el coneixement de domini s'anomena enginyeria de característiques.

Si haguéssim d'entrenar un model d'aprenentatge profund per veure la diferència entre un gos i un gat utilitzant enginyeria de funcions... Bé, imagina't recollint característiques de milers de milions de gats i gossos que viuen en aquest planeta. No podem construir característiques precises que funcionin per a cada imatge possible, tenint en compte complicacions com la variabilitat dels objectes dependents del punt de vista, el desordre de fons, les condicions d'il·luminació o la deformació de la imatge. Hi hauria d'haver un altre enfocament, i existeix gràcies a la naturalesa de les xarxes neuronals.

Les xarxes neuronals aprenen funcions directament a partir de dades amb les quals estan entrenats, de manera que els especialistes no necessiten extreure funcions manualment.

"El poder de les xarxes neuronals prové de la seva capacitat d'aprendre la representació en les seves dades d'entrenament i de com relacionar-la millor amb la variable de sortida que es vol predir. En aquest sentit, les xarxes neuronals aprenen mapes. Matemàticament, són capaços d'aprendre qualsevol funció de mapatge i s'ha demostrat que són algoritmes d'aproximació universals", assenyala Jason Brownlee a Crash Course On Multi-Layer Perceptron Neural Networks.

Les dades de formació, en aquest cas, són un gran conjunt de dades que conté molts exemples de cada classe d'imatge. Quan diem un gran conjunt de dades, realment ho volem dir. Per exemple, el conjunt de dades ImageNet conté més de 14 milions d'imatges anotades per humans que representen 21.841 conceptes (conjunts de sinònims o conjunts de sinònims segons la jerarquia de WordNet), amb 1.000 imatges per concepte de mitjana.

Cada imatge està anotada (etiquetada) amb una categoria a la qual pertany: un gat o un gos. L'algoritme explora aquests exemples, aprèn sobre les característiques visuals de cada categoria i finalment aprèn a reconèixer cada classe d'imatge. Aquest model d'estil de formació s'anomena aprenentatge supervisat.

https://lh5.googleusercontent.com/lIrTeaAJnd3hx43lqzNVobN48eDzdm24BRXs9u_OH4LfJqkKDVaDsUcqwI8-CYjdzdmJlvbLhJGjYLLgPf1oCAT3LjlYz-MWjbqyRW5dEJav2x2QQzegqOJCbGPZk3_fTKMMLObx

La il·lustració de com una xarxa neuronal reconeix un gos en una imatge. Font: TowardsDataScience

Cada capa de nodes s'entrena en la sortida (conjunt de característiques) produïda per la capa anterior. Per tant, els nodes de cada capa successiva poden reconèixer característiques més complexes i detallades: representacions visuals del que representa la imatge. Aquesta"jerarquia de complexitat i abstracció creixent" es coneix com a jerarquia de característiques.

https://lh4.googleusercontent.com/2BMU3wyEZXXpeFyZ9ydMP6cZu_y0BXiN2R3PjZKQzJmFn9FnVDZiKPBYv25TBcQBRetiBdTp-OYdGDUeDIzm7oKazCjpsNLKT-eX40nWPnQ501C2-02pI50e-3eSybRe_hgxrbY9

L'exemple de jerarquia de característiques apresa per un model d'aprenentatge profund sobre cares de Lee et al. (2009). Font: ResearchGate.net

Per tant, com més capes tingui la xarxa, més gran serà la seva capacitat predictiva.

L'arquitectura líder utilitzada per a tasques de reconeixement i detecció d'imatges és les Xarxes Neuronals Convolucionals (CNN). Les xarxes neuronals convolucionals consisteixen en diverses capes amb petites col·leccions de neurones, cadascuna d'elles percebent petites parts d'una imatge. Els resultats de totes les col·leccions d'una capa se superposen parcialment d'una manera de crear tota la representació de la imatge. La capa següent repeteix aquest procés sobre la nova representació de la imatge, permetent al sistema aprendre sobre la composició de la imatge.

La història dels CNN profunds es remunta a principis de la dècada de 1980. Però només en la dècada de 2010 els investigadors han aconseguit aconseguir una alta precisió en la resolució de tasques de reconeixement d'imatges amb profundes xarxes neuronals convolucionals. Com? Van començar a entrenar i desplegar CNN utilitzant unitats de processament de gràfics (GPU) que acceleren significativament sistemes complexos basats en xarxes neuronals. La quantitat de dades d'entrenament –fotos o vídeos– també va augmentar perquè les càmeres de telefonia mòbil i les càmeres digitals van començar a desenvolupar-se ràpidament i es van fer assequibles.

Casos d'ús de reconeixement d'imatges

Ara ja coneixeu el reconeixement d'imatges i altres tasques de visió per computador, així com com les xarxes neuronals aprenen a assignar etiquetes a una imatge o a diversos objectes d'una imatge. Parlem d'algunes aplicacions reals d'aquesta tecnologia.

Detecció de logotips en analítiques de xarxes socials

Les marques supervisen les publicacions de text de les xarxes socials amb les seves mencions de marca per aprendre com els consumidors perceben, avaluen, interactuen amb la seva marca, així com què en diuen i per què. Això es diu escolta social. El tipus d'escolta social que se centra en la supervisió de les converses basades en visuals es diu (drumroll, si us plau)... l'escolta visual.

El fet que més del 80 per cent de les imatges a les xarxes socials amb un logotip de marca no tinguin un nom d'empresa en una llegenda complica l'escolta visual. Com aprofundir en aquest cas? Amb detecció de logotip.

Meerkat startup va dur a terme un experiment per mostrar com la detecció de logotips pot ajudar a l'escolta visual. Durant els sis mesos, els startuppers estaven recopilant tuits amb paraules utilitzades habitualment en el context de la cervesa, per exemple, cervesa, cerveza, barbacoa, bari altres. Van entrenar un sistema per detectar logotips de marques de cervesa populars: Heineken, Budweiser, Corona, Bud Light, Guinness i Stella Artois. I la van utilitzar per analitzar imatges dels tweets que contenien logotips de marca.

Heineken images

Logotip de Heineken en diferents contextos. Font: El mitjà de Meerkat

Especialistes en metadades indexades de tweets per obtenir informació sobre la quota de mercat de cada marca i els seus consumidors.

En primer lloc, van comparar el nombre de publicacions amb logotips de cada marca amb la seva quota de mercat i van descobrir que aquests dos paràmetres no estan interrelacionats. A continuació, els especialistes van extreure geo-coordenades per gairebé el 73 per cent de les imatges tuitejades per avaluar la presència de marca entre regions. A continuació, van traçar el percentatge de cada cervesa per als cinc primers països del conjunt de dades. Per exemple, Bud Light és el més popular als EUA, mentre que Heineken té fans en diversos països amb més accions als EUA i al Regne Unit. L'equip també va analitzar imatges que contenien cares per detectar el gènere dels bevedors de cervesa. La diferència era menor: un 1,34 per cent més d'homes van publicar les imatges.

No és només mesurar la consciència de marca. Les empreses utilitzen la detecció de logotips per calcular el ROI a partir de patrocinar esdeveniments esportius o per definir si el seu logotip s'ha fet un mal ús.

Anàlisi d'imatges mèdiques

El programari alimentat per models d'aprenentatge profund ajuda els radiòlegs a fer front a una enorme càrrega de treball d'interpretació de diverses imatges mèdiques: tomografia computada (TAC) i ecografies, ressonància magnètica (RM) o radiografies. IBM destaca que un radiòleg d'urgències ha d'examinar fins a 200 casos cada dia. A més, alguns estudis mèdics contenen fins a 3.000 imatges. No és d'estranyar que les imatges mèdiques representin gairebé el 90 per cent de totes les dades mèdiques.

Les eines de radiologia basades en IA no substitueixen els clínics, sinó que donen suport a la seva presa de decisions. Marquen anomalies agudes, identifiquen pacients d'alt risc o que necessiten tractament urgent perquè els radiòlegs puguin prioritzar les seves llistes de treball.

La divisió de recerca d'IBM a Haifa, Israel, està treballant en l'Assistent de Radiologia Cognitiva per a l'anàlisi d'imatges mèdiques. El sistema analitza les imatges mèdiques i després combina aquesta visió amb la informació de la història clínica del pacient, i presenta troballes que els radiòlegs poden tenir en compte a l'hora de planificar el tractament.

 

 

Demo per a l'eina de detecció de càncer de mama Eyes of Watson d'IBM que utilitza visió per computador i ML. Font: IBM Research

Científics d'aquesta divisió també van desenvolupar una xarxa neuronal profunda especialitzada per marcar teixit mamari anormal i potencialment cancerós.

Aidoc proporciona una altra solució que utilitza l'aprenentatge profund per escanejar imatges mèdiques (tacs particularment) i prioritzar les llistes de pacients. La solució va rebre despatxos de l'Administració d'Aliments i Fàrmacs dels Estats Units (FDA), Béns Terapèutics d'Austràlia (TGA) i marques CE de la Unió Europea per marcar tres condicions de vida amenaçadores: embòlia pulmonar, fractura cervical-espinosa i hemorràgia intracranial.

Els clients de la companyia inclouen UMass Memorial Medical Center a Worcester, Massachusetts, Montefiore Nyack Hospital al comtat de Rockland, NY, i Global Diagnostics Australia, un centre d'imatge.

Aplicacions per reconèixer obres d'art

Magnus és una aplicació alimentada per la imatge que guia els amants de l'art i els col·leccionistes "a través de la selva d'art". Un cop un usuari fa una foto d'una peça d'art, l'aplicació proporciona detalls com ara l'autor, el títol, l'any de creació, les dimensions, el material i, el més important, el preu actual i històric. L'aplicació també té un mapa amb galeries, museus i subhastes, així com obres d'art actualment mostrades.

Magnus fonts d'informació d'una base de dades de més de 10 milions d'imatges d'obres d'art; la informació sobre peces i preus és crowdsourced. Fet interessant: Leonardo DiCaprio va invertir en l'aplicació, diu Magnus a la seva pàgina de l'Apple Store.

Els museus poden satisfer la seva fam de coneixement amb aplicacions com Smartify. Smartify és una guia museística que podeu utilitzar en dotzenes dels llocs d'art més coneguts del món com el Metropolitan Museum of Art de Nova York, la Smithsonian National Portrait Gallery de Washington DC, el Louvre de París, el Rijksmuseum d'Amsterdam, la Royal Academy of Arts de Londres, el Museu Estatal d'Hermitage de Sant Petersburg i altres.

 

 

Com funciona Smartify. Font: Smartify

Per revelar detalls sobre una obra d'art, l'aplicació coincideix amb obres d'art escanejades contra imatges digitals en una base de dades, que contenia gairebé 50.000 peces d'art a partir del 2017. La cofundadora de Smartify, Anna Lowe, explica com funciona l'aplicació d'aquesta manera: "Escanegem obres d'art amb fotos o imatges digitals i després creem empremtes digitals de l'obra d'art, el que significa que es redueix a un conjunt de punts i línies digitals".

Reconeixement facial per millorar l'experiència aeroportuària

El reconeixement facial s'està convertint en mainstream entre les companyies aèries que l'utilitzen per millorar l'embarcament i el check-in. Hi ha dues direccions principals d'aquestes actualitzacions: seguir les tendències d'autoservei i aquesta tecnologia biomètrica i fer que l'experiència de l'aeroport sigui més segura i ràpida. Com menys passos hagin de fer tant els passatgers com el personal per procedir a les rutines prèvies al vol, millor.

Els equips d'embarcament escanegen les cares dels viatgers i les relacionen amb les fotos emmagatzemades a les bases de dades de l'agència de control fronterer (és a dir, duanes i protecció fronterera dels EUA) per verificar la seva identitat i les dades de vol. Podrien ser fotos d'ID, visats o altres documents.

American Airlines, per exemple, va començar a utilitzar el reconeixement facial a les portes d'embarcament de la Terminal D de l'aeroport internacional de Dallas/Fort Worth, Texas. En lloc d'utilitzar targetes d'embarcament, els viatgers s'escanegen la cara. L'única cosa que no ha canviat és que cal tenir un passaport i un bitllet per passar per un control de seguretat. L'embarcament biomètric funciona de manera opt-in.

 

 

Embarcament biomètric per a passatgers d'American Airlines. Font: Notícies del matí de Dallas

El 2018, American va estar provant biometria durant 90 dies a la Terminal 4 de l'Aeroport Internacional de Los Angeles amb la idea d'ampliar l'ús de la tecnologia si l'assaig va bé.

Nombroses aerolínies també implementen el reconeixement facial com a opció d'embarcament addicional: JetBlue, British Airways, AirAsia, Lufthansa o Delta. L'últim va instal·lar una bossa d'autoservei al Minneapolis-St. Aeroport Internacional de Paul el 2017.

Els límits entre les compres en línia i fora de línia han desaparegut des que la cerca visual va entrar al joc. Per exemple, l'aplicació Urban Outfitters té una funció Scan + Shop, gràcies a la qual els consumidors poden escanejar un article que trobin en una botiga física o imprès en una revista, obtenir la seva descripció detallada i demanar-lo a l'instant. La cerca visual també millora l'experiència de compra en línia.

Les aplicacions amb aquesta capacitat estan alimentades per xarxes neuronals. Els NN processen imatges pujades pels usuaris i generen descripcions d'imatges (etiquetes), per exemple, tipus de peça, tela, estil, color. Les descripcions de les imatges es corresponen amb els elements en estoc juntament amb les etiquetes corresponents. Els resultats de la cerca es presenten en funció d'una puntuació de similitud.

Hem dedicat una secció sobre la cerca visual a l'article sobre com els minoristes utilitzen la IA. Allà també podeu llegir com les tecnologies d'imatge i reconeixement facial han convertit les botigues sense efectiu com Amazon Go en una realitat i també com alimenten els sistemes de vigilància o permeten la personalització a la botiga.

L'obra continua

A la segona part del segle XX, els investigadors van estimar que trigarien relativament poc temps a resoldre un problema de visió per computador, entre altres coses. El 1966, el matemàtic i exdirector del MIT Computer Science & AI Lab Seymour Papert coordinava el Summer Vision Project. Els investigadors tenien un pla ambiciós: construir una part significativa d'un sistema amb capacitats de visió per computador, tal com els coneixem avui, durant un estiu. "L'objectiu principal del projecte és construir un sistema de programes que divideixi una imatge vidisector en regions com ara objectes probables, àrees probablement de fons i caos", va dir la descripció del projecte.

Bé, va trigar molt més. El programari modern pot reconèixer un gran nombre d'objectes quotidians, cares humanes, text imprès i manuscrit en imatges, i altres entitats (consulteu el nostre article sobre apIs de reconeixement d'imatges).) Però el treball continua, i seguirem presenciant com cada vegada més empreses i organitzacions implementen el reconeixement d'imatges i altres tasques de visió per computador per diferenciar-se dels competidors i optimitzar les operacions.