La vaca cegahisto.cat



17-04-2021  (323 lectures) Categoria: Articles

Reconeixement d'imatges amb xarxes neuronals profundes

Temps de lectura: 10 minuts

脡s bo adonar-nos que els humans hem aconseguit habilitar m脿quines amb les nostres pr貌pies habilitats naturals: aprendre amb l'exemple i percebre el m贸n exterior. L'煤nic problema 茅s que es necessita m茅s temps i esfor莽 per ensenyar als ordinadors com "veure" com nosaltres. Per貌 si pensem en el prop貌sit pr脿ctic que aquesta capacitat ja aporta a les organitzacions i empreses, l'esfor莽 es compensa.

En aquest article aprendr脿s qu猫 茅s el reconeixement d'imatges i com es relaciona amb la visi贸 per computador. Tamb茅 descobrireu qu猫 s贸n les xarxes neuronals i com aprenen a recon猫ixer el que es representa a les imatges. Finalment, discutirem alguns dels casos d'煤s d'aquesta tecnologia entre ind煤stries.

Qu猫 茅s el reconeixement d'imatges i la visi贸 per computador?

El reconeixement d'imatges (o classificaci贸 de la imatge) 茅s la tasca d'identificar les imatges i classificar-les en una de les diverses classes predefinides. Per tant, el programari i les aplicacions de reconeixement d'imatges poden definir qu猫 es mostra en una imatge i distingir un objecte de l'altre.

El camp d'estudi orientat a habilitar m脿quines amb aquesta capacitat聽s'anomena visi贸 per computador. Sent una de les tasques de visi贸 per computador (CV), la classificaci贸 de la imatge serveix de base per resoldre diferents problemes de curr铆culum, entre els quals destaquen:

Classificaci贸 de la imatge amb localitzaci贸: col路locant una imatge en una classe determinada i dibuixant una caixa delimitadora al voltant d'un objecte per mostrar on es troba en una imatge.

https://lh3.googleusercontent.com/QQDHxfGnuDkQw2zQ8RfXcjhj3D5VwemLyLrwPAmFHPqotRWBxupXTb6oUakcKR0160KXweGv0EuJC56SxDNRsoztyssfpiVDup6VARSnz-G0krL8PghaQKVChle1DuDatR4mXT3A

Classificaci贸 de la imatge vs classificaci贸 de la imatge amb localitzaci贸. Font: KDnuggets

Detecci贸 d'objectes: categoritzant diversos objectes diferents de la imatge i mostrant la ubicaci贸 de cadascun d'ells amb quadres delimitats. Per tant, 茅s una variaci贸 de la classificaci贸 de la imatge amb tasques de localitzaci贸 de nombrosos objectes.

Segmentaci贸 d'objectes (sem脿ntics): identificant p铆xels espec铆fics que pertanyen a cada objecte en una imatge en lloc de dibuixar quadres delimitats al voltant de cada objecte com en la detecci贸 d'objectes.

Segmentaci贸 d'inst脿ncies: diferenciaci贸 de diversos objectes (inst脿ncies) pertanyents a la mateixa classe (cada persona d'un grup).

https://lh6.googleusercontent.com/-gGCEd7SyeMJbrnwZ3vE_Og42bluQDtBXFf9DkwR0GcNmavRalXAPQbVGH879axojOQqgFKwPi6KIBZqlTvWwoaimx-ZbJ3IdQ5vHeLis_Flss-ur90iFrKyqUE0g0WBN__rKTiI

La difer猫ncia entre la detecci贸 d'objectes, la segmentaci贸 sem脿ntica i la segmentaci贸 d'inst脿ncies. Font: Els camps aleatoris condicionals es troben amb xarxes neuronals profundes per a la segmentaci贸 sem脿ntica

Els investigadors poden utilitzar models d'aprenentatge profund per resoldre tasques de visi贸 per computador.聽L'aprenentatge profund 茅s una t猫cnica d'aprenentatge autom脿tic que se centra en l'ensenyament de m脿quines d'aprendre amb l'exemple. At猫s que la majoria dels m猫todes d'aprenentatge profund utilitzen arquitectures de xarxes neuronals, els models d'aprenentatge profund sovint s'anomenen xarxes neuronals profundes.

Xarxes neuronals profundes: el "com" darrere del reconeixement d'imatges i altres t猫cniques de visi贸 per computador

El reconeixement d'imatges 茅s una de les tasques en qu猫 destaquen les xarxes neuronals profundes (DNN). Les xarxes neuronals s贸n sistemes inform脿tics dissenyats per recon猫ixer patrons. La seva arquitectura s'inspira en l'estructura del cervell hum脿, d'aqu铆 el nom. Consisteixen en tres tipus de capes: entrada, capes ocultes i sortida. La capa d'entrada rep un senyal, la capa oculta la processa, i la capa de sortida pren una decisi贸 o una previsi贸 sobre les dades d'entrada. Cada capa de xarxa est脿 formada per nodes interconnectats聽(neurones artificials)que fan el c脿lcul.

Qu猫 fa que una xarxa neuronal sigui profunda? Nombre de capes ocultes: Mentre que les xarxes neuronals tradicionals tenen fins a tres capes ocultes, les xarxes profundes poden contenir centenars d'elles.

https://lh6.googleusercontent.com/gDa59RrkzXXvSLflGaFbPHgJav3ejfHKRYmJgCu6M5K6Co0oQqqlPmcuUFmXe_4b9X3XMasg0pH0S1PmG4iuYy186U25P2rCOA2DpaqmkZVFSTWYJb0ZjjZcPpWpchpT343sM5XeL'arquitectura d'una xarxa neuronal, cada capa est脿 formada per nodes. El nombre de capes amagades 茅s opcional. Font: MathWorks

Com les xarxes neuronals aprenen a recon猫ixer patrons

Com entenem si una persona que passa pel carrer 茅s un conegut o un desconegut (no s'inclouen complicacions com la miopia)? Els mirem, analitzem inconscientment la seva aparen莽a, i si algunes caracter铆stiques inherents 鈥 forma de la cara, color dels ulls, pentinat, tipus de cos, marxa o fins i tot opcions de moda 鈥 coincideixen amb una persona espec铆fica que coneixem, reconeixem aquest individu. Aquest treball cerebral triga un moment.

Per tant, per poder recon猫ixer cares, un sistema ha d'aprendre primer les seves caracter铆stiques. S'ha d'entrenar per predir si un objecte 茅s X o Z. Els models d'aprenentatge profund aprenen aquestes caracter铆stiques d'una manera diferent als models d'aprenentatge autom脿tic (LM). 脡s per aix貌 que els enfocaments d'entrenament de models tamb茅 s贸n diferents.

Formaci贸 de models d'aprenentatge profund (com ara xarxes neuronals)

Per construir un model ML que pugui, per exemple,聽predir el churn dels clients,els cient铆fics de dades han d'especificar quines caracter铆stiques d'entrada (propietats del problema) tindr脿 en compte el model a l'hora de predir un resultat. Aix貌 pot ser l'educaci贸, els ingressos, l'etapa del cicle de vida, les caracter铆stiques del producte o els m貌duls utilitzats, el nombre d'interaccions amb el servei d'atenci贸 al client i els seus resultats. El proc茅s de construcci贸 de caracter铆stiques utilitzant el coneixement de domini s'anomena聽enginyeria de caracter铆stiques.

Si hagu茅ssim d'entrenar un model d'aprenentatge profund per veure la difer猫ncia entre un gos i un gat utilitzant enginyeria de funcions... B茅, imagina't recollint caracter铆stiques de milers de milions de gats i gossos que viuen en aquest planeta. No podem construir caracter铆stiques precises que funcionin per a cada imatge possible, tenint en compte complicacions com la variabilitat dels objectes dependents del punt de vista, el desordre de fons, les condicions d'il路luminaci贸 o la deformaci贸 de la imatge. Hi hauria d'haver un altre enfocament, i existeix gr脿cies a la naturalesa de les xarxes neuronals.

Les xarxes neuronals aprenen funcions directament a partir de dades amb les quals estan entrenats, de manera que els especialistes no necessiten extreure funcions manualment.

"El poder de les xarxes neuronals prov茅 de la seva capacitat d'aprendre la representaci贸 en les seves dades d'entrenament i de com relacionar-la millor amb la variable de sortida que es vol predir. En aquest sentit, les xarxes neuronals aprenen mapes. Matem脿ticament, s贸n capa莽os d'aprendre qualsevol funci贸 de mapatge i s'ha demostrat que s贸n algoritmes d'aproximaci贸 universals", assenyala聽Jason Brownlee a聽Crash Course On Multi-Layer Perceptron Neural Networks.

Les dades de formaci贸, en aquest cas, s贸n un gran conjunt de dades que cont茅 molts exemples de cada classe d'imatge. Quan diem un gran conjunt de dades, realment ho volem dir. Per exemple, el conjunt de dades聽ImageNet cont茅 m茅s de 14 milions d'imatges anotades per humans que representen 21.841 conceptes (conjunts de sin貌nims o conjunts de sin貌nims segons la jerarquia de WordNet), amb 1.000 imatges per concepte de mitjana.

Cada imatge est脿 anotada (etiquetada) amb una categoria a la qual pertany: un gat o un gos. L'algoritme explora aquests exemples, apr猫n sobre les caracter铆stiques visuals de cada categoria i finalment apr猫n a recon猫ixer cada classe d'imatge. Aquest model d'estil de formaci贸聽s'anomena aprenentatge supervisat.

https://lh5.googleusercontent.com/lIrTeaAJnd3hx43lqzNVobN48eDzdm24BRXs9u_OH4LfJqkKDVaDsUcqwI8-CYjdzdmJlvbLhJGjYLLgPf1oCAT3LjlYz-MWjbqyRW5dEJav2x2QQzegqOJCbGPZk3_fTKMMLObx

La il路lustraci贸 de com una xarxa neuronal reconeix un gos en una imatge. Font: TowardsDataScience

Cada capa de nodes s'entrena en la sortida (conjunt de caracter铆stiques) produ茂da per la capa anterior. Per tant, els nodes de cada capa successiva poden recon猫ixer caracter铆stiques m茅s complexes i detallades: representacions visuals del que representa la imatge. Aquesta"jerarquia de complexitat i abstracci贸 creixent" es coneix com a聽jerarquia de caracter铆stiques.

https://lh4.googleusercontent.com/2BMU3wyEZXXpeFyZ9ydMP6cZu_y0BXiN2R3PjZKQzJmFn9FnVDZiKPBYv25TBcQBRetiBdTp-OYdGDUeDIzm7oKazCjpsNLKT-eX40nWPnQ501C2-02pI50e-3eSybRe_hgxrbY9

L'exemple de jerarquia de caracter铆stiques apresa per un model d'aprenentatge profund sobre cares de Lee et al. (2009). Font: ResearchGate.net

Per tant, com m茅s capes tingui la xarxa, m茅s gran ser脿 la seva capacitat predictiva.

L'arquitectura l铆der utilitzada per a tasques de reconeixement i detecci贸 d'imatges 茅s les Xarxes Neuronals Convolucionals (CNN). Les xarxes neuronals convolucionals consisteixen en diverses capes amb petites col路leccions de neurones, cadascuna d'elles percebent petites parts d'una imatge. Els resultats de totes les col路leccions d'una capa se superposen parcialment d'una manera de crear tota la representaci贸 de la imatge. La capa seg眉ent repeteix aquest proc茅s sobre la nova representaci贸 de la imatge, permetent al sistema aprendre sobre la composici贸 de la imatge.

La hist貌ria dels CNN profunds es remunta a principis de la d猫cada de 1980. Per貌 nom茅s en la d猫cada de 2010 els investigadors han aconseguit aconseguir una alta precisi贸 en la resoluci贸 de tasques de reconeixement d'imatges amb profundes xarxes neuronals convolucionals. Com? Van comen莽ar a entrenar i desplegar CNN utilitzant unitats de processament de gr脿fics (GPU) que聽acceleren significativament sistemes complexos basats en xarxes neuronals. La quantitat de dades d'entrenament 鈥揻otos o v铆deos鈥 tamb茅 va augmentar perqu猫 les c脿meres de telefonia m貌bil i les c脿meres digitals van comen莽ar a desenvolupar-se r脿pidament i es van fer assequibles.

Casos d'煤s de reconeixement d'imatges

Ara ja coneixeu el reconeixement d'imatges i altres tasques de visi贸 per computador, aix铆 com com les xarxes neuronals aprenen a assignar etiquetes a una imatge o a diversos objectes d'una imatge. Parlem d'algunes aplicacions reals d'aquesta tecnologia.

Detecci贸 de logotips en anal铆tiques de xarxes socials

Les marques supervisen les publicacions de text de les xarxes socials amb les seves mencions de marca per aprendre com els consumidors perceben, avaluen, interactuen amb la seva marca, aix铆 com qu猫 en diuen i per qu猫. Aix貌 es diu escolta social. El tipus d'escolta social que se centra en la supervisi贸 de les converses basades en visuals es diu (drumroll, si us plau)... l'escolta visual.

El fet que m茅s del 80 per cent de les imatges a les xarxes socials amb un logotip de marca no tinguin un nom d'empresa en una llegenda complica l'escolta visual. Com aprofundir en aquest cas? Amb detecci贸 de logotip.

Meerkat startup va dur a聽terme un experiment per mostrar com la detecci贸 de logotips pot ajudar a l'escolta visual. Durant els sis mesos, els startuppers estaven recopilant tuits amb paraules utilitzades habitualment en el context de la cervesa, per聽exemple, cervesa, cerveza, barbacoa, bari altres. Van entrenar un sistema per detectar logotips de marques de cervesa populars: Heineken, Budweiser, Corona, Bud Light, Guinness i Stella Artois. I la van utilitzar per analitzar imatges dels tweets que contenien logotips de marca.

Heineken images

Logotip de Heineken en diferents contextos. Font: El mitj脿 de Meerkat

Especialistes en metadades indexades de tweets per obtenir informaci贸 sobre la quota de mercat de cada marca i els seus consumidors.

En primer lloc, van comparar el nombre de publicacions amb logotips de cada marca amb la seva quota de mercat i van descobrir que aquests dos par脿metres no estan interrelacionats. A continuaci贸, els especialistes van extreure geo-coordenades per gaireb茅 el 73 per cent de les imatges tuitejades per avaluar la pres猫ncia de marca entre regions. A continuaci贸, van tra莽ar el percentatge de cada cervesa per als cinc primers pa茂sos del conjunt de dades. Per exemple, Bud Light 茅s el m茅s popular als EUA, mentre que Heineken t茅 fans en diversos pa茂sos amb m茅s accions als EUA i al Regne Unit. L'equip tamb茅 va analitzar imatges que contenien cares per detectar el g猫nere dels bevedors de cervesa. La difer猫ncia era menor: un 1,34 per cent m茅s d'homes van publicar les imatges.

No 茅s nom茅s mesurar la consci猫ncia de marca. Les empreses utilitzen la detecci贸 de logotips per calcular el ROI a partir de patrocinar esdeveniments esportius o per definir si el seu logotip s'ha fet un mal 煤s.

An脿lisi d'imatges m猫diques

El programari alimentat per models d'aprenentatge profund ajuda els radi貌legs a fer front a una enorme c脿rrega de treball d'interpretaci贸 de diverses imatges m猫diques: tomografia computada (TAC) i ecografies, resson脿ncia magn猫tica (RM) o radiografies.聽IBM destaca que un radi貌leg d'urg猫ncies ha d'examinar fins a 200 casos cada dia. A m茅s, alguns estudis m猫dics contenen fins a 3.000 imatges. No 茅s d'estranyar que les imatges m猫diques representin gaireb茅 el聽90 per cent de totes les dades m猫diques.

Les eines de radiologia basades en IA no substitueixen els cl铆nics, sin贸 que donen suport a la seva presa de decisions. Marquen anomalies agudes, identifiquen pacients d'alt risc o que necessiten tractament urgent perqu猫 els radi貌legs puguin prioritzar les seves llistes de treball.

La divisi贸 de recerca d'IBM a Haifa, Israel, est脿 treballant en聽l'Assistent de Radiologia Cognitiva per a l'an脿lisi d'imatges m猫diques. El sistema analitza les imatges m猫diques i despr茅s combina aquesta visi贸 amb la informaci贸 de la hist貌ria cl铆nica del pacient, i presenta troballes que els radi貌legs poden tenir en compte a l'hora de planificar el tractament.

Demo per a l'eina de detecci贸 de c脿ncer de mama Eyes of Watson d'IBM que utilitza visi贸 per computador i ML. Font:聽IBM Research

Cient铆fics d'aquesta divisi贸 tamb茅 van desenvolupar una xarxa neuronal profunda especialitzada per marcar teixit mamari anormal i potencialment cancer贸s.

Aidoc proporciona una altra soluci贸 que utilitza l'aprenentatge profund per escanejar imatges m猫diques (tacs particularment) i prioritzar les llistes de pacients. La soluci贸 va rebre despatxos de l'Administraci贸 d'Aliments i F脿rmacs dels Estats Units (FDA), B茅ns Terap猫utics d'Austr脿lia (TGA) i marques CE de la Uni贸 Europea per marcar tres condicions de vida amena莽adores: emb貌lia pulmonar, fractura cervical-espinosa i hemorr脿gia intracranial.

Els clients de la companyia inclouen UMass Memorial Medical Center a Worcester, Massachusetts, Montefiore Nyack Hospital al comtat de Rockland, NY, i Global Diagnostics Australia, un centre d'imatge.

Aplicacions per recon猫ixer obres d'art

Magnus 茅s una aplicaci贸 alimentada per la imatge que guia els amants de l'art i els col路leccionistes "a trav茅s de la selva d'art". Un cop un usuari fa una foto d'una pe莽a d'art, l'aplicaci贸 proporciona detalls com ara l'autor, el t铆tol, l'any de creaci贸, les dimensions, el material i, el m茅s important, el preu actual i hist貌ric. L'aplicaci贸 tamb茅 t茅 un mapa amb galeries, museus i subhastes, aix铆 com obres d'art actualment mostrades.

Magnus fonts d'informaci贸 d'una base de dades de m茅s de聽10 milions d'imatges d'obres d'art; la informaci贸 sobre peces i preus 茅s crowdsourced. Fet interessant: Leonardo DiCaprio va invertir en l'aplicaci贸,聽diu Magnus a la seva p脿gina de l'Apple Store.

Els museus poden satisfer la seva fam de coneixement amb aplicacions com聽Smartify. Smartify 茅s una guia muse铆stica que podeu utilitzar en dotzenes dels llocs d'art m茅s coneguts del m贸n com el Metropolitan Museum of Art de Nova York, la Smithsonian National Portrait Gallery de Washington DC, el Louvre de Par铆s, el Rijksmuseum d'Amsterdam, la Royal Academy of Arts de Londres, el Museu Estatal d'Hermitage de Sant Petersburg i altres.

Com funciona Smartify. Font: Smartify

Per revelar detalls sobre una obra d'art, l'aplicaci贸 coincideix amb obres d'art escanejades contra imatges digitals en una base de dades, que contenia gaireb茅 50.000 peces d'art a partir del 2017. La cofundadora de Smartify, Anna Lowe,聽explica com funciona l'aplicaci贸 d'aquesta manera:聽"Escanegem obres d'art amb fotos o imatges digitals i despr茅s creem empremtes digitals de l'obra d'art, el que significa que es redueix a un conjunt de punts i l铆nies digitals".

Reconeixement facial per millorar l'experi猫ncia aeroportu脿ria

El reconeixement facial s'est脿 convertint en mainstream entre les companyies a猫ries que l'utilitzen per millorar l'embarcament i el check-in. Hi ha dues direccions principals d'aquestes actualitzacions: seguir les tend猫ncies d'autoservei i aquesta tecnologia biom猫trica i fer que l'experi猫ncia de l'aeroport sigui m茅s segura i r脿pida. Com menys passos hagin de fer tant els passatgers com el personal per procedir a les rutines pr猫vies al vol, millor.

Els equips d'embarcament escanegen les cares dels viatgers i les relacionen amb les fotos emmagatzemades a les bases de dades de l'ag猫ncia de control fronterer (茅s a dir, duanes i protecci贸 fronterera dels EUA) per verificar la seva identitat i les dades de vol. Podrien ser fotos d'ID, visats o altres documents.

American Airlines, per exemple, va comen莽ar a utilitzar el reconeixement facial a les portes d'embarcament de la Terminal D de l'aeroport internacional de Dallas/Fort Worth, Texas. En lloc d'utilitzar targetes d'embarcament, els viatgers s'escanegen la cara. L'煤nica cosa que no ha canviat 茅s que cal tenir un passaport i un bitllet per passar per un control de seguretat. L'embarcament biom猫tric funciona de manera opt-in.

Embarcament biom猫tric per a passatgers d'American Airlines. Font:聽Not铆cies del mat铆 de Dallas

El 2018, American va estar provant biometria durant 90 dies a la Terminal 4 de l'Aeroport Internacional de Los Angeles amb la idea d'ampliar l'煤s de la tecnologia si l'assaig va b茅.

Nombroses aerol铆nies tamb茅 implementen el reconeixement facial com a opci贸 d'embarcament addicional: JetBlue, British Airways, AirAsia, Lufthansa o Delta. L'煤ltim va instal路lar una聽bossa d'autoservei al Minneapolis-St. Aeroport Internacional de Paul el 2017.

Els l铆mits entre les compres en l铆nia i fora de l铆nia han desaparegut des que la cerca visual va entrar al joc. Per exemple, l'aplicaci贸 Urban Outfitters t茅 una funci贸 Scan + Shop, gr脿cies a la qual els consumidors poden escanejar un article que trobin en una botiga f铆sica o impr猫s en una revista, obtenir la seva descripci贸 detallada i demanar-lo a l'instant. La cerca visual tamb茅 millora l'experi猫ncia de compra en l铆nia.

Les aplicacions amb aquesta capacitat estan alimentades per xarxes neuronals. Els NN processen imatges pujades pels usuaris i generen descripcions d'imatges (etiquetes), per exemple, tipus de pe莽a, tela, estil, color. Les descripcions de les imatges es corresponen amb els elements en estoc juntament amb les etiquetes corresponents. Els resultats de la cerca es presenten en funci贸 d'una puntuaci贸 de similitud.

Hem dedicat una secci贸 sobre la cerca visual a l'article sobre聽com els minoristes utilitzen la IA. All脿 tamb茅 podeu llegir com les tecnologies d'imatge i reconeixement facial han convertit les botigues sense efectiu com Amazon Go en una realitat i tamb茅 com alimenten els sistemes de vigil脿ncia o permeten la personalitzaci贸 a la botiga.

L'obra continua

A la segona part del segle XX, els investigadors van estimar que trigarien relativament poc temps a resoldre un problema de visi贸 per computador, entre altres coses. El 1966, el matem脿tic i exdirector del MIT Computer Science & AI Lab Seymour Papert coordinava el聽Summer Vision Project. Els investigadors tenien un pla ambici贸s: construir una part significativa d'un sistema amb capacitats de visi贸聽per computador, tal com els coneixem avui, durant un estiu.聽"L'objectiu principal del projecte 茅s construir un sistema de programes que divideixi una imatge vidisector en regions com ara objectes probables, 脿rees probablement de fons i caos", va dir la descripci贸 del projecte.

B茅, va trigar molt m茅s. El programari modern pot recon猫ixer un gran nombre d'objectes quotidians, cares humanes, text impr猫s i manuscrit en imatges, i altres entitats (consulteu el nostre article sobre聽apIs de reconeixement d'imatges).) Per貌 el treball continua, i seguirem presenciant com cada vegada m茅s empreses i organitzacions implementen el reconeixement d'imatges i altres tasques de visi贸 per computador per diferenciar-se dels competidors i optimitzar les operacions.