Segment Anything Model y los problemas difíciles de la visión artificial (2023)

2023 es elaño de IA multimodal¡y Latent Space también se está volviendo multimodal!

De los cinco sentidos del cuerpo humano, pondría la vista en la parte superior. Pero, extrañamente, cuando se trata de IA, Computer Vision se ha sentido excluido de la ola reciente en comparación con la generación de imágenes, el razonamiento de texto e incluso la transcripción de audio. Lo probamos por primera vez conla demostración de capacidades de OCR en GPT-4 Developer Livestream, pero hasta la fecha, la capacidad de visión de GPT-4 aún no se ha publicado.

Meta AI superó a OpenAI y a todos los demás al abrir completamente susSegmentar cualquier modelo(SAM) semana pasada, completo con papel, modelo, pesos, datos (6xmás imágenes y400xmás máscaras que OpenImages), y una demostración muy ingeniosasitio web. Este es un cambio marcado con respecto a su lanzamiento anterior de LLaMA, que no tenía licencia comercial. La respuesta ha sido eufórica:

Segment Anything Model and the hard problems of computer vision (1)

SAM fue la comidilla de la ciudad en el ChatGPT Plugins Hackathon y tuve la suerte de reservarjose nelsonquien estaba integrando frenéticamente SAM en Roboflow el pasado fin de semana. Como instructor apasionado, hacker y fundador, Joseph es posiblemente la mejor persona del mundo para ponernos al día sobre el estado de Computer Vision y las implicaciones de SAM. yo ya era fan de el desde sugrupo anteriorcon (con suerte, futuro invitado) Beyang Liu de Sourcegraph, así que esto también sirvió como una puesta al día personal.

¡Disfrutar!¡y háganos saber qué otras noticias/modelos/invitados le gustaría que discutiéramos!

- swyx

Mostrar notas

Corte por tiempo:

Marcas de tiempo

  • [00:00:19] Presentando a José

  • [00:02:28] ¿Por qué Iowa?

  • [00:05:52] Origen de Roboflow

  • [00:16:12] ¿Por qué la visión artificial?

  • [00:17:50] Casos de uso de visión artificial

  • [00:26:15] La economía de la anotación/segmentación

  • [00:32:17] Formatos de anotación de visión artificial

  • [00:36:41] Introducción a la visión artificial y la segmentación

  • [00:39:08] YOLO

  • [00:44:44] Conocimiento mundial de los modelos de base

  • [00:46:21] Segmentar cualquier modelo

  • [00:51:29] SAM: Transferencia de disparo cero

  • [00:51:53] SAM: Prontabilidad

  • [00:53:24] SAM: Etiquetado asistido por modelo

  • [00:56:03] SAM no tiene etiquetas

  • [00:59:23] Etiquetado en el Navegador

  • [01:00:28] Vídeo de demostración de Roboflow + SAM

  • [01:07:27] Predicciones futuras

  • [01:08:04] Multimodalidad GPT4

  • [01:09:27] Problemas difíciles restantes

  • [01:13:57] Pregúntale a Roboflow (2019)

  • [01:15:26] Cómo mantenerse al día en IA

Transcripciones

[00:00:00] Hola a todos. Soy yo swyx y estoy aquí con Joseph Nelson. Oye, bienvenido al estudio. Es agradable. Muchas gracias por tenerme. Nosotros, uh, tenemos una configuración profesional aquí.

[00:00:19] Presentando a José

[00:00:19] Joseph, tú y yo nos conocemos en línea desde hace un tiempo. Escuché por primera vez sobre ti en el podcast de Source Graph con bian y recomiendo encarecidamente que hay una muy buena historia de teoría de juegos que es la mejor historia de aplicación de YC que he escuchado y no seguiré bromeando porque deberían ir a escuchar. a ese.

[00:00:36] ¿Qué opinas? Es una buena historia. Es una buena historia. Es una buena historia. Así que obtuviste tu Licenciatura en Economía de George Washington, por cierto. Hecho de la diversión. También soy econ major también. Eres muy activo políticamente, supongo que hiciste muchas pasantías en cargos políticos y estabas respondiendo a, um, la, la, la gran cantidad de carga que tiene la gente del Congreso en términos de, la apoyo.

[00:01:00] Así que creaste, representando, lo que es Zendesk para el Congreso. Y, eh, me gustó en su podcast de la guía de fuentes cómo habló sobre cómo ser más receptivo a los electores siempre es algo bueno, sin importar de qué lado del pasillo se encuentre. También tuvo una actividad secundaria como instructor de ciencia de datos en la Asamblea General.

[00:01:18] Como consultor en su propia consultoría, y también hizo un montón de cosas de hackathon con Magic Sudoku, que es su transición de NLP a la visión por computadora. Y aparentemente en TechCrunch Disrupt, disrupt en 2019, intentaste agregar ajedrez y esa fue toda tu historia de origen de villano para, Oye, la visión por computadora es demasiado difícil.

[00:01:36] Eso está lleno, la plataforma para hacer eso. Ah, y ahora eres cofundador, director ejecutivo de RoboFlow. Así que esa es tu biografía. Um, lo que no está ahí que

[00:01:43] la gente debería saber de ti? Una cosa clave de la que la gente se da cuenta a los cinco minutos de conocerme es que soy de Iowa. Sí. Y es como una cosa divertidamente novedosa. Quiero decir, ya sabes, crecer en Iowa, es como si todos los que conoces fueran de Iowa.

[00:01:56] Pero luego, cuando me fui a la escuela, no había muchos habitantes de Iowa en gw y la gente decía, oh, como si fueras, eres Iowa Joe. Como, ya sabes, ¿cómo te enteraste de esta escuela aquí? Pensé, oh, bueno, el Pony Express estaba funcionando ese día, así que pude enviar. Así que realmente me gusta apoyarme en eso.

[00:02:11] Entonces te conviertes en un embajador predeterminado para lugares que. La gente no conoce a muchas otras personas de, así que me he encargado de eso para que sea una parte de mi identidad. Entonces, ya sabes, mi nombre de usuario en todas partes Joseph of Iowa, como yo, probablemente puedas encontrar mi número de seguro social simplemente sabiendo que ese es mi nombre de usuario.

[00:02:25] Porque lo puse pegado en todas partes. Entonces eso es, eso es probablemente como una cosa.

[00:02:28] ¿Por qué Iowa?

[00:02:28] ¿Cuál es su mejor propuesta para Iowa? como por qué es

[00:02:30] ¿Iowa increíble? La gente que Iowa está llena de gente que realmente se preocupa. Ya sabes, si estás esperando una larga fila, alguien entablará una conversación, te preguntará cómo estabas Devrel y es como un lugar realmente genuino.

[00:02:40] También era un lugar maravilloso para crecer en ese momento, ya sabes, pensé que era como, eh, sí, estaba un poco avergonzado y luego ser de allí. Y luego, en realidad, mirando hacia atrás, es como, wow, ya sabes, hay buenas escuelas, gente inteligente y amigable. La escuela secundaria a la que fui en realidad Ben Silverman, el director ejecutivo y, o supongo que ex director ejecutivo y cofundador de Pinterest, y tengo los mismos maestros en la escuela secundaria en diferentes.

[00:03:01] La cofundadora, o disculpe, la creadora de crispr, la técnica de edición de genes, la Dra. Jennifer. Doudna. Oh, así que ese es el debate de patentes. Está Doudna. Ah, y luego está Fang Zang. Está bien. Sí. Sí. Entonces, el Dr. Fang Zang, quien creo que finalmente ganó la guerra de patentes, eh, pero también es de la misma escuela secundaria.

[00:03:18] Bueno, ella ganó la patente, pero Jennifer ganó la

[00:03:20] premio.

[00:03:21] Creo que es probable, creo que es probable, quiero decir que lo investigué un poco más de cerca. Creo que fue algo así como que ganó la patente de CRISPR por primera vez y luego Feng la obtuvo para, eh, el primer uso en humanos, que supongo que por razones comerciales es, quizás más, más interesante. Pero no sé, Biolife Sciences, ¿es esa mi área de especialización?

[00:03:38] Sí. Conocer gente que vino de Iowa que hace cosas geniales, ciertamente lo es. Sí. Así que lo reclamaré. Um, pero sí, yo, yo, nosotros, um, en Roble en realidad, estamos trayendo el equipo completo a Iowa por primera vez esta última semana de abril. Y, bueno, gente de Escocia por todas partes, esa es su compañía.

[00:03:54] retirada.

[00:03:54] El Iowa,

[00:03:55] sí. Lindo. Bueno, entonces hacemos dos al año. Ya sabes, hemos hecho Miami, lo hemos hecho. Algunos de los equipos más pequeños lo han hecho como Nashville o Austin o este tipo de lugares, pero dijimos, ya sabes, traigamos de vuelta al origen y las raíces. Uh, y traeremos a todo el equipo a Des Moines, Iowa.

[00:04:13] Entonces, sí, como estaba mencionando, gente de California a Escocia y muchos lugares intermedios vendrán a Des Moines para una semana de, eh, aprendizaje y trabajo. Así que tal vez puedas consultar con esa gente. Si, qué hacen, qué deciden e interpretan sobre lo que mola. nuestro estado Bueno, una cosa, ¿realmente tiene su sede en Des Moines en papel?

[00:04:30] Sí. Sí.

[00:04:30] ¿No es asombroso? Eso es como Delaware de todos y tú dices,

[00:04:33] entonces investigando. Bueno, estamos incorporados en Delaware. Bueno. Somos el Mar de Delaware como la mayoría de las empresas, pero nuestra sede central sí. Está en Des Moines. Y parte de eso son algunas cosas. Uno, es como, ya sabes, está este bonito orgullo de Iowa.

[00:04:43] Y en segundo lugar, Brad y yo crecimos en Brad Mc, cofundador y yo crecimos en Des Moines. Y nos conocimos en el año 2000. Buscamos la aplicación YC. Así que, ya sabes, creo, creo que la mayor parte de mi vida he conocido a Brad que no, uh, lo cual es un poco loco. Guau. Y durante yc, lo hicimos durante 2020, así que fue como el apogeo de Covid.

[00:05:01] Así que conseguimos una casa en Des Moines y vivimos, trabajamos fuera de allí. Quiero decir, más crédito para. Así que me mudé de regreso. Vivía en DC en ese momento, me mudé de regreso a Des Moines. Brad vivía en Des Moines, pero se mudó de casa con la suya. Para mudarnos a lo que llamamos nuestra casa de hackers. Y luego tuvimos un miembro del equipo también, Jacob Sorowitz, que se mudó de Minneapolis a Des Moines durante el verano.

(Video) Clase en vivo - Entrenamiento que ayuda con más de 10 problemas de visión

[00:05:21] Y, francamente, el código fue un buen momento para construir una empresa YC porque no había mucho más que hacer. Quiero decir, es como lavar tus compras y codificar. Es una especie de, esa era la rutina

[00:05:30] y también puedes usar la visión por computadora para ayudarte con tus compras.

[00:05:33] Eso es exactamente correcto. Dime qué hacer.

[00:05:35] ¿Qué hay en mi refrigerador? ¿Qué debo cocinar? Oh, lo haremos, lo haremos, lo cubriremos

[00:05:37] eso para con el G P T cuatro, eh, cosas. Exactamente. Bueno. Así que has aparecido en muchos eventos de prensa. Uh, pero tal vez solo cubriremos la historia del origen con un poco más de detalle. Entonces, cubriremos el flujo de robo y luego cubriremos, entraremos en el segmento de cualquier cosa.

[00:05:52] Origen de Roboflow

[00:05:52] Pero, eh, creo que es importante que la gente lo entienda. Robo solo porque les da contexto a las personas sobre lo que está a punto de mostrarnos al final del podcast. Así que Magic Sudoku tc, eh, techers Disrupt, y luego vas, te unes a Pioneer, que es Dan Gross, um, YC antes de yc.

[00:06:07] Sí. Así es como lo pienso.

[00:06:08] Sí, esa es una buena manera. Esa es una buena descripción de eso. Sí. Así que quiero decir, robo flow comienza como mencionaste con esta cosa mágica de Sudoku. Mencionaste que uno de mis negocios anteriores era una empresa llamada Represent, y lo lograste. Quiero decir, el Congreso de los Estados Unidos recibe 80 millones de mensajes al año. Creamos herramientas que las ordenaron automáticamente.

[00:06:23] No usaron ninguna clasificación automática inteligente. Y este es un problema algo resuelto en el procesamiento del lenguaje natural de hacer modelos de temas o agrupar sentimientos similares y cosas como esta. Y como mencionaste, me gustaría, trabajé en DC por un tiempo y estuve expuesto a algunos de estos problemas y cuando estaba como, oh, ya sabes, con la programación puedes crear soluciones.

[00:06:40] Y creo que el Congreso de los EE. UU. es, ya sabes, el tipo de EE. UU. es un centro de apoyo, por así decirlo, y los EE. UU. son un centro deportivo que funciona con un software bastante antiguo, así que mm-hmm . Nosotros, um, construimos un producto para eso. De hecho, fue en el momento en que estaba trabajando en la representación. Brad, su negocio anterior, um, es una compañía de juegos sociales llamada Hatchlings.

[00:07:00] Uh, me llamó, en 2017, Apple había lanzado un kit AR de realidad aumentada. Y Brad y yo somos una especie de piratas informáticos en serie, como si me gustara ir a los hackatones, realmente no entiendo las nuevas tecnologías hasta que construye algo con ellos. Y cuando apareció AR Kit, Brad decidió que quería construir un juego con él que pudiera resolver los rompecabezas de Sudoku.

[00:07:19] Y la idea del juego sería que tomas tu teléfono, lo sostienes sobre un rompecabezas de Sudoku, reconoce el estado del tablero donde está y luego lo llena todo justo ante tus ojos. Y él me llamó y yo estaba como, Brad, esto suena increíble y suena como si lo hubieras resuelto.

[00:07:34] ¿Qué, qué, uh, qué, qué crees que puedo hacer aquí? Es como, bueno, la pieza de aprendizaje automático de esto es la parte de la que estoy más inseguro. Uh, haciendo el reconocimiento de dígitos y, um, completando algunos de esos resultados. Pensé, bueno, quiero decir, el reconocimiento de dígitos es como el infierno del mundo de la visión por computadora.

[00:07:48] Eso es Sí, sí, MNIST, correcto. Así que pensé que esa parte debería ser la parte fácil. Yo estaba como, ah, estoy, él está como, no estoy tan seguro, pero. Ya sabes, las otras partes, la mecánica del juego móvil AR, las tengo bastante bien resueltas. Yo estaba como, creo que estás equivocado. Creo que estás pensando en que la parte difícil es la parte fácil.

[00:08:02] Y él dice, no, estás equivocado. La parte difícil es la parte fácil. Y para resumir, construimos esta cosa y lanzamos Magic Sudoku y llamó la atención de Internet sobre lo que se podía hacer con la realidad aumentada y con la visión por computadora. Ya sabes, llegó a la oferta principal y algunos subreddits ejecutan la aplicación Product Hunt Air del año.

[00:08:20] Y fue realmente un destello en la aplicación tipo pan, ¿verdad? Como si ambos estuviéramos dirigiendo compañías separadas en ese momento y en su mayoría queríamos jugar con la nueva tecnología. Y, um, un dato divertido sobre el producto ganador de Magic Sudoku, la aplicación Hunt Air del año. Ese fue el mismo año en que creo que salió el modelo tres.

[00:08:34] Y así, Elon Musk ganó un Golden Kitty con quien bromeamos que compartimos un premio, con Elon Musk. Um, la idea era que esto desencadenaría una revolución de si dos ingenieros al azar pueden armar algo que hace algo, hace que un juego sea programable e interactivo, entonces seguramente muchos otros ingenieros lo harán.

[00:08:53] Haz algo similar al agregar capas programables encima de los objetos del mundo real que nos rodean. Antes bromeábamos sobre los objetos en tu refrigerador, ya sabes, y generamos automáticamente recetas y ese tipo de cosas. Y como dije, eso fue en 2017. Roboflow en realidad fue cofundado, o supongo que incorporado, en 2019.

[00:09:09] Así que publicamos esto, en realidad no pasó nada. Volvimos a nuestros trabajos diarios de administrar nuestros respectivos negocios, vendí Represently y luego, como mencionaste, me gustaba consultar cosas para descubrir el siguiente tipo de cosas, trabajar en ellas, exponerme a varios problemas. . Brad nombró un nuevo CEO en su negocio anterior y nos reunimos ese verano de 2019.

[00:09:27] Dijimos, oye, tal vez deberíamos volver a esa idea que llamó la atención de mucha gente y muestra lo que es posible. Y sabes qué, qué tipo de da, como si el futuro estuviera aquí. Y nadie ha hecho nada desde entonces. Nadie ha hecho nada. Entonces, ¿por qué, por qué no existen estas? Estas aplicaciones proliferaron en todas partes.

[00:09:42] Sí. Entonces dijimos, ya sabes, lo que haremos es agregar esta capa de software al mundo real. Construirá, um, como una súper aplicación donde si apuntas a algo, lo reconocerá y luego podrás interactuar con él. Lanzaremos una plataforma de desarrollo y permitiremos que las personas hagan sus propias interfaces, interactividad para cualquier objeto que estén mirando.

[00:10:04] Y decidimos comenzar con los juegos de mesa porque uno, teníamos un poco de historia allí, con Sudoku dos, hay redes sociales por defecto. Entonces, si una persona lo encuentra, probablemente lo comparta con sus amigos. Grupo tres. En realidad, hay relativamente pocas barreras de entrada aparte de, ya sabes, usar la marca de otra persona en tus materiales de marketing.

[00:10:19] Sí. Pero aparte de eso, no hay inhibidores reales para hacer que las cosas funcionen y, y cuatro, es simplemente divertido. Sería algo en lo que nos traería placer trabajar. Así que pasamos ese verano haciendo, uh, alucinar el juego de palabras de cuatro por cuatro demostrable, donde, ya sabes, a diferencia de Magic Sudoku, que para ser claros, arruina totalmente el juego, uh, tú, tienes que resolver el rompecabezas de Sudoku.

[00:10:40] No necesitas hacer nada más. Pero con Boggle, si tú y yo estamos jugando, es posible que no encontremos todas las palabras que forman mosaicos de letras adyacentes. Quitar el velo. Entonces, si tenemos una IA, dinos: Oye, esta es la mejor combinación de letras que forman palabras de alto puntaje. Entonces, hicimos boggle y lo lanzamos y eso, y funcionó bien.

[00:10:56] Quiero decir, tal vez la historia más interesante fue que hay un programa de inglés como segundo idioma en Canadá que lo tomó y lo usó como parte de su plan de estudios para desarrollar vocabulario, lo cual me pareció amable. de inspirador. Ejemplo, y lo que sucede justo cuando pones las cosas en Internet y luego.

[00:11:09] Queríamos construir uno para el ajedrez. Así que aquí es donde mencionaste que fuimos a 2019. TechCrunch Disrupt TechCrunch. Disrupt organiza un Hackathon. Y esto es en realidad, ya sabes, cuando Brad y yo decimos que realmente nos convertimos en cofundadores, porque volamos a San Francisco, alquilamos una habitación de hotel en Tenderloin. Nosotros, uh, nosotros, nosotros, uh, tenemos una habitación y hay como una, hay espacio para una cama, y ​​luego pensamos, oh, dijiste que había un catre, ya sabes, en el, en el listado.

[00:11:32] Así que les gusta darnos un pequeño, un pequeño catre, el extremo del catre, como sangrado y hacia el baño. Así que estoy durmiendo en el catre con mi cabeza en el baño y el lomo, ya sabes, afortunadamente estamos en un hackathon glamoroso. Sí. No había, no había mucho para dormir.

[00:11:46] Hay, ya sabes, estamos, estamos haciendo y enviando estos, este tipo de muchos

[00:11:50] personas con este truco. Así que nunca he estado en una de estas cosas, pero

[00:11:52] son ​​enormes. ¿Bien? Sí. The Disrupt Hackathon, um, no sé, no sé los números, pero algunos cientos, ya sabes, clásicamente había sido un lugar donde se lanzaban muchos famosos. Sí.

[00:12:01] Una especie de llamarada. Sí. Y creo que es, ya sabes, un poco lento como un lugar para la verdadera generación de empresas. Pero para nosotros, Brad y yo, a quienes nos gusta hacer hackatones, ser, hacer cosas en habilidades de tiempo comprimido, parecía algo divertido de hacer. Y como dije, habíamos estado trabajando en cosas, pero solo ahí estabas, estás, estás atrapado en una situación quizás no tan glamorosa juntos y solo estás allí para hacer un, un programa y quieres que sea el mejor y competir contra otros.

[00:12:26] Entonces agregamos soporte a la aplicación que nos llamaron Board Boss. No pudimos llamarlo de ninguna manera con Boggle porque se llamaron los derechos de propiedad intelectual. Así que lo llamamos Board Boss y era compatible con Boggle y luego íbamos a admitir ajedrez, que, ya sabes, no tiene derechos de propiedad intelectual. Uh, es un juego abierto.

[00:12:39] Y lo hicimos en 48 horas, creamos una aplicación que, o le añadimos capacidad de ajuste. Apunta tu teléfono a un tablero de ajedrez. Entiende el estado del tablero de ajedrez y lo convierte a um, una notación conocida. Luego pasa eso a Stock Fish, el motor de ajedrez de código abierto para hacer recomendaciones de movimiento y hace recomendaciones de movimiento a los jugadores.

[00:13:00] Así que puedes jugar contra la IA como una munición o mejorar tu propio juego. Aprendemos que una de las formas clave en que a los usuarios les gusta usar esto es solo para grabar sus juegos. Porque es casi como revisar la película del juego de lo que deberías haber hecho de manera diferente. Juego. Sí, sí, exactamente. Y supongo que lo más destacado de, eh, del ajedrez Boss fue, ya sabes, llegamos a la primera ronda de evaluación, llegamos a la segunda ronda de evaluación.

[00:13:16] Y durante la segunda ronda de evaluación, es cuando TechCrunch atrae a algunas celebridades y esas cosas. Ellos vendrán. Evan Spiegel pasa por Ooh. Oh, y él uh, él viene a nuestro, nuestro, nuestro stand y um, dice, oh, entonces, ¿qué hace todo esto? Y ya sabes, él se interesa en eso porque los fundamentos de AR interactúan con el.

[00:13:33] Y, eh, es como, ya sabes, podría usar esto para hacer trampa en el ajedrez con mis amigos. Y pensamos, bueno, ya sabes, esa no era exactamente la tesis de por qué lo hicimos, pero me alegro de que, eh, al menos pienses que es un poco genial. Um, espera, ¿pero ya comenzó Snapchat para entonces? Oh sí. Oh sí. Esto, esto es 2019, creo.

[00:13:49] Oh, está bien, está bien. Sí, solo estaba revisando cosas que eran nuevas y, juzgando, no terminó ganando ningún premio dentro de Disrupt, pero creo que lo que ganamos fue en realidad. Tal vez más importante tal vez como la cita, como la medalla de cofundadores en el camino. Sí. Los amigos que hicimos en el camino ahí vamos, a jugar al meme.

[00:14:06] Hubiera preferido ganar, que quede claro. Sí. Has jugado una victoria. Así que ganaste, eh,

[00:14:11] $15,000 de Des Moines, eh, estafa

[00:14:14] concurso. Sí. Sí. Eso fue agradable. Sí. Un poco después de eso, ganamos. Um, algunas, algunas subvenciones y algunas otras cosas por parte del trabajo que hemos estado haciendo. John Papa John apoyando la escena tecnológica local.

[00:14:24] Sí. Bueno, entonces no es el que estás pensando. Bueno. Uh, hay un tipo cuyo nombre es Papa John, como si ese fuera el suyo, ese fuera su, ese fuera su apellido. Su primer nombre es Juan. Así que no es el Papa John's en el que estás pensando que tiene algunos matices problemáticos. Es como este chico que es totalmente diferente. Me siento mal por él.

[00:14:38] Su prensa debe estar como, oh, eh, por todas partes. Pero sí, él es esta figura en la escena empresarial de Iowa que, en realidad, era como hacer SPAC antes de que fueran geniales y ese tipo de cosas, pero sí, financia como subvenciones que fomentan el espíritu empresarial en el estado. Y como habíamos hecho YC y en el estado, éramos elegibles para algunos de los premios que estaban otorgando.

[00:14:56] Pero sí, fue una interrupción que nos dimos cuenta, ya sabes, um, las herramientas que creamos, ya sabes, nos tomó más de un verano agregar el soporte de Boggle y nos tomó 48 horas para agregue soporte para el pecho. Entonces, agregando la capacidad de interfaces programables para cualquier objeto, construimos muchas de esas herramientas internas y nuestras aplicaciones funcionaban como la famosa aleta de tiburón donde se acelera muy rápido, luego se apaga lentamente.

[00:15:20] Mm-mmm. Entonces pensamos, está bien, si obtenemos estos gráficos de aleta de tiburón, tenemos que intentar algo diferente. Um, hay algo diferente. Recuerdo que la semana anterior al Día de Acción de Gracias de 2019 nos sentamos y escribimos este archivo Léame para, en realidad, todavía es el archivo Léame en el repositorio base de Robo Flow que hoy ha pasado relativamente sin editar del manifiesto.

[00:15:36] Vamos a crear herramientas que permitan a las personas hacer que el mundo sea programable. Y hay como seis fases y, ya sabes, todavía hay, uh, muchas, muchas, muchas fases para entrar en lo que escribimos incluso en ese momento para presentar. Pero en gran medida ha estado, um, en línea con lo que pensamos que haríamos, que es dar a los ingenieros las herramientas para agregar software a objetos del mundo real, que se basa en gran medida en la visión por computadora. Entonces, encontrar las imágenes correctas, obtener los tipos correctos de fotogramas de video, tal vez anotarlos, encontrar el tipo correcto de modelos para usar para hacer esto, monitorear el rendimiento, todo este tipo de cosas. Y eso desde, quiero decir, lo lanzamos a principios de 2020, y es algo así como, eso es lo que realmente comenzó a hacer clic.

[00:16:12] ¿Por qué la visión artificial?

[00:16:12] Impresionante. Creo que deberíamos simplemente tipo

[00:16:13] de

[00:16:14] ve directamente a donde estás hoy y dale me gusta a los productos que ofreces, solo para darles a las personas una descripción general y luego podemos pasar a las cosas de SAM. Entonces, ¿cuál es el discurso de ascensor claro y conciso? Creo que mencionaste un montón de cosas como hacer que el mundo sea programable para que no te guste que la visión por computadora sea un medio para un fin.

[00:16:30] Como si hubiera algo más allá de eso. Sí.

[00:16:32] Quiero decir, la misión general para el negocio y la empresa y en lo que estamos trabajando es hacer que el mundo sea programable, que sea de lectura y escritura e interactivo, algo más entretenido, más e. Más diversión y visión artificial es la tecnología mediante la cual podemos lograrlo con bastante rapidez.

[00:16:48] Entonces, como el único forro para el, el producto en, en la empresa está proporcionando a los ingenieros las herramientas para datos y modelos para construir interfaces programables. Um, y eso puede ser flujos de trabajo, eso podría ser, eh, procesamiento de datos, podría ser el entrenamiento del modelo real. Pero sí, Rob lo ayuda a usar rápidamente los flujos de trabajo de visión por computadora listos para la producción.

[00:17:10] Y eso me gusta.

[00:17:11] En parte de tu otro discurso que he escuchado, eh, es que básicamente escalas desde las escalas más pequeñas hasta las escalas más grandes, ¿verdad? Como el tipo de caso de uso de microbiología hasta llegar a

[00:17:20] astronomía. Sí. Sí. La broma que me gusta hacer es como cualquier cosa, um, debajo de un microscopio y a través de un telescopio y todo lo que hay en el medio necesita ser visto.

[00:17:27] Quiero decir, tenemos personas que ejecutan modelos en el espacio exterior, eh, lugares remotos submarinos bajo supervisión y lugares conocidos. Lo loco es que, como, Todas las partes, no solo del mundo, sino del universo deben ser observadas, comprendidas y actuar en consecuencia. Entonces, la visión será, no sé, siento que estamos en los muy, muy, muy comienzos de todas las formas en que lo vamos a ver.

[00:17:50] Casos de uso de visión artificial

[00:17:50] Impresionante. Analicemos algunos de los principales casos de uso, porque creo que eso realmente ayuda a destacar los grandes nombres que tienes, los grandes logotipos que ya tienes. Tengo Walmart y Cardinal Health, pero no, no sé si quieren sacar otros nombres, como, solo para ilustrar, porque la razón, por cierto, la razón por la que creo que muchos los desarrolladores no se involucran en la visión artificial porque creen que no la necesitan.

[00:18:11] Um, o piensan, oh, cuando hago robótica, lo haré. Pero creo que si, si ves la amplitud de los casos de uso, entonces obtienes un poco más de inspiración en cuanto a, oh, puedo usar

[00:18:19] CVS Ifa. Sí. Es algo así como, um, ya sabes, al dar, al hacer que sea tan fácil de usar la visión, se vuelve casi como un hecho de que es un conjunto de características que podrías potenciar.

[00:18:32] Y como mencionaste, hay, sí, hay Fortune One en más de la mitad de Fortune 100. He usado las herramientas que proporciona Robel hasta 250 000 desarrolladores. Y así, más de un cuarto de millón de ingenieros encuentran, desarrollan y crean varias aplicaciones, y quiero decir, esas aplicaciones están, están, están por todas partes.

[00:18:49] Tal como lo mencionaste. Me refiero a todo, desde decir, como, uno del que me gusta hablar fue como la detección de sushi o como encontrar los tipos correctos de pescado e ingredientes que se encuentran en una pieza determinada de sushi que estás viendo para decir como la estimación del techo de como encontrar. Si hay daños por granizo en un techo determinado, por supuesto, los autos sin conductor y la comprensión de las escenas que nos rodean es una especie de, ya sabes, visión de computadora muy temprana en todas partes.

[00:19:13] Use la detección de cascos protectores de casos, como averiguar si un lugar de trabajo determinado es, es, es seguro, eh, diseminar, tener las personas o personas correctas, ¿hay la distancia correcta de varias máquinas? Un gran lugar donde se ha utilizado la visión es el monitoreo ambiental. Uh, ¿cuál es el recuento de especies? ¿Podemos verificar que el medio ambiente no está cambiando de forma inesperada o que las orillas de los ríos se están hundiendo de la forma que anticipamos a partir de las imágenes satelitales, el fenotipo de las plantas?

[00:19:37] Quiero decir, la gente ha usado estas aplicaciones para entender sus plantas e identificarlas. Y ese conjunto de datos que en realidad está abierto en gran medida, que es lo que le ha dado una proliferación a iNaturalist, es todo ese centro de productos. Mucha, um, gente que hace manufactura. Entonces, como Rivian, por ejemplo, es un cliente de Rubal, y ya sabes, están tratando de escalar de 1000 autos a 25,000 autos a cien mil autos en muy poco tiempo.

[00:20:00] Y eso depende de tener el. Capacidad para garantizar visualmente que cada pieza que fabrican se produzca correctamente y en el momento oportuno. Casos de uso médico. Sabes, de hecho, esta mañana estaba enviando un correo electrónico con un usuario que está acelerando la detección temprana del cáncer separando varias partes de las células y contando esas células.

[00:20:23] Y, en realidad, una gran cantidad de trabajo de laboratorio húmedo con el que las personas que están haciendo sus doctorados o han hecho sus doctorados están profundamente familiarizadas y que a menudo se requiere hacer de forma muy manual, de contar, eh, microplasmas o, o cosas como esta. hay Todo tipo de, um, como el conteo de tráfico y los casos de uso de ciudades inteligentes para comprender la utilización de la acera para qué tipo de vehículos están presentes.

[00:20:44] Oh, oh. Eso puede ser

[00:20:46] realmente bueno para la planificación urbana en realidad.

[00:20:47] Sí. Quiero decir, uno de nuestros clientes hace exactamente esto. Ellos, ellos miden y lo llaman como la utilización inteligente de la acera, donde uhhuh, básicamente quieren hacer que una acera sea casi como un espacio dinámico donde, durante estas cantidades de tiempo, está dividido en zonas para esto durante estas cantidades de tiempo.

[00:20:59] Está dividido en zonas para esto en función de los flujos y reflujos y flujos de tráfico a lo largo del día. Así que sí, me refiero a, la, la verdad es que, tienes razón, es como si un desarrollador pudiera decir, oh, ¿cómo usaría la visión? Y luego, de repente, es como, oh hombre, todas estas cosas están al alcance de mi mano. Como puedo, todo lo que puedes ver.

[00:21:13] Sí. Bien. Puedo, solo puedo agregar funcionalidad para que mi aplicación comprenda e ingiera la forma, y ​​por lo general la forma en que alguien es casi un nerd atacado en esto es como si tuvieran un proyecto de automatización del hogar, así que es como enviar Sí . Danos algunos. Sí. Entonces, envíeme un mensaje de texto cuando, um, aparezca un paquete para que pueda evitar el robo del paquete para que pueda bajar y agarrarlo de inmediato o.

[00:21:29] Teníamos un, eh, este es un nicho muy, muy bonito, pero es bastante divertido. Hubo un tipo que, durante la pandemia, quería asegurarse de que su gato tuviera el ejercicio adecuado. Y entonces he compartido la historia donde básicamente decidió eso. Haría una máquina de ejercicios para gatos con visión por computadora, podrías estar solo.

[00:21:43] Estás como, ¿cómo se ve eso? Bueno, lo que decidió fue que tomaría una correa de brazo robótica, un puntero láser y luego entrenaría una máquina para reconocer a su gato y solo a su gato, y apuntaría el puntero láser constantemente a 10 pies de distancia del gato. De hecho, hay un video tuyo si escribes una torreta láser de gato de YouTube, encontrarás el video de Dave.

[00:22:01] Uh, y espero que el gato de Dave haya perdido el peso que necesita, porque eso es solo el, eso es un entrenamiento intenso, tengo que decir. Pero sí, así que, eso es como, um, ya sabes, estos, uh, los proyectos de automatización del hogar son lugares bastante comunes para que las personas ingresen a los comederos inteligentes para pájaros. He visto personas a las que les gusta, están registrando y entendiendo qué tipo de pájaros hay, eh, en su fondo.

[00:22:18] Hay un miembro de nuestro equipo que estaba trabajando en esto como una empresa completa y ha abierto una gran cantidad de datos para hacer la identificación de especies de aves. Y ahora hay, creo que incluso hay una empresa que, eh, se fundó para crear como un comedero inteligente para pájaros, como captura fotos y te dice cuáles has atraído a tu jardín.

[00:22:32] Lo conocí. ¿Sabes cómo esquivar a la compañía de autos compartidos que lo escuchó? Ellos nunca los usaron. Hicieron un SPAC el año pasado y habían recaudado algo como, son unicornios. Recaudaron como 1.200 millones, creo, en la ronda anterior e inspeccionaron un precio similar. Conocí al CTO de Getaround porque estaba usando Rob Flow para piratear sus cámaras Tesla para identificar otros vehículos que a menudo están cerca de él.

[00:22:56] Así que básicamente está creando su propio reconocimiento personalizado de matrículas, y solo quería seguir, seguir, seguir la pista de cuando conduce junto a sus amigos o cuando ve gente normal. Y entonces estaba haciendo como un reconocimiento automático de matrículas aprovechando las imágenes de su cámara. Y, por cierto, Elliot es como uno de los hackers de OG, creo que fue una de las primeras personas a las que les gustó, um, ella rompe iPhones y este tipo de cosas.

[00:23:14] Mm-mmm. Así que sí, el proyecto en el que quiero, eh, en el que voy a trabajar ahora mismo para mi nuevo lugar en San Francisco es. Hay dos puertas. Hay como una puerta y luego la otra puerta. Y a veces nos gusta olvidarnos de cerrar, cerrar la puerta. Entonces, básicamente, si ve que la puerta está abierta, nos enviará un mensaje de texto o algo así para asegurarse de que la puerta esté cerrada en el frente de nuestra casa.

[00:23:32] Eso es

[00:23:32] realmente genial. Y voy a mencionar una cosa que los lectores y oyentes pueden, eh, leer, sobre su historia. Una de sus publicaciones de blog virales iniciales más populares fue sobre conjuntos de datos de vehículos autónomos y cómo, eh, el que estaba usando Udacity faltaba como un tercio de los humanos. Y, eh, no lo es, es bastante problemático que los autos pasen por alto a los humanos.

[00:23:53] Sí, sí, en realidad, así que sí, el conjunto de datos de vehículos autónomos de Udacity, que se ve en su favor, solo estaba destinado a ser utilizado para uso académico. Um, y como parte de los cursos de Udacity, ¿verdad? Sí. Pero el equipo que lo lanzó, lo etiquetó apresuradamente y lo dejó salir para comenzar a usar y entrenar algunos modelos.

[00:24:11] Creo que es probable que algunos, algunos, tal vez, casos de uso comercial hayan llegado y hayan usado, eh, el conjunto de datos, ¿quién puede decirlo? Pero Brad y yo descubrimos este conjunto de datos. Y cuando trabajábamos en herramientas de mejora de conjuntos de datos en Rob Flow, revisamos nuestras herramientas e identificamos algunos problemas clave bonitos, como mencionaste.

[00:24:26] Como, por ejemplo, muchas carriolas no estaban etiquetadas y espero que nuestros autos autónomos hagan ese tipo de cosas. Y entonces volvimos a etiquetar todo el conjunto de datos a mano. Tengo un recuerdo muy grato de febrero de 2020. Brad y yo estamos en Taiwán. Entonces, como Covid, en realidad solo se está poniendo en marcha. Y la razón por la que estuvimos allí es que pensamos, Oye, podemos trabajar en esto desde cualquier lugar por un rato.

[00:24:44] Y así pasamos como un, eh, acerquémonos a Covid. Bueno, ya sabes, me gusta decir que tenemos indicadores tempranos de lo malo que iba a ser. Compré un montón de N 90 de cinco antes de irme. Recuerdo que fui a comprar un montón de N 95 y obtuve este aspecto tan loco como este tipo loco del sombrero de hojalata.

[00:25:04] Guau. ¿Qué está haciendo? Y entonces así es como lo supiste. Yo también me preocupé por lo malo que iba a ser. Los dejé a todos en Taiwán porque es como, oh, todos los necesitan. Estaremos bien en los Estados Unidos. Y luego descubrí, por supuesto, que Taiwán era mucho mejor en términos de, um, creo que sí. Seguridad. Pero de todos modos, estábamos en Taiwán porque habíamos planeado este viaje y, en ese momento, no estábamos muy seguros sobre el covid, este tipo de cosas.

[00:25:22] Siempre lo cancelamos. No lo hicimos, pero tengo este, este tiempo muy específico. Brad y yo viajábamos en el tren de Clay de regreso a Taipei. Es como un viaje de cuatro horas. Y mencionaste Pioneer antes, estábamos compitiendo en Pioneer, que es casi como una lista de tareas gamificada. Mm-hmm. Cada semana dices lo que vas a hacer y luego otras personas evalúan.

[00:25:37] ¿Realmente hiciste las cosas que dijiste que ibas a hacer? Una de las cosas que dijimos que íbamos a hacer fue esto, creo que volver a publicar este conjunto de datos. Y es como tarde, tuvimos una semana entera, como, ya sabes, un fin de semana detrás de nosotros y, eh, estamos en este tren y fue una situación muy desagradable, pero volvimos a etiquetar esto, este conjunto de datos, y uno sentado lo envió antes como el domingo, el reloj de cuenta regresiva del domingo comienza a votar por, por.

[00:25:57] Y, um, una vez que esos datos salieron a la luz, tal como mencionaste, se recuperaron y Venture venció, um, se dio cuenta y escribió algunas historias al respecto. Y, por supuesto, volvimos a publicar el conjunto de datos que hicimos nuestro mejor trabajo al etiquetar. Y ahora, si alguien está escuchando, probablemente pueda salir y encontrar algunos errores que seguramente todavía tenemos y tal vez llamarnos y, ya sabes, ponernos, ponernos a todo volumen.

[00:26:15] La economía de la anotación (segmentación)

[00:26:15] Pero,

(Video) Visión Artificial - Tareas

[00:26:16] um, bueno, bueno, la razón por la que me gusta esta historia es porque llama la atención sobre la idea de que la anotación es difícil y, básicamente, cualquier persona que busque usar la visión por computadora en su negocio y que no tenga un off- el conjunto de datos del estante tendrá que involucrarse en la anotación. Y no sé lo que cuesta.

[00:26:34] Y ese es probablemente uno de los mayores obstáculos para mí para estimar qué tan grande es esta tarea. ¿Bien? Entonces, mi pregunta en un nivel superior es decirles a los clientes, ¿cómo les dices a los clientes que calculen la economía de la anotación? Como cuántas imágenes, ¿necesitamos? ¿Cuánto, cuánto tiempo va a tomar? Eso, ese tipo de cosas.

[00:26:50] ¿Cuánto dinero y luego cuáles son los matices para hacerlo bien, verdad? Como, porque obviamente Udacity tenía un trabajo de mala calidad, ustedes lo habían probado, y hay errores en todas partes. como donde hacer

[00:26:59] estas cosas van mal? La muy buena noticia sobre la anotación en general es que, por supuesto, la anotación es un medio para lograr un fin: tener un modelo que sea capaz de reconocer una cosa.

[00:27:08] Cada vez hay más modelos que están surgiendo que pueden reconocer cosas sin ningún tipo de anotación, de lo que vamos a hablar. Sí. Lo cual, hablaremos más sobre eso en un momento. Pero, en general, la buena noticia es que, al igual que la tendencia, la anotación se convertirá cada vez más en un obstáculo para comenzar a usar la visión por computadora de manera significativa.

[00:27:24] Dicho esto, tal como mencionaste, hay muchos lugares en los que aún debes hacerlo. Anotación. Quiero decir, incluso con estos modelos de tiro cero, es posible que tengan puntos ciegos, o tal vez seas un negocio, como mencionaste, que sabes, son datos propietarios. Como si solo Rivian supiera cómo se supone que debe ser un rivian, ¿verdad?

[00:27:39] Uh, en el momento de, en el momento de su producción, como debajo del capó y, y todo este tipo de cosas. Y entonces, sí, eso necesariamente requerirá una anotación. Entonces, su pregunta de cuánto tiempo tomará, cómo estima este tipo de cosas, realmente se reduce a la complejidad del problema que está resolviendo y la cantidad de variación en la escena.

[00:27:57] Entonces, demos algunos ejemplos contextuales. Si está tratando de reconocer, diremos un rasguño en una parte específica y tiene una iluminación muy fuerte. Es posible que necesite menos imágenes porque controla la iluminación, conoce la pieza exacta y tal vez tenga suerte en el scratch. Ocurre la mayoría de las veces en partes similares o porciones similares de la parte dada.

[00:28:17] Entonces, en ese contexto, tú, tú, la función de la varianza, la varianza es, es, es menor. Por lo tanto, la cantidad de imágenes que necesita también es menor para comenzar a trabajar. Ahora, los órdenes de magnitud de los que estamos hablando es que puedes tener un modelo de trabajo inicial de 30 a 50 imágenes. Sí. En este contexto, que es sorprendentemente bajo.

[00:28:32] Siento que ahora hay una especie de secreto a voces en la visión por computadora, la heurística general con tanta frecuencia. Usuarios, es como, ya saben, tal vez 200 imágenes por clase es cuando comienzan a tener un modelo en el que pueden confiar

[00:28:45] encendido? Rely significa como 90, 99, 90, 90%, um,

[00:28:50] eh, ¿cuánto es 85 más 85? Bueno. Eso es bueno. Una vez más, estas son estimaciones muy, muy tontas debido a la variación de la que estamos hablando.

[00:28:59] Pero la verdadera pregunta es, en qué punto, el encuadre no es en qué punto llega a 99, ¿verdad? El encuadre es en qué punto puedo usar esto para que sea mejor que la alternativa, que son los humanos, que tal vez los humanos o tal vez como si este problema no fuera posible en absoluto. Y por lo general, la pregunta no es, ¿cómo llego a 99?

[00:29:15] ¿Cien por ciento? ¿Cómo me aseguro de que el valor que puedo obtener al poner esto en producción sea mayor que la alternativa? De hecho, incluso si tiene un modelo que es menos preciso que los humanos, puede haber algunas circunstancias en las que pueda tolerar una mayor cantidad de inexactitud.

[00:29:32] Y si observa la precisión en relación con el costo, usar un modelo es extremadamente económico. Usar un ser humano para el mismo tipo de tarea puede ser muy costoso. Ahora, en términos de la precisión real de lo que obtiene, probablemente haya algún punto en el que el costo, pero la precisión relativa supera a un modelo, supera el alto costo y, con suerte, la alta precisión de un humano comparable, como por ejemplo, hay como cámaras que rastrearán balones de fútbol o eventos que sucedan durante los partidos deportivos.

[00:30:02] Y puedes pasar y ya sabes, en realidad tenemos usuarios que trabajan en análisis deportivos. Puedes pasar y tener un humano. Horas y horas de metraje. Porque no solo observan a su equipo, están observando a todos los demás equipos, están observando equipos de ojeadores, están observando equipos juveniles, están observando competidores.

[00:30:15] Y podrías tenerlos como, ya sabes, rastrear y seguir cada vez que la pelota pasa dentro de la región en blanco del campo o cada vez que un jugador en blanco entra, eh, en esta parte del campo. Y podrías tener, ya sabes, una precisión exacta del cien por cien si esa persona, tal vez, tal vez no un cien, un humano puede tener una precisión del 95, 90 7 % cada vez que la pelota está en esta región o este jugador. está en el campo.

[00:30:36] A decir verdad, tal vez si estás buscando análisis, en realidad no necesitas un 97 % de precisión para saber que ese jugador está en el campo. Y, de hecho, si puede hacer que un modelo se ejecute a una 1000, una 10000 del costo y busque todas las veces que Messi estuvo presente en el campo mm-hmm. Que la pelota estaba en esta región del.

[00:30:54] Entonces, incluso si ese modelo es un poco menos preciso, el costo es tan diferente en varios órdenes de magnitud. Y lo que está en juego, como lo que está en juego en este problema, de saber que el número total de minutos que Messi jugará dirá es tal que tenemos una mayor tolerancia al aire, que es una obviedad comenzar a usar Sí, un modelo de visión por computadora en este contexto.

[00:31:12] Entonces, no todos los problemas requieren un desempeño humano equivalente o mayor. Incluso cuando lo hace, te sorprendería lo rápido que llegan los modelos. Y en los momentos en que realmente miras un problema, la pregunta es, ¿cuánta precisión necesito para comenzar a obtener valor de esto? Esta cosa, como el ejemplo del paquete, es excelente, ¿verdad?

[00:31:27] Como si pudiera, en teoría, configurar una cámara que esté mirando constantemente frente a mi porche y podría mirar la cámara cada vez que tengo un paquete y luego bajar. Pero por supuesto, no voy a hacer eso. Valoro mi tiempo para hacer otro tipo de cosas en su lugar. Y ahí, está esta nueva capacidad neta de, oh, genial, puedo tener una cosa siempre activa que me dice cuándo aparece un paquete, incluso si sabes la cosa que me va a enviar un mensaje de texto.

[00:31:46] Cuando aparece un paquete, digamos que aparece un paquete plano en lugar de una caja y no sabe cómo se ve un paquete plano inicialmente. No importa No importa porque no tenía esta capacidad en absoluto antes. Y creo que ese es el caso real donde existen muchos problemas de visión por computadora.

[00:32:00] Es como si ni siquiera tuvieras esta capacidad, este superpoder antes, y mucho menos asignar a un humano determinado para que haga la tarea. Y ahí es donde vemos como esta explosión de, de valor.

[00:32:10] Impresionante. Impresionante. Esa fue una muy buena visión general. Quiero dejar tiempo para los demás, pero realmente quiero sumergirme en un par de cosas más con respecto a Robo Flow.

[00:32:17] Formatos de anotación de visión artificial

[00:32:17] Entonces, una es que, aparentemente, su presentación original para Robo Flow se refería a las herramientas de conversión para conjuntos de datos de visión por computadora. Y estoy seguro que, como resultado de tu trabajo, tienes muchas peroratas. He estado buscando diatribas básicamente sobre los mejores o peores formatos de anotación. ¿Qué sabemos? Porque la mayoría de nosotros, oh Dios mío, solo sabemos, como, ya sabes, me gusta,

[00:32:38] bien, cuando hablamos de formatos de anotación de visión por computadora, de lo que estamos hablando es si tienes una imagen y te imaginas un cuadro boing alrededor de mi cara en esa imagen.

[00:32:46] Sí. ¿Cómo describirías dónde está esa caja de Monty? Coordenadas X, Y, Z X Y. Bueno. Coordenadas X, Y. Cómo, qué quieres decir con las esquinas superiores izquierdas.

[00:32:52] Está bien. Tú, tú, tú, tomas X e Y y luego, y luego el. El largo y, y el ancho del, el

[00:32:58] caja. Bueno. Así que tienes como una coordenada superior izquierda y como la coordenada inferior derecha o como el centro de la parte inferior.

[00:33:02] Sí. Sí. Arriba a la izquierda, abajo a la derecha. Sí. Ese es un tipo de formato. Bueno. Pero luego, um, llegué y dije, ¿sabes qué? Quiero hacer un formato diferente donde solo quiero poner el centro de la caja, correcto. Y da el largo y el ancho. Bien. Y por cierto, ni siquiera hablamos de qué X e Y estamos hablando.

[00:33:14] ¿X es un conteo de píxeles? ¿Es un número relativo de píxeles? ¿Es un recuento absoluto de píxeles? Entonces, el punto es que la cantidad de formas de describir dónde vive una caja en una imagen extraña es interminable, eh, aparentemente y. Todos decidieron crear sus propias formas diferentes de describir las coordenadas y posiciones de dónde está presente el cuadro delimitador en este contexto.

[00:33:39] Uh, entonces hay algunos formatos, por ejemplo, que usan re, así que para x e y, como Y es, eh, como la izquierda, la mayor parte de la imagen es cero. Y la parte más a la derecha de la imagen es uno. Entonces, la coordenada es como cualquier lugar de cero a uno. Así que 0,6 es, ya sabes, el 60 % de tu camino hacia arriba en la imagen para describir la coordenada.

[00:33:53] Supongo que eso fue, eso fue X en lugar de Y. Pero el punto está ahí, del cero a uno es la forma en que determinamos dónde estaba eso en la posición, o vamos a hacer un posición absoluta de píxeles de todos modos. Nos cansamos, nos cansamos de todos estos diferentes formatos de anotación. Entonces, ¿por qué tienes que convertir entre formatos?

[00:34:07] Es otra parte de esta, esta historia. Entonces, diferentes marcos de capacitación, como si está usando TensorFlow, necesita como TF Records. Si está usando PyTorch, probablemente será, bueno, depende del modelo que esté usando, pero alguien podría usar Coco JSON con PyTorch. Alguien más podría usar como a, solo un archivo YAML y un archivo de texto.

[00:34:21] Y para describir el cor su punto es cada uno que crea un modelo. O crea un conjunto de datos más bien, ha creado diferentes formas de describir dónde y cómo está presente un cuadro delimitador en la imagen. Y nos cansamos de todos estos formatos diferentes y de hacer esto al escribir todos estos scripts de conversión diferentes.

[00:34:39] Entonces creamos una herramienta que solo convierte de un script, un tipo de formato a otro. Y la clave es que, si te equivocas en la secuencia de comandos del convertidor, tu modelo no funcionará. Simplemente falla en silencio. Sí. Porque los cuadros delimitadores ahora están todos en los lugares equivocados. Entonces, necesita una forma de visualizar y asegurarse de que su script de conversión, bla, bla, bla.

[00:34:54] Esa fue la primera herramienta que lanzamos de robo. Era solo un script de conversión, ya sabes, como estos, como estos convertidores de PDF a Word que encuentras. Básicamente era eso para la visión por computadora, algo muy simple y realmente molesto. Y lo publicamos y la gente encontró algo, algo de valor en eso.

[00:35:08] Y sabes, hasta el día de hoy sigue siendo como un dolor sorprendentemente doloroso.

[00:35:11] problema. Um, sí, así que tú y yo nos conocimos en el Dall-E Hackathon en OpenAI, y estábamos, estaba tratando de implementar esto como una máscara facial, e inmediatamente me encontré con ese problema porque, um, ya sabes, el, el Los parámetros que esperaba Dall-E eran diferentes de los que obtuve de mi cara, eh, cosa de detección facial.

[00:35:28] Un día desaparecerá, pero ese día no es hoy. Uh, el peor formato con el que trabajamos es, es. La forma mart, simplemente no tiene sentido. Y es como, creo, creo que es un formato de anotación único que esta universidad en China comenzó a usar para describir dónde existen anotaciones en un mercado de libros. Yo, no sé, no sé por qué eso Así que mejor

[00:35:45] sería un registro de TF o algo similar.

[00:35:48] Sí, creo que esta es tu oportunidad de decirles a todos que usen un estándar y decir, vamos, vamos, podemos

[00:35:53] Solo les digo que usen, tenemos un paquete que hace esto por ti. Solo te diré que uses el paquete completo de filas que los convierte a todos, eh, por ti. Así que no tienes que pensar en esto. Quiero decir, Coco JSON es bastante bueno.

[00:36:04] Es como una de las normas más grandes de la industria y ya sabes, está en JS O en comparación con V xml, que es un formato XML y Coco json es bastante descriptivo, pero ya sabes, tiene, tiene su propio tipo de inconvenientes y defectos y tiene atributos aleatorios, no sé. Um, sí, creo que la mejor manera de manejar este problema es no tener que pensar en ello, que es lo que hicimos.

[00:36:21] Acabamos de crear una biblioteca que convierte y usa cosas. para nosotros. Lo hemos comprobado dos veces. Ha habido cientos de miles de personas que han usado la biblioteca y han probado todos estos formatos diferentes para encontrar esos errores silenciosos. Así que me siento muy bien por no tener que tener un formato favorito y confiar en él.

[00:36:38] Carga de puntos en el formato que necesito. Excelente

[00:36:41] Introducción a la segmentación por visión artificial

[00:36:41] servicio a la comunidad. Sí. Vayamos a la segmentación porque está en la mente de todos, pero antes de entrar en el segmento, cualquier cosa, siento que necesitamos un poco de contexto sobre el estado del arte anterior a Sam, que parece ser YOLO. y eh, usted es el principal experto hasta donde yo sé.

[00:36:56] Sí.

[00:36:57] Visión artificial, hay varios tipos de tareas. Hay problemas de clasificación en los que simplemente nos gusta asignar etiquetas a las imágenes, como, ya sabes, tal vez trabajo seguro, trabajo no seguro, tipo de etiquetado. O tenemos la detección de objetos, que son las cajas boing que ves y todos los formatos que mencioné al despotricar sobre la segmentación instantánea, que son las formas poligonales y produce demostraciones realmente atractivas.

[00:37:19] Entonces, a muchas personas les gusta la segmentación instantánea.

[00:37:21] Esto sería como contar pastillas cuando las señalas en la mesa. Sí. Entonces, o

[00:37:25] futbolistas en la cancha. Así que, curiosamente, podrías contar con cuadros delimitadores. Bueno. Porque podrías decir, ya sabes, una caja alrededor de una persona. Bueno, podría contar, ya sabes, 12 jugadores en el campo.

[00:37:35] Las máscaras son muy útiles. Los polígonos son más útiles si necesita medidas de área muy precisas. Así que tienes una foto aérea de una casa y quieres saber, y la casa no es una caja perfecta, y quieres saber los pies cuadrados aproximados de esa casa. Bueno, si conoces la distancia entre el dron y el suelo.

[00:37:53] Y tiene la forma poligonal precisa de la casa, luego puede calcular qué tan grande es esa casa a partir de fotos aéreas. Y luego las aseguradoras pueden, ya sabes, proporcionar estimaciones precisas y tal vez por eso es útil. Entonces, los polígonos y la segmentación instantánea son, ¿son esos tipos de tareas? Hay una tarea de detección de puntos clave y el punto clave es, ya sabes, si has visto esas demostraciones de como todas las articulaciones de una mano, como delineadas, hay tareas de respuesta a preguntas visuales, q y a visuales.

[00:38:21] Y eso es, ya sabes, algunas de las cosas para las que la multimodalidad es absolutamente aplastante, ya sabes, aquí hay una imagen, dime qué comida hay en esta imagen. Y luego puedes pasar eso y puedes hacer una receta con eso. Pero como, um, sí, la pregunta visual al responder el tipo de tarea es dónde tendrá la multimodalidad y ya está teniendo un impacto enorme.

[00:38:40] Así que no es una encuesta exhaustiva, muy problemática, pero es suficiente para explicar por qué SAM es importante. Entonces, estos diversos tipos de tareas, ya sabes, qué modelo usar para qué circunstancia dada. La mayoría de las cosas dependen en gran medida de lo que finalmente pretenda hacer. Por ejemplo, si necesita ejecutar un modelo en el borde, necesitará un modelo más pequeño, porque se ejecutará en el borde, calculará y procesará en, en, en tiempo real.

[00:39:01] Si va a ejecutar un modelo en la nube, entonces, por supuesto, generalmente tiene más cómputo a su disposición Consideraciones como esta ahora, eh,

[00:39:08] YOLO

[00:39:08] solo para hacer una pausa. Sí. ¿Tienes que explicarle a YOLO primero antes de ir a Sam, o

[00:39:11] Sí, sí, seguro. Así que sí. Sí, deberíamos. Así que el mundo de la detección de objetos. Entonces, durante un tiempo hablé sobre varios tipos de tareas diferentes y puedes pensar en una escala deslizante de clasificación similar, luego detección obvia.

[00:39:20] Y a la derecha, en la mayoría de los puntos tienes tareas de segmentación. Detección de objetos. Los cuadros delimitadores son especialmente útiles para un ancho, como es, es sorprendentemente versátil. Mientras que la clasificación similar es un poco frágil. Como si solo tuvieras una etiqueta para toda la imagen. Bueno, eso no, no puedes contar cosas con etiquetas.

[00:39:35] Y por otro lado, como el lado de la máscara de las cosas, dibujar máscaras es minucioso. Y entonces, etiquetar es un poco más difícil. Además, el procesamiento para producir máscaras requiere más computación. Y, por lo general, mucha gente aterrizó durante mucho tiempo en la detección obvia como un medio muy feliz de brindarle capacidades ricas porque puede hacer cosas como contar, rastrear, medir.

[00:39:56] En algún contexto CAGR con cuadros delimitadores, puede ver cuántas cosas están presentes. De hecho, puede tener una idea de qué tan rápido se mueve algo rastreando el objeto o el cuadro delimitador en varios cuadros y comparando la marca de tiempo de dónde estaba en esos cuadros. Entonces, obviamente, la detección es un tipo de tarea muy común que resuelve muchas cosas que desea hacer con un modelo determinado.

[00:40:15] Obviamente en la detección. Ha habido varios marcos modelo a lo largo del tiempo. Así que desde el principio está como R-CNN uh, luego está rc n n más rápido y este tipo de modelos familiares, que se basan en arquitecturas de tipo resnet. Y luego sucede algo importante, y son los detectores de un solo disparo. Entonces, más rápido, rc n n a pesar de su nombre, es muy lento porque toma dos pasadas en la imagen.

[00:40:37] Uh, el primer paso es, encuentra píxeles par en la imagen que son más interesantes para, uh, crear un cuadro delimitador candidato a partir de él. Y luego pasa eso a a, un clasificador que luego clasifica el cuadro delimitador de interés. Bien. Sí. Puedes ver, puedes ver por qué eso sería lento. Sí. Porque tienes que hacer dos pasadas.

[00:40:53] Ya sabes, en realidad dirigido por, eh, como la red móvil, creo que fue el primer detector grande, eh, de un solo disparo. Y como su nombre lo indica, estaba destinado a ejecutarse en dispositivos de borde y dispositivos móviles y Google lanzó la red móvil. Así que es una implementación popular que encuentras en TensorFlow. Y lo que hicieron los detectores de un solo disparo fue decir: Oye, en lugar de mirar la imagen dos veces, ¿qué pasa si tenemos una especie de columna vertebral que encuentra cuadros delimitadores candidatos?

[00:41:19] Y luego, establecemos funciones de pérdida para la objetualidad. Establecemos la función de pérdida. Eso es real. Establecemos funciones de pérdida para la objetualidad, como cuánto obj, cómo el objeto hace esta parte de las imágenes. Enviamos una función de pérdida para la clasificación y luego ejecutamos la imagen a través del modelo en una sola pasada. Y eso ahorra mucho tiempo de cómputo y no es necesariamente tan preciso, pero si tiene menos cómputo, puede ser extremadamente útil.

[00:41:42] Y luego, los avances en ambas técnicas de modelado en computación y calidad de datos, detectores de un solo disparo, SSD se han vuelto, eh, muy, muy populares. Uno de los SSD más grandes que se ha vuelto muy popular son los modelos de la familia YOLO, como describiste. Y así YOLO significa que solo miras una vez. Sí, claro, por supuesto.

[00:42:02] Uh, Drake, uh, otro álbum, um, así que Joseph Redman presenta YOLO en la Universidad de Washington. Y Joseph Redman es un tipo divertido. Entonces, para los oyentes, para un huevo de Pascua, les diré que busquen en Google el currículum de Joseph Redman, y encontrarán, encontrarán My Little Pony. Eso es todo lo que diré. Así que presenta la primera arquitectura YOLO, que es un detector de disparo único, y también lo hace en un marco llamado Darknet, que es así, este marco propio que compila las C, francamente, es un poco difícil trabajar con él. pero le permite beneficiarse de las aceleraciones que avanzan cuando opera en un lenguaje de bajo nivel como.

[00:42:36] Y luego publica, bueno, lo que coloquialmente se conoce como YOLO V dos, pero un periódico se llama YOLO 9,000 porque Joseph Redmond pensó que sería divertido tener algo más de 9,000. Así que hazte una idea de, sí, algo de diversión. Y luego lanza, eh, YOLO V tres y YOLO V tres es algo así como donde las cosas realmente comienzan a hacer clic porque pasa de ser un SSD muy limitado a competitivo y superior a realmente móvil Eso y algunos de estos otros detectores de un solo disparo, lo cual es increíble porque tienes este tipo de solo, quiero decir, él y su asesor, Ali, en la Universidad de Washington tienen estos, eh, modelos que se están volviendo muy, muy poderosos y capaces y competitivos con estos grandes organizaciones de investigación.

[00:43:09] Joseph Edmond deja Computer Vision Research, pero Alexia ab, una de las mantenedoras de Darknet lanzó Yola VI cuatro. Y otro, eh, investigador, Glenn Yer, eh, jocker había estado trabajando en YOLO V tres, pero en una implementación de PyTorch, porque recuerde que YOLO está en una implementación oscura. Y luego, ya sabes, YOLO V tres y luego Glenn continúa haciendo mejoras adicionales a YOLO V tres y muy pronto sus mejoras en la teoría de Yolov, dice, oh, esto es algo propio.

[00:43:36] Luego lanza YOLO V cinco

[00:43:38] con algunos nombres

[00:43:39] controversia de que no tenemos una gran controversia de nombres. El, el demasiado tiempo que no se leyó sobre la controversia de nombres se debe a que Glen no estuvo originalmente involucrado con Darknet. ¿Cómo se le permite usar el apodo de YOLO? Roe se metió en muchos problemas porque escribimos un montón de contenido sobre YOLO V cinco y la gente decía, ah, ¿por qué lo nombras así?

[00:43:55] Um, pero ya sabes,

[00:43:56] genial. Pero de todos modos, lo más avanzado va a v8. Es lo que deduzco.

[00:44:00] Sí, sí. Así que sí. Sí. Estás, estás como, está bien, tengo V cinco. Saltaré hasta el final. Uh, a menos, a menos que haya algo, quiero decir, no quiero, bueno, quiero decir, hay algunas cosas interesantes. Um, en el yolo, hay un montón de variantes de YOLO.

[00:44:10] Entonces, los YOLO se convierten en esto, así, en este cajón de sastre para varias tomas individuales, sí. Para varios disparos individuales, básicamente como carreras en el borde, es un marco de detección rápida. Y entonces, hay, um, como YOLO R, está YOLO S, que es un transformador basado, eh, yolo, pero parece que solo miras una secuencia, eso es lo que eran.

[00:44:27] Um, el pp yo, que, eh, es la implementación de PAT Paddle, que es de Google chino, es su implementación de TensorFlow, por así decirlo. Básicamente, YOLO tiene todas estas variantes. Y ahora, um, yo vii, que es en lo que Glen ha estado trabajando, ahora creo que es como, eh, uno de los modelos elegidos para usar para la detección de un solo disparo.

[00:44:44] Conocimiento mundial de los modelos de base

[00:44:44] Bueno, creo que muchos de esos modelos, ya sabes, haciendo la pregunta del primer director, digamos que quieres encontrar un detector de autobús. ¿Necesita que le guste ir a buscar un montón de fotos de autobuses o tal vez como un detector de sillas? ¿Necesitas ir a buscar un montón de fotos de sillas? Es como, oh no. Ya sabes, en realidad esas imágenes están presentes no solo en el conjunto de datos de cacao, sino que son objetos que existen en general en Internet.

[00:45:02] Y, por lo tanto, las visiones por computadora han sido como nosotros incluidos, han sido como realmente impulsar y alentar modelos que ya poseen mucho contexto sobre el mundo. Entonces, ya sabes, si la idea de GB T y la idea de OpenAI estaban bien, los modelos solo pueden entender las cosas que están en su corpus. ¿Qué pasa si simplemente hacemos que su corpus sea del tamaño de todo lo que hay en Internet?

[00:45:20] Lo mismo que pasó en las imágenes, ¿qué está pasando ahora? Y eso es un poco lo que representa Sam, que es una especie de nueva evolución de, antes hablábamos sobre el costo de la anotación y dije, bueno, buenas noticias. Luego, las anotaciones se vuelven cada vez menos necesarias para comenzar a obtener valor. Ahora tienes que pensarlo más, probablemente necesitarás hacer algunas anotaciones porque quizás quieras encontrar un objeto personalizado, o Sam podría no ser perfecto, pero lo que está por suceder es una gran oportunidad donde quieres los beneficios de un yolo, no?

[00:45:47] Donde puede funcionar muy rápido, puede funcionar al límite, es muy barato. Pero usted quiere el conocimiento de un modelo de base grande que ya sabe todo sobre autobuses y sabe todo sobre zapatos, sabe todo sobre real, si el nombre es cierto, cualquier segmento, cualquier modelo. Entonces, habrá esta nueva oportunidad de tomar lo que saben estos grandes modelos, y supongo que es como una forma de destilación, como destilarlos en arquitecturas más pequeñas que puede usar de formas versátiles para ejecutar en tiempo real para ejecutar el borde.

[00:46:13] Y eso está sucediendo ahora. Y lo que estamos viendo en realidad es algo así como impulsar ese futuro con Robo Flow.

[00:46:21] Segmentar cualquier modelo

[00:46:21] Así que podríamos hablar un poco sobre, um, sobre SAM y lo que representa tal vez, en relación con estos, estos modelos YOLO. Así que Sam es el segmento de Facebook Everything Model. Salió la semana pasada, um, la primera semana de abril.

[00:46:34] Tiene 24 000 estrellas de GitHub en el momento de esta grabación en su primera semana. ¿Y por qué, qué hace? ¿Segmento? Todo es un modelo de segmentación de tiro cero. Y como estamos describiendo, crear máscaras es una tarea muy ardua. Crear máscaras de objetos que aún no están representados significa que tienes que etiquetar un montón de máscaras y luego entrenar un modelo y luego esperar que encuentre esas máscaras en nuevas imágenes.

[00:47:00] Y la promesa de Segmentar cualquier cosa es que, de hecho, solo pasa cualquier imagen y encuentra todas las máscaras de cosas relevantes que podría tener curiosidad por encontrar en una imagen determinada. Y funciona notablemente. Segmente cualquier cosa en crédito para Facebook y el equipo de investigación justo de Facebook, no solo lanzaron la licencia permisiva del modelo para hacer avanzar las cosas, sino que lanzaron el conjunto de datos completo, los 11 millones de imágenes y 1.100 millones de máscaras de segmentación y tres tamaños de modelo.

[00:47:29] Los más grandes como 2,5 gigabytes, que no es enorme. Los medianos como 1.2 y el más pequeño es como 400, 3 75 megas. Y por contexto,

(Video) Aperture Problem in Motion Estimation

[00:47:38] porque, para las personas que escuchan, eso es seis veces más que la alternativa anterior, que aparentemente son imágenes abiertas, eh, en términos de número de imágenes, y luego 400 veces más máscaras que abiertas

[00:47:47] imágenes también.

[00:47:48] Exacto, sí. Tan enorme, enorme ganancia de magnitud de orden en términos de accesibilidad del conjunto de datos, además del modelo y su funcionamiento. Y entonces la pregunta se convierte en, bueno, como segmento. ¿Qué, qué hago con esto? Como, ¿qué me permite hacer? Y Rob no flotaba bien. Si deberías. Sí. Um, ya está allí.

[00:48:04] Tú, um, esa parte está hecha. Uh, pero lo que puedes hacer con segmentar cualquier cosa es que casi puedes, como, casi pienso en esto, como este modelo de arbitraje donde básicamente puedes destilar un modelo gigante. Así que digamos como, como, volvamos al ejemplo del paquete. Bueno. El problema del paquete de, quiero recibir un mensaje de texto cuando aparece un paquete en mi porche antes de segmentar cualquier cosa.

[00:48:25] La forma en que resolvería este problema sería recolectando algunas imágenes de paquetes en mi porche y los etiquetaría, eh, con cuadros delimitadores o tal vez máscaras en esa parte. Como mencionaste, puede ser un proceso largo y entrenaría a un modelo. Y ese modelo probablemente funcionó bastante bien porque está especialmente diseñado.

[00:48:44] La posición de la cámara, mi porche, los paquetes que estoy recibiendo. Pero eso va a tomar algún tiempo, como todo lo que acabo de mencionar ahí va a tomar algún tiempo. Ahora con Segment, cualquier cosa, lo que puedes hacer es ir a tomar algunas fotos de tu porche. Así que estamos, todavía estamos, todavía estamos consiguiendo eso. Y luego le estamos preguntando al segmento cualquier cosa, básicamente.

[00:49:00] ¿Ves, como segmento, todo lo que ves aquí? Y, ya sabes, una limitación de segmentar cualquier cosa en este momento es que te da máscaras sin etiquetas, como etiquetas de texto para esas máscaras. Entonces podemos hablar sobre la forma de abordar eso en un momento. Pero el punto es que encontrará el paquete en tu foto. Y nuevamente, puede haber algunas posiciones en las que no encuentra el paquete, o a veces las cosas se ven un poco diferentes y tendrá que gustar, ajustar o lo que sea.

[00:49:22] Pero, está bien, ahora tienes, tienes la inteligencia de un buscador de paquetes. Ahora quieres implementar ese paquete. Bueno, podría llamar a la API del modelo Segment Everything, que se aloja en plataformas como RoboFlow, y estoy seguro de que también en otros lugares. O probablemente podría reducirlo a un modelo más pequeño.

[00:49:38] Puedes correr al límite, como si quisieras correrlo tal vez como un pastel de frambuesa que solo está buscando y encontrando, bueno, no puedes ejecutar segmentar todo en un pastel de frambuesa, pero puedes correr un detector de disparo único. Así que simplemente toma todos los datos que han sido básicamente etiquetados automáticamente para usted y luego los descompone y los entrena en un modelo mucho, mucho más eficiente y más pequeño.

[00:49:57] Y luego despliegas ese modelo hasta el borde y esto es algo que será cada vez más posible. Por cierto, esto ya ha sucedido en LLM, ¿verdad? Como por ejemplo, como sabe GPT4. Mucho sobre mucho y la gente lo resumirá de alguna manera al ver todo, eh, como dirá la finalización del código, digamos que está creando un modelo de finalización del código.

[00:50:16] GPT4 puede realizar cualquier tipo de finalización además de la finalización del código. Si desea crear su propio modelo de finalización de código, porque esa es la única tarea que le preocupa para el futuro que está construyendo. Podría usar R H L F en todos los ejemplos de finalización de código de GPT4, y luego casi usar eso como destilación en su propia versión de un modelo de finalización de código y casi, eh, tener un modelo más barato, más fácilmente disponible y más simple que sí, es solo hace una tarea, pero esa es la única tarea que necesita.

[00:50:43] Y es un modelo que tienes y es un modelo que puedes. Implemente de manera más ligera y obtenga más valor. Eso es algo de lo que se ha representado como posible con Segmentar cualquier cosa. Pero eso es solo en el lado de la preparación del conjunto de datos, ¿verdad? Como segmentar cualquier cosa significa que puede hacer su propia eliminación de fondo, puede hacer su propio tipo de software de edición de video.

[00:50:59] Puedes hacer como cualquiera, esta promesa de tratar de hacer que el mundo sea entendido y, eh, visible y programable ahora es mucho más accesible. Sí,

[00:51:10] esa es una descripción increíble. Creo que deberíamos recibir sus opiniones sobre un par de me gusta, por lo que este es un lanzamiento masivo, masivo. Hay un montón de pequeñas características que, eh, gastaron y elaboraron en la publicación del blog y el documento.

[00:51:24] Así que sacaré algunas cosas para discutir y, obviamente, siéntete libre de sugerir cualquier cosa que realmente quieras desahogar.

[00:51:29] SAM: Transferencia de disparo cero

[00:51:29] Entonces, la transferencia de disparo cero lo es.

[00:51:31] No, está bien. Pero, eh, este nivel de calidad, sí, mucho mejor. Sí. Por lo tanto, podría confiar en modelos grandes anteriormente para hacer cero disparos, eh, detección. Pero como mencionaste, la escala y el tamaño del conjunto de datos y el modelo resultante que se entrenó es muy superior.

[00:51:48] Y eso es, eh,

[00:51:49] Supongo que el beneficio de tener conocimiento mundial, um, sí. Y poder confiar en eso. Bueno.

[00:51:53] SAM: Prontabilidad

[00:51:53] Y luego modelo rápido, esto es nuevo. Todavía no entiendo realmente cómo lo hicieron.

[00:51:58] eso. Bueno. Sam básicamente dijo, ¿por qué no tomamos estos 11 millones de imágenes, 1100 millones de máscaras, y entrenamos un transformador y un codificador de imágenes en todas esas imágenes?

[00:52:14] Y ese es básicamente el entrenamiento previo que usaremos para pasar cualquier imagen candidata. Lo pasaremos a través de este codificador de imágenes. Así que esa es la columna vertebral, por así decirlo, del modelo. Luego, las partes mucho más ligeras se vuelven, está bien, así que si tengo esa codificación de imagen. Necesito interactuar y comprender lo que hay dentro de la imagen en el revestimiento.

[00:52:31] Y ahí es donde entran en juego las indicaciones. Y ahí es donde entra en juego el decodificador de máscara, en la arquitectura del modelo. Así que la imagen entra, pasa por el codificador de imágenes. El codificador de imágenes es lo que tomó mucho tiempo y recursos para entrenar y obtener los pesos de lo que es Sam. Pero en el momento de la inferencia, por supuesto, no tiene que refinar esos pesos.

[00:52:49] Entonces, la imagen entra, va al codificador de imágenes, luego tienes la imagen y la ropa de cama. Y ahora, para interactuar con esa imagen e incrustarla, ahí es donde vas a realizar indicaciones y la decodificación específicamente, lo que sale de Sam en el paso de codificación de la imagen es un montón de máscaras candidatas. Y esas máscaras candidatas son aquellas con las que dices que quieres interactuar.

[00:53:06] Lo que es realmente genial es que hay indicaciones para decir algo que te interese, pero también, también puedes decir la forma en que quieres aprobar a un candidato para la máscara que te interesa. de Sam, puedes simplemente apuntar y hacer clic y decir, esta es la parte de la imagen que me interesa.

[00:53:24] SAM: Etiquetado asistido por modelo

[00:53:24] Que es exactamente para lo que, como una interfaz de etiquetado, sería útil, por ejemplo,

[00:53:30] que en realidad usan para iniciar su propia anotación, al parecer.

[00:53:33] Exacto. ¿No es genial? Sí exactamente. Entonces, esta es la razón por la que mencioné anteriormente que la forma de resolver un problema de visión por computadora, ya sabes, como el desarrollo en cascada versus el desarrollo ágil.

[00:53:41] Claro. Lo mismo, como en el aprendizaje automático, tomó un poco, pero a la gente le gusta, oh, podemos hacer esto en el aprendizaje automático también. Y la forma en que lo hace, el aprendizaje automático es en lugar de decir, está bien, cascada, tomaré todas mis imágenes y las etiquetaré todas. Bien, terminé con la parte de etiquetado, ahora voy a ir a la parte de entrenamiento.

[00:53:55] Está bien, he terminado con esa parte. Ahora voy a ir a la parte de despliegue. Una apariencia mucho más ágil sería, está bien, si tengo como 10 000 imágenes, etiquetemos la primera como cien y veamos qué obtenemos y entrenemos un modelo y ahora usaremos ese modelo para el que entrenamos. ayúdanos a etiquetar las próximas mil imágenes.

[00:54:10] Y luego vamos a repetir esto. Eso es exactamente lo que hizo el equipo SAM. Sí. Primero hicieron hombre asistido, lo llaman manual asistido. Manuel, si.

[00:54:15] Sí. Sí. Donde, que es uh, 4,3 millones de masa de 120.000 imágenes.

[00:54:19] Exacto. Y luego semiautomático, que

[00:54:22] es 5,9 millones de masa y 180.000

[00:54:24] imágenes. Y en ese paso, básicamente estaban haciendo que los anotadores humanos señalaran dónde Sam pudo haber perdido una máscara y luego lo hicieron completamente automático, lo que

[00:54:32] es todo.

[00:54:33] Sí. 11 millones de imágenes y 1,1

[00:54:35] mil millones de máscaras. Y ahí fue donde dijeron, Sam, haz lo tuyo y predice toda la máscara. no lo haremos

[00:54:39] incluso, ni siquiera juzgaremos. Sí. Nosotros solo

[00:54:41] cerramos los ojos, que es lo que la gente sospecha que está pasando con el entrenamiento G P T cinco. Bien. Es que estamos creando un montón de texto de tareas candidatas de G P T cuatro para usar en el entrenamiento del próximo g PT cinco.

[00:54:52] Entonces, pero por cierto, ese proceso, como, no tienes que ser un Facebook para aprovechar eso. Eso es exactamente lo que, como la gente que construye con Rob Flow. Eso es lo que tú haces.

[00:54:59] Exacto. Eso es, esta es tu herramienta. Esa es la incorporación

[00:55:01] que hice. Eso es exactamente. Es como, está bien, como si tuvieras un montón de imágenes, pero solo etiqueta algunas de ellas primero.

[00:55:07] Ahora tienes un, casi lo pienso como un, ya sabes, el término ahora es copiloto, pero casi, solía describirlo como un ejército de internos , también conocida como IA que trabaja junto a usted. Para tener una primera suposición sobre el etiquetado de las imágenes para usted, y luego simplemente está supervisando, mejorando y haciéndolo mejor.

[00:55:23] Y esa relación es mucho más eficiente, mucho más efectiva. Y por cierto, al hacerlo de esta manera, no perderá mucho tiempo etiquetando imágenes. Como, nuevamente, etiquetamos imágenes y buscamos asegurarnos de que nuestro modelo aprenda algo. No etiquetamos imágenes para etiquetar imágenes, lo que significa que si podemos etiquetar las imágenes correctas definidas por qué imágenes ayudan más a nuestro modelo a aprender cosas a continuación, deberíamos hacerlo.

[00:55:45] Entonces, debemos buscar y ver dónde es más probable que falle nuestro modelo, y luego dedicar nuestro tiempo a etiquetar esas imágenes. Y esa es, esa es una especie de herramienta en la que trabajamos, haciendo que ese ciclo exacto sea más rápido y más fácil. Sí. Sí.

[00:55:54] I highly recommend everyone try it. It's takes a few minutes. It's, it's great.

[00:55:58] Es genial. ¿Hay algo más en Sam que, Sam específicamente, quieras repasar? ¿O quieres ir a Robot?

[00:56:03] SAM no tiene etiquetas

[00:56:03] ¿Completo más Sam? Mencioné una cosa clave sobre Sam que no hace, y es que no le da etiquetas para sus máscaras. Ahora el papel. Alude a los investigadores que intentan resolver esa parte.

[00:56:18] Y creo que lo harán, creo que dijeron, solo vamos a publicar esta primera parte de hacer todas las máscaras. Porque solo eso es increíblemente transformador de lo que es posible en la visión por computadora. Pero mientras tanto, lo que está sucediendo es que las personas unen diferentes modelos para nombrar esas máscaras, ¿verdad?

[00:56:35] Así que imagina que vas a Sam y le dices, aquí hay una imagen, y luego Sam hace máscaras perfectas de todo en la imagen. Ahora necesita saber qué son estas máscaras, ¿qué objetos hay en estas máscaras? ¿no es así?

[00:56:45] es gracioso que Sam no sepa porque tú, acabas de decir que sabe

[00:56:48] todo. Sí, sabe que es raro.

[00:56:50] Conoce todas las máscaras candidatas. Y eso es, eso es porque esa era la función que tenía Sí. Sueño para. Sí. Bien bien. Bueno. Pero de nuevo, así es, esto es lo que está pasando, así es exactamente lo que sucederá con la multimodalidad de todos modos. Lo resolviste. Sí. Entonces, sí, entonces, hay un par de soluciones diferentes.

[00:57:04] Quiero decir, aquí es donde está. Estás planteando la pregunta de, ¿qué estás tratando de hacer con Sam? Por ejemplo, si quieres hacer Sam, y luego quieres desglosarlo para implementar un modelo más específico, más rápido y más económico que tengas. Sí. Eso es comúnmente, creo que lo que va a pasar. Entonces, en ese contexto, está utilizando SAM para acelerar su etiquetado.

[00:57:21] Otra forma en la que podrías querer usar a Sam es simplemente sacándolo de la caja. Como, Sam va a producir buenas etiquetas candidatas y no necesito ajustar nada y solo quiero usar eso como está. Bueno, en ambos contextos, necesitamos saber los nombres de las máscaras que encuentra Sam, ¿verdad? Porque, si estamos usando a Sam para etiquetar nuestras cosas, bueno, decirnos que la máscara no es tan útil.

[00:57:39] Como, en mi imagen de paquetes, es como, ¿etiquetaste la puerta? ¿Etiquetaste el paquete? Necesito saber qué es esta máscara. Hay un

[00:57:45] allí anidan objetos. Sí. Eso, eh, eso lo podemos decir.

[00:57:49] Sí. Y así puedes usar Sam en combinación con otros modelos. Y muy pronto esto será un solo modelo. Como le va a gustar a este podcast, haré una predicción audaz en 30 días.

[00:57:59] Como alguien lo hará, alguien lo hará en un solo modelo, pero con dos modelos. Así que hay un modelo, por ejemplo, llamado Grounding DINO. Mm-hmm. Que es cero. Predicción del cuadro delimitador. Mm-hmm. Y con las etiquetas, interactúas con Grounding DINO a través de indicaciones de texto. Así que podrías decir, aquí hay una imagen.

[00:58:14] Sabes, tú y yo estamos sentados aquí en el estudio. Hay latas delante de nosotros. Podrías decir, dame la lata de la izquierda, y etiquetaría el cuadro delimitador solo alrededor de la lata de la izquierda, como si entendiera el texto de esa manera. Así que podrías usar las máscaras de Sam y luego preguntarle a Grounding DINO, ¿qué son estas cosas?

[00:58:29] ¿O dónde está X entre la combinación de esas dos cosas? Boom, tienes una descripción de texto de trabajo automática de las cosas que tienes en mente. Ahora, nuevamente, esto no es perfecto, como que habrá lugares que aún requieren revisión humana en bucle, y especialmente como la novedad de un conjunto de datos. Estas cosas serán dependientes.

[00:58:49] Pero el punto es, sí, hay lugares para mejorar y sí, necesitarás usar herramientas para hacer esas mejoras. El punto es que estamos comenzando muy adelante en nuestro proceso. Ya no comenzamos simplemente como, tengo algunas imágenes, ¿qué hago? Empezamos en, tengo algunas imágenes y descripciones candidatas de lo que hay en esas imágenes.

[00:59:04] ¿Cómo lo hago ahora? Combine estas dos cosas para comprender con precisión lo que quiero saber de estas imágenes. Y luego implemente esta cosa porque ahí es donde finalmente captura el valor, está implementando esta cosa y, visualice muchos de esos medios en el límite porque tiene cosas que se están agotando en campos donde las personas no lo están.

[00:59:21] Um, y eso generalmente significa computación restringida,

[00:59:23] Etiquetado en el Navegador

[00:59:23] parte del demo del segmento. Todo se ejecuta en el navegador también, lo cual es interesante para algunas personas. No estoy seguro de qué porcentaje se hizo.

[00:59:30] Eso es lo fascinante. Um, porque, y la razón por la que puede hacer eso, correcto, es porque nuevamente, el codificador de imágenes gigante, ¿recuerdas los pasos?

[00:59:36] Sí. Toma una imagen, el codificador de imágenes, y luego solicita desde ese codificador de imágenes. El codificador de imágenes es un modelo grande y necesita una GPU acelerada para ejecutar la codificación en curso que requiere un cálculo significativo. Sí. Pero la indicación puede ejecutarse en el navegador. Es así de liviano, lo que significa que puede proporcionar comentarios realmente rápidos.

[00:59:54] Y eso es exactamente lo que hicimos en Robo Flow. Sam, y la convertimos en la mejor herramienta de etiquetado del mundo. Como si pudieras hacer clic en cualquier cosa y Sam dice de inmediato, esto es lo que querías. Lo que quería etiquetar está en este área de coordenadas de píxeles. Y para ser claros, ya teníamos algo como esto, lo llamamos poli inteligente, como esta cosa que, como si pudieras hacer clic y haría regiones de, de conjeturas de interés.

[01:00:18] Sam es una mejora tan gradual que mostrará, quiero decir, cosas que solían requerir cinco o seis clics, puedes, Sam entiende de inmediato con un solo clic. En un clic.

[01:00:28] Vídeo de demostración de Roboflow +SAM

[01:00:28] Genial. Creo que podríamos buscar la demostración, pero sí, creo que este es el momento en que cambiamos a un podcast multimodal y tenemos una primera pantalla compartida.

[01:00:38] Impresionante. Así que voy a semi nari qué, eh, qué está pasando, pero, eh, estamos revisando la pantalla de Joseph y esta es la interfaz de Roboflow. Tenemos, tenemos Robo Flow antes que Sam y tenemos Robo Post Sam, y vamos a ver qué, eh, la calidad

[01:00:53] la diferencia es. Bien, aquí hay una imagen en la que tenemos una soldadura determinada que nos interesa segmentar esta parte de la soldadura donde se unen estas dos tuberías.

[01:01:06] Sí. Y la soldadura es altamente

[01:01:06] irregulares. Es algo así como curvado, tanto en tres dimensiones. Así que no es un típico fácilmente segmentable

[01:01:13] cosa. Sí. Al ojo humano. Como pic eye podría averiguar, ya sabes, probablemente dónde comienza y termina esta soldadura. Pero eso requerirá muchos clics. Ciertamente.

[01:01:21] Como si pudiéramos pasar y nos gustara, podríamos, ya sabes, esta sería la forma realmente anticuada de crear, aparentemente

[01:01:27] así es como hicieron, eh, sables de luz, que te tenían que gustar, enmascarar los sables de luz y luego usar el submarino en las luces. Y lo hiciste por todos. Así que realmente súper caro porque no tenían otras opciones.

[01:01:39] Guau. Y ahora es un clic en la pista.

[01:01:41] Guau. Guau. Bueno. Así que abre una convocatoria para que alguien haga un simulador de sable de luz usando Robo Flow. Eso es genial. ¿No has tenido uno? No, soy consciente. Bueno. Dios mío, es una gran idea. Sí. Sí. Está bien. Bueno. Entonces, eso es, esa es la manera muy antigua ahora dentro de Robo Flow, como, eh, antes de Sam, teníamos esta cosa llamada Smart Poly.

[01:01:58] Uh, y esto seguirá estando disponible para que lo usen los usuarios. Entonces, si como, estoy, estoy etiquetando el área de soldadura, iría así. Y sabes, el primer clic lo haré, lo narraré un poco porque, para swyx, hice clic en la unión soldada. Y obtuvo la junta soldada, pero también incluye muchos elementos irrelevantes

[01:02:12] área, el resto del tubo inferior y luego, y las partes a la derecha.

[01:02:15] ¿Qué está captando eso? ¿Se está captando como solo el color o es

[01:02:17] Sí, este modelo específico probablemente no fue entrenado previamente en imágenes de soldaduras y tuberías, por lo que simplemente no tiene un gran concepto. Sí. De qué región empieza y acaba. Ahora, para ser claros, no soy el único aquí, como parte de, parte de la cosa con robo, puedo decir, puedo agregar puntos positivos y negativos, así que puedo decir, no, no lo hice, no lo hice. No quiero esta parte.

[01:02:33] Sí. Entonces dije que no quiero esa parte inferior de la tubería un poco mejor, y todavía no quiero la parte inferior de la tubería. Bueno. Eso es casi, casi allí.

[01:02:41] Hay mucho espacio a cada lado de la soldadura. Bueno. Está bien.

[01:02:43] Así está mejor. Entonces, cuatro clics que obtuvimos, llegamos a, ya sabes, la soldadura aquí.

(Video) Webinar (AI Lead Talk): IA y Realidad Aumentada, una sinergia disruptiva

[01:02:48] Sí. Um, ahora con Sam. Y entonces vamos a hacer lo mismo. Voy a etiquetar la porción de soldadura con un solo clic. Entiende el contexto de, de eso, eso, esa soldadura. Eh, estaba etiquetando pescado, así que pensé que estaba trabajando en pescado. Así que eso es como uno Bueno, eso es, eso es genial. De como un, un antes y un después.

[01:03:06] Pero hablemos de algunos de los otros, ejemplos de cosas en las que podría querer trabajar. Vine con algunos ejemplos divertidos. Hagamos, um, así que tengo esta imagen de dos niños jugando cuando estaba sosteniendo un globo en el fondo. Hay como una pared de ladrillos. La iluminación no es genial. Sí, la iluminación no es fantástica, pero, ya sabes, podemos distinguir claramente lo que está pasando.

[01:03:25] Así que voy a hacer clic en la pared de ladrillos del fondo. Sam inmediatamente etiqueta ambos lados de la pared de ladrillos, aunque hay un poste que separa la vista entre la parte izquierda de la pared de ladrillos y la parte derecha de la pared de ladrillos. Así que solo puedo decir, no sé, solo diré cosas para facilitar.

[01:03:44] O digamos que quiero hacer el zapato de este tipo, y digo, en realidad, sabes qué, no, no quiero el zapato, quiero a toda la persona para poder Son dos clics. Dos clics, y Sam lo entendió de inmediato. Tal vez quiera ser aún más preciso y obtener esa parte allí y perder un poco la cara. Así que hacemos clic en la cara y eso es otra cosa.

[01:04:02] O saltemos a tal vez este es muy

[01:04:05] divertido. Bien, entonces hay un azul, un chihuahua con un montón de

[01:04:08] globos. Sí. Así que aquí, digamos como quería hacer, tal vez solo quería hacer como los ojos, ¿verdad? UH Huh. Así que haré clic como la izquierda

[01:04:15] ojo que hace que todo chihuahua luz

[01:04:17] para que atrape a todo el chihuahua.

[01:04:19] Ahora aquí es donde la interactividad con los modelos y algo así como un nuevo paradigma UX para la interacción con los modelos tiene sentido. Voy a decir, está bien, quería ese ojo izquierdo. No quiero el, como el resto del perro. Resto del perro. Así que voy a decir que no a esta parte del perro. Entonces voy a decir que voy directo al ojo.

[01:04:32] Sí. Sí. Voy a decir que sí en el otro ojo. Ajá boom. Ahora mismo tienes ambos ojos. Tengo los dos ojos y nada más. Y podría hacer lo mismo con la oreja. Así que podría decir, quiero la oreja y hago clic en la oreja derecha y obtiene todo de nuevo, toda la cabeza de perro. Pero podría decir, no, no quiero la cabeza de perro.

[01:04:46] Y boom reconoce que solo quiero la oreja derecha. Por lo que puede

[01:04:49] yo

[01:04:49] pregunta, así que obviamente esto es súper impresionante. ¿Puedo preguntar, hay alguna manera de generalizar este trabajo? Como, hice este trabajo para una imagen. ¿Puedo tomar otra imagen de un, el mismo chihuahua y simplemente decir, haz eso? El, eh,

[01:05:02] volver a aplicar lo que hice hasta cierto punto.

[01:05:04] Hay algunas maneras en que podemos hacer eso. La forma más sencilla, probablemente, es volver a lo que estábamos hablando, en el que etiqueta algunos ejemplos y luego crea su propio tipo de mini modelo que entiende exactamente lo que está buscando. Sí. Y luego tienes ese mini modelo que termina el trabajo por ti.

[01:05:18] Y solo haces eso dentro del flujo del robot. ¿Solo haces eso dentro del flujo de Rob? Por supuesto. Sí. Entonces, tengo como, así que etiqueto, etiqueto un montón de mis imágenes después de tener, ya sabes, diremos como 10 de ellas etiquetadas, luego comenzaré, ya sabes, mi propio modelo personalizado. Y lo bueno es que estoy creando mi propia ip.

[01:05:34] Y esa es una de las grandes cosas que me emocionan bastante con la modalidad Motomod y especialmente con GBT y algunas de estas cosas, es que puedo tomar lo que estos modelos masivos entienden. Esta es una forma generalista de decir destilar, pero puedo destilarlos en una arquitectura diferente que capture esa parte del mundo.

[01:05:54] Y use ese modelo para, digamos en este contexto, tengo una imagen de, eh, hombres frente a un muelle y tienen delantales. Puedo construir mi propio detector de delantal. Nuevamente, esto es algo así como en algún contexto, como si quisiera construir un modelo específico de tarea y, y Sam sabe todo lo que sabe, puedo ir por la ruta de tratar de usar Sam Zero Shot más otro modelo para etiquetar el, las imágenes de máscara que podrían estar limitando debido a la intensidad de cómputo que Sam requiere para ejecutar y, ya sabes, tal vez quiera construir algo de mi propia IP y hacer uso de algunos de mis propios datos.

[01:06:24] Pero estas son las dos rutas que creo que veremos evolucionar. Y puedo usar indicaciones de texto con Grounding DINO plus Sam para tener una idea de qué partes de la imagen me interesan. Y luego probablemente necesitaré hacer un poco de control de calidad de eso. Pero, como el proceso de preparación del conjunto de datos y el mayor inhibidor para crear su propio valor en IP, ahora es mucho más simple.

[01:06:49] Y creo que, um, creo que somos los primeros en poner en marcha esto, así que, sí, estoy, estoy muy emocionado por eso. estamos grabando

[01:06:54] esto antes, pero es, eh, cuando, cuando este podcast salga, estará en vivo. Uh, con suerte, ya sabes, si todo sale bien, me coordinaré contigo. Entonces, entonces, ¿entonces será en vivo?

[01:07:02] No, será, será, será en vivo, sí. Sí Sí. Uh, y la gente puede ir a probarlo. Exactamente. Supongo que solo será parte de la plataforma Rofo y yo, yo, supongo que agregaré una publicación de blog. Cualquier otra cosa en solo, eh, así que estamos, estamos a punto de alejarnos de Sam y la visión por computadora a las tomas generales de IA de Pascua, pero, eh, cualquier otra cosa en términos de proyecciones futuras de lo que sucede. siguiente en, en segmentación de visión por computadora o cualquier cosa en eso, en eso,

[01:07:27] Predicciones futuras

[01:07:27] Como describiste anteriormente, Sam en este momento solo produce máscaras.

[01:07:30] No puede ser dirección de texto para brindar el contexto de esas máscaras que sucederán en una sola arquitectura sin encadenar un par de arquitecturas diferentes. Eso es, eso es seguro. La segunda cosa es, um, la multimodalidad generalmente nos permitirá agregar más contexto a las cosas que estamos viendo y haciendo.

[01:07:45] Y estoy seguro de que probablemente hablaremos de esto en un momento, pero tal vez sea una buena transición hacia GPT4. Sí. Y las capacidades de GPT4, lo que esperamos, cómo nos emociona, las formas en que ya estamos usando algo de GPT4, y realmente nos apoyaremos en las capacidades que se desbloquean a partir de imágenes y una perspectiva de preparación visual.

[01:08:04] Multimodalidad GPT4

[01:08:04] Vayamos a eso. Excelente. Estaba viendo ese discurso de apertura en GPT4. Me quedé asombrado. ¿Cuáles fueron sus reacciones como empresa de visión artificial?

[01:08:13] Similar. Similares, si. Aparentemente. Um, entonces Greg Brockman hizo esa demostración donde dijo, haga un sitio web generador de chistes. Aparentemente eso fue totalmente ad hoc, así. No practicaba eso en absoluto.

[01:08:22] ¿Cuál, qué? Sí, acaba de intentarlo. Sí. Yo, creo que como el. Generación de código a partir de imágenes. Creo que es como una captura de pantalla de un sitio web para colocar componentes en un plazo de seis meses. Creo que cosas como esa serán inminentemente posibles, factibles y desbloquearán todo tipo de potencial.

[01:08:38] ¿Y luego viste el segundo con la captura de pantalla de Discord que publicaron?

[01:08:42] Fue una parte muy rápida de la demostración, por lo que mucha gente se la perdió. Pero esencialmente, lo que hizo Logan al abrirlo fue una captura de pantalla, eh, la pantalla de Discord en la que estaba y luego la pegué en la discordia que tenía GPT4 y pudo leer cada palabra en ella. Sí.

[01:08:57] Creo que OCR es un problema resuelto

[01:08:59] en un modelo de idioma grande en lugar de un modelo OCR R dedicado.

[01:09:03] Sí. ¿No es eso que eso es, hemos

[01:09:05] nunca había visto eso. Así es. Sí. Y creo que OCR like es en realidad un candidato perfecto para la multimodalidad like, porque son literalmente fotos de texto. Sí. Sí. Y ya habrá una gran cantidad de datos de capacitación de todo el trabajo que se ha realizado en la creación de modelos OCR anteriores.

[01:09:20] Correcto. Pero sí, creo que probablemente estén a punto de lanzar lo mejor del mundo. modelo OCR. Punto final. Sí. Bien,

[01:09:27] Problemas difíciles restantes

[01:09:27] así que creo que eso era algo así como lo que querían mostrar en la demostración. Yo, ya sabes, es una novedad para mí que el dibujo fue improvisado. ¿Qué es un desafío realmente difícil que quieres probar en GT cuatro una vez que tengas acceso a él? ¿Qué vas a ejecutar?

[01:09:38] ¿está encendido?

[01:09:39] Entonces, la forma en que pienso sobre los avances en la visión por computadora y qué, eh, capacidades se desbloquean, donde todavía habrá problemas para garantizar que estamos construyendo herramientas que realmente desbloquean a las personas. Creo que, si piensas en los tipos de casos de uso que un modelo ya conoce sin ningún entrenamiento, pienso en una distribución de curva de campana.

[01:09:58] Donde en el centro grueso de la curva tienes, eh, lo que históricamente ha sido como el conjunto de datos de cacao, objetos comunes y contexto, una versión de 2014 de Microsoft, 80 clases, cosas como sillas, cubiertos, comida , auto. Dicen que pelota deportiva para todos. Pelota deportiva. ¿De verdad? Sí. En el conjunto de datos. Sí.

[01:10:16] Eso es hilarante.

[01:10:18] Ay

[01:10:18] Dios mío. Así que sí. Y entonces tienes como todos estos, quiero decir, entiendo por qué hacen eso. Es como una captura para todos los deportes. Um, pero el punto es que, como en el centro de grasa, tienes estas cosas, estos, estos objetos que son tan comunes como sea posible. Y pienso eso, y luego voy a las colas largas exactas de esta distribución y el borde muy, muy parecido de las colas que tienes.

[01:10:38] Datos y problemas que no son comunes o que no se ven con regularidad, la prevalencia de esa imagen que puede existir en la web es quizás una forma de pensar sobre esto. Y ahí es donde tienes tal vez un fabricante que hace su propio bien que nadie más hace, o una empresa de logística que sabe cómo se suponía que debían ser sus cosas, o tal vez tu casa específica se ve de una manera muy notable o un patrón o, o algo como esto.

[01:10:59] Y, por supuesto, todos estos problemas dependen de lo que quieras hacer exactamente, pero habrá lugares donde solo haya información patentada que básicamente no existe en la web. Y, um, creo que lo que está sucediendo en la visión es que el medio gordo se expande constantemente hacia afuera. Los modelos que están entrenados en cacao, ya sabes, lo hacen cada vez mejor y mejor, lo que hace que esa franja intermedia tenga mucha, mucha confianza.

[01:11:23] Y luego modelos como clip, que, ya sabes, hace dos años, el primer tipo de enfoque multimodal, que los robots ya potencian como ya tenemos clip powered search y robo y lo hemos tenido durante más de un año. Que, ya sabes, vincula texto e imágenes de una manera que no hemos visto antes. Y eso básicamente aumenta la generalización de lo que los modelos pueden ver.

[01:11:45] Creo que G p D cuatro se expande aún más, donde te metes, aún más, en esas, esas colas largas, largas. No creo que me guste completamente, como, no creo que como, nunca volveremos a entrenar, por así decirlo. Es como mi, mi modelo mental de lo que está pasando, lo que va a seguir pasando.

[01:11:59] Eso todavía crea problemas emergentes para los desarrolladores. Eso todavía crea problemas como los que hablábamos antes. Incluso si tengo un modelo que lo sabe todo en el mundo, ese modelo podría no ser mío o podría ser un modelo que no puedo ejecutar donde necesito ejecutarlo. Uh, tal vez un lugar sin Internet, tal vez un lugar en el borde, tal vez un lugar con limitaciones informáticas.

[01:12:16] Entonces, es posible que deba destilar un poco. Es posible que tenga datos que son verdaderamente propietarios y que no están presentes en la web. Así que no puedo confiar en este modelo. Podría tener un tipo de tarea en el que estos modelos G B D cuatro y multimodales son extremadamente buenos para responder preguntas visuales. Y creo que podrán describir imágenes como si fuera un texto de forma libre.

[01:12:34] Pero aún vas a venir, tal vez necesites convertir ese texto en algo útil y perspicaz y para ser entendido. Y tal vez ese es un lugar en el que estás como, ya sabes, usas cadenas de lang y cosas que te gustan, eh, descubres lo que está pasando a partir de las descripciones de los candidatos del texto.

[01:12:48] Y, por lo tanto, todavía habrá un conjunto saludable de problemas para hacer que estas cosas sean utilizables, pero estoy muy entusiasmado con las formas en las que estamos pensando en Roble. Entonces, ya usamos GPT4 para hacer una descripción del conjunto de datos con, para ser claros, solo el texto. solo el texto? Si, solo el texto.

[01:13:02] Somos, somos afortunados como Greg y, y Sam nos respaldan. Um, uh, pero personalmente, personalmente,

[01:13:06] Sam como en Altman, Sam, no el, sí, no el modelo Sam, porque el mo el modelo podría ser lo suficientemente inteligente como para

[01:13:11] respaldarte. No sé. Esa ha sido una confusión divertida esta última semana. ¿Sabes? ¿Cuál, cuál Sam, cuál Sam estás hablando?

[01:13:15] Estabas hablando mucho sobre Sam hace. Entonces, pero, pero no tenemos, um, acceso visual para ser claros. Envíe solo GPT4 para hacer la descripción del conjunto de datos, básicamente pasándole lo que ya sabemos, como tenemos, Oye, tengo un modelo de visión por computadora con este tipo de clases o cosas como esta, y dame una descripción del conjunto de datos que enriquece, enriquece mi conjunto de datos .

[01:13:31] Y luego, por supuesto, también tenemos soporte con tecnología GPT4, como mucha gente, uh, ingerimos, uh, los 480 blogs y el blog Ripple, los 120 videos de YouTube, 280, ustedes, eh, docenas de proyectos de código abierto y cada página en nuestro. Uh, y nuestro centro de ayuda. Y luego ingerimos eso y ahora tenemos un bot impulsado por GPT4 que puede generar no solo fragmentos de código similares, al igual que GPT4 puede hacerlo realmente bien, sino que regurgitar y ubicar y señalarle los recursos a través de Robo Flow.

[01:13:57] Pregúntale a Roboflow (2019)

[01:13:57] Saludos a los fanáticos de los robots. Eres el primero en tener tu propio bot, que es Ask Robo Flow. Vi esto en Hack News. Yo estaba como, espera, esto es un presagio de lo que vendrá. y eh,

[01:14:06] en 2019, de ahí proviene el nombre flujo de la carretera. ¿En realidad? Nosotros, nosotros, sí. Era

[01:14:10] pensando que no hay nada de imágenes en su, en su, eh, descripción o su

[01:14:13] nombre.

[01:14:14] Sí. Sí. Porque quiero decir, creo que, um, para construir, para construir una compañía duradera de cien años, no puedes ser solo una cosa. Tienes que, tienes que hacer todo. Tienes, tienes que ser Microsoft de todos modos, así que, sí, sí, sí. Una de las primeras cosas que hicimos con IA en 2019 fue que nos dimos cuenta de que Stack Overflow es un recurso extremadamente valioso, pero solo está en inglés y los programadores provienen de todo el mundo.

[01:14:33] Entonces, lógicamente, los programadores hablarán varios idiomas para entender y depurar sus programas. Así que dijimos, con estos avances en NLP, ¿no crees que podríamos traducir Stack Overflow? A todos los demás idiomas y proporciona un desbordamiento de pila localizado realmente útil. Y entonces empezamos a trabajar en eso.

[01:14:47] Lo llamamos Stack Robo Flow. Y luego, eh, Josh, el fundador de, eh, delicioso, si recuerdas eso, ese sitio. Mm-hmm. Mm-hmm. El Shawn Pardo, es como, tira, tira la pila. es más limpio Solo, solo haz que sea robo Flow. Es una gran historia.

[01:14:59] Oh, me encanta la historia detrás de los nombres. Y

[01:15:00] a partir de entonces, solo ha sido, eh, Rob Flow.

[01:15:02] Sí, sí. Um, que es, ya sabes, ha sido un nombre útil y está, y está atascado. Pero sí, como nosotros, me refiero a Stack Rob. Dot com todavía está activo y puede hacerle preguntas. No es tan bueno, por supuesto. Es como antes de los LLM. Como si fuera, eh, pero eh, sí, pregúntale a Rob Flow que fue el primero, ya sabes, una especie de guía completa para programadores.

[01:15:21] Así que estamos muy emocionados de que, um, otros hayan retomado y hecho un trabajo mucho mejor con eso que lo que estábamos haciendo.

[01:15:26] Cómo mantenerse al día en IA

[01:15:26] Sí. Tienes una especie de mentalidad de hacker, que me encanta. Uh, obviamente tú en, en varios hackathons en San Francisco. Uh, y tal vez podamos cerrar con eso. Sé que llevamos mucho tiempo, así que, solo voy a alejarme un poco hacia el tipo de pregunta personal o meta más amplia sobre cómo te mantienes al día con ai, ¿verdad?

[01:15:41] Al igual que tú, eres graduado en economía, te dedicaste a la ciencia de datos, un camino muy común. Yo también tuve un camino similar, y voy por este viaje de IA, um, unos seis, siete años después que tú. ¿Cómo recomiendas que la gente mantenga

[01:15:51] arriba? La forma en que lo hago es ingerir fuentes de lugares probablemente similares a los que otros hacen, ya sea que la comunidad de investigación sea bastante activa, en Twitter.

[01:15:59] Los documentos vistos regularmente vinculados a personas archivadas estarán en comunidades, varios discords o incluso dentro del flujo de robo Slack. La gente compartirá documentos y cosas que son, um, significativas e interesantes. Pero eso es como una parte es como la ingestión. Sí. Obtener ingesta de amigos, participar en conversaciones y simplemente tener los ojos bien abiertos a varias cosas.

[01:16:18] La segunda parte es la producción. Sí. Y podemos leer algunos tweets y ver algunas demostraciones, pero para mí, cuando Robo Flow, cuando Brad y yo, eh, estábamos trabajando en cosas muy temprano, uno de los objetivos pioneros que teníamos era publicar tres blogs y dos YouTube vídeos por semana. Y lo hicimos durante siete meses.

[01:16:33] Así que no dejaba de producir contenido y eso no era como escribir un blog. Por lo general, sería como, Um, ya sabes, tú, a veces haces un blog, o te gusta un cuaderno de laboratorio colaborativo, un tutorial de capacitación, o el punto es que básicamente estás como re-implementando naturalmente los documentos y cosas que estás leyendo y mientras te mencionas fuera de

[01:16:49] ideas.

[01:16:50] Como sea. Sí. Tengo que hacer algo.

[01:16:53] Quiero decir, y como mencionaste, pasé un tiempo enseñando trabajo de ciencia de datos. Sí. Ensamblaje del diario y, de hecho, enseñé un poco sobre gw y realmente me suscribí a la creencia de que si no puedes describir algo de manera simple, entonces probablemente no lo entiendas, no lo sepas tú mismo.

[01:17:05] Sí. Y así ser forzado a, a producir cosas y luego Sí. Mencionaste hackathons, como yo todavía, todavía tengo un buen hackathon, ya sea dentro de nuestro equipo o dentro o fuera de la comunidad. Y realmente admiro a la gente como, quiero decir, estoy seguro de que probablemente te hayas encontrado como, eh, tú, recientemente mencionaste que pasaste algún tiempo con los fundadores de notion y sabes, ellos estás locamente Sí.

[01:17:22] Curioso y lo hubieras hecho. Idea de la talla de, del negocio. Y creo que eso es como un ethos increíblemente fuerte para, para

[01:17:30] tienen, son multimillonarios y están almorzando conmigo para preguntarme qué pienso

[01:17:34] sobre yo, bueno, sí, quiero decir, creo que tienes una visión increíblemente buena de lo que sigue y lo que viene y, eh, un ámbito diferente.

[01:17:41] Pero eso es exactamente lo que quiero decir. Bien. Me gusta relacionarme con otras personas y preguntarles legítimamente y querer aprender y tener curiosidad. Como, no sé, como si pensara en alguien como Jeff Dean, que hizo producir mapas y también presentó una de las primeras versiones de TensorFlow. Sí. Como, él solo tiene que ser tan innatamente curioso, ni siquiera sé si es, si se llama reinventarse a sí mismos en eso.

[01:18:00] En ese momento, si ya has estado. Uh, así que en la vanguardia, pero no es como si pensara en alguien que se considera a sí mismo, entre comillas, un experto en TensorFlow o un marco o lo que sea, y es como si todos estuvieran aprendiendo. Algunas personas están más adelantadas en su viaje y en realidad puedes ponerte al día bastante rápido con un gran esfuerzo.

[01:18:18] Así que creo que mucho es como ser, hay tanta mentalidad como hay, como los recursos y luego como la producción. Y quiero decir, mencionaste un poco antes de que comenzáramos a grabar como, oh, eres como el experto en este, este tipo de cosas. Y ni siquiera creo que eso sea, eh, paso más tiempo pensando en ellos que en mucha gente, pero todavía hay mucho por ingerir, trabajar, cambiar y mejorar.

[01:18:41] Y creo que en realidad es una gran oportunidad para, eh, las empresas jóvenes, especialmente las que tienen el hábito de poder moverse rápidamente y realmente enfocarse en desbloquear el valor del usuario en lugar de la mayoría de las otras cosas.

[01:18:53] Bueno, esa es una manera perfecta de terminar las cosas. Uh, gracias por ser mi primera introducción y la de muchas otras personas a la visión por computadora en el estado del arte.

[01:19:01] Uh, estoy seguro de que te tendremos de regreso para, ya sabes, lo que sea que venga, eh, a lo largo. Pero usted es, literalmente, el invitado perfecto para hablar sobre cualquier segmento, y fue, con mucho, el tema de discusión más candente de la semana pasada. Así que gracias por, eh, tomar el

[01:19:12] tiempo. Me divertí mucho. Gracias por invitarme. Está bien. Gracias.

(Video) Solving Hard Problems in Computer Vision with Synthetic Data

FAQs

¿Cuáles son algunos problemas en la visión artificial? ›

Algunos de los problemas comunes de visión por computadora incluyen la clasificación de imágenes, la localización y detección de objetos y la segmentación de imágenes . Las aplicaciones de visión por computadora incluyen campos como: tecnología de reconocimiento facial, análisis de imágenes médicas, automóviles autónomos y análisis de video inteligente.

¿Por qué es tan difícil la visión artificial? ›

La visión artificial es difícil porque el hardware la limita

Los casos de uso del mundo real de Computer Vision requieren hardware para ejecutarse, cámaras para proporcionar la entrada visual y hardware informático para la inferencia de IA.

¿Qué es el modelo de visión artificial? ›

Un modelo de visión artificial es un programa de software que está capacitado para detectar objetos en imágenes . Un modelo aprende a reconocer un conjunto de objetos analizando primero las imágenes de esos objetos a través del entrenamiento.

¿Qué algoritmo se utiliza en la visión artificial? ›

Algoritmo de Lucas-Kanade :

Comprender el movimiento de los objetos o el seguimiento de objetos en escenas es uno de los problemas clave en la investigación de la visión artificial. Una de las técnicas más utilizadas para resolver esto en visión artificial es el algoritmo de flujo óptico de Lucas-Kanade.

¿Cuáles son los 4 problemas de visión más comunes? ›

Las principales causas de ceguera y baja visión en los Estados Unidos son principalmente enfermedades oculares relacionadas con la edad, como la degeneración macular relacionada con la edad, cataratas, retinopatía diabética y glaucoma .

¿Cómo resuelve problemas la visión artificial? ›

Para dilucidar esto, la visión por computadora se enfoca en replicar componentes de las complejidades del sistema de visión humano , lo que permite que las computadoras reconozcan y procesen objetos en imágenes y videos, de la misma manera que lo hacen los humanos.

¿Qué desventajas trae la inteligencia artificial? ›

7 desventajas de la inteligencia artificial que todo el mundo debería conocer
  1. Desempleo. ...
  2. Falta de transparencia. ...
  3. Algoritmos sesgados y discriminatorios. ...
  4. La creación de perfiles. ...
  5. Desinformación. ...
  6. Impacto medioambiental. ...
  7. Dominio de las grandes empresas tecnológicas.
Jun 14, 2022

¿Cuál es la limitación de la visión artificial? ›

Aquí hay algunas limitaciones de la visión por computadora: Falta de especialistas : las empresas deben tener un equipo de profesionales altamente capacitados con un conocimiento profundo de las diferencias entre las tecnologías de inteligencia artificial, aprendizaje automático y aprendizaje profundo para entrenar los sistemas de visión por computadora.

¿Qué impactos positivos y negativos podria tener la inteligencia artificial? ›

Inteligencia artificial: ventajas y desventajas
  • Automatización de procesos. ...
  • Reduce el error humano. ...
  • Potencia la creatividad. ...
  • Aporta precisión. ...
  • Agiliza la toma de decisiones. ...
  • Dificultad de acceso a los datos. ...
  • Falta de profesionales cualificados. ...
  • Su desarrollo es costoso.
Jun 22, 2021

¿Cuáles son los cuatro tipos básicos de sistemas de visión artificial? ›

En términos generales, los diferentes tipos de sistemas de visión incluyen sistemas de visión 1D, sistemas de visión 2D, escaneo de línea o escaneo de área y sistemas de visión 3D .

¿Cuáles son los componentes principales de un sistema de visión artificial? ›

Los componentes principales de un sistema de visión artificial incluyen la iluminación, la lente, el sensor de imagen, el procesamiento de la visión y las comunicaciones .

¿Quién inventó la visión artificial? ›

2 Historia de la visión artificial

Se acepta comúnmente que el padre de Computer Vision es Larry Roberts , quien en su tesis doctoral (cir. 1960) en el MIT discutió las posibilidades de extraer información geométrica 3D a partir de vistas en perspectiva 2D de bloques (poliedros) [1].

¿Por qué el aprendizaje profundo es mejor para la visión artificial? ›

En comparación con las técnicas tradicionales de CV, DL permite a los ingenieros de CV lograr una mayor precisión en tareas como la clasificación de imágenes, la segmentación semántica, la detección de objetos y la localización y mapeo simultáneos (SLAM) .

¿Tiene demanda la visión artificial? ›

1. ¿Hay demanda de un ingeniero de visión por computadora? La visión por computadora permite que las computadoras procesen datos visuales e incluso reaccionen a objetos visuales en tiempo real. Con el aprendizaje automático (ML) y la inteligencia artificial (IA) evolucionando exponencialmente, la demanda de ingenieros calificados en visión por computadora está aumentando más que nunca .

¿Necesita aprendizaje automático para la visión artificial? ›

La visión por computadora es una aplicación de aprendizaje automático e inteligencia artificial que toma información de imágenes y videos digitales y toma decisiones significativas basadas en esa información.

¿Cuáles son los tres defectos visuales? ›

Hay principalmente tres defectos refractivos comunes de la visión. Estos son (i) miopía o miopía (ii) hipermetropía o hipermetropía (iii) presbicia .

¿Cuál es la cirugía ocular más común? ›

LASIK : quizás la cirugía ocular más conocida, LASIK (abreviatura de queratomileusis in situ asistida por láser) utiliza un láser para remodelar la córnea y corregir la miopía, la hipermetropía y el astigmatismo.

¿Cuál es el mejor tratamiento para los problemas oculares? ›

El tratamiento convencional para trastornos como la miopía, la hipermetropía y el astigmatismo generalmente se basa en lentes correctivos recetados . Trastornos como las cataratas, el glaucoma, la degeneración macular y el desprendimiento de retina requieren tratamientos médicos y quirúrgicos avanzados.

¿Cuáles son las características de la visión artificial? ›

En la visión artificial y el procesamiento de imágenes, una característica es una información sobre el contenido de una imagen; típicamente sobre si una cierta región de la imagen tiene ciertas propiedades . Las características pueden ser estructuras específicas en la imagen, como puntos, bordes u objetos.

¿Dónde se utiliza la visión artificial? ›

Los usos más comunes de la visión artificial son la inspección visual y la detección de defectos, la colocación y medición de piezas, además de identificar, clasificar y rastrear productos. La visión artificial es una de las tecnologías fundacionales de la automatización industrial.

¿Cómo dañará a la humanidad el desarrollo de la inteligencia artificial? ›

A medida que los robots de IA se vuelvan más inteligentes y diestros, las mismas tareas requerirán menos humanos . Y si bien es cierto que la IA creará 97 millones de nuevos puestos de trabajo para 2025, muchos empleados no tendrán las habilidades necesarias para estos roles técnicos y podrían quedarse atrás si las empresas no mejoran las habilidades de su fuerza laboral.

¿Cómo afecta la inteligencia artificial en la vida diaria? ›

De manera automatizada la Inteligencia Artificial efectúa tareas que antes realizaban los seres humanos. Por medio de Inteligencia Artificial es posible hacer más cómoda, segura y placentera la vida cotidiana de los individuos.

¿Cómo afecta la inteligencia artificial en la educación? ›

Con la Inteligencia artificial en la educación se pueden analizar los datos de rendimiento y preferencias de los alumnos para crear planes de clases y evaluaciones personalizados que se ajusten a los puntos fuertes y débiles de cada estudiante.

¿Qué dificultades tienen las personas con discapacidad visual? ›

Dificultades de percepción que le permitan identificar personas, objetos, espacios, etc. de forma visual. Dificultad para leer textos que no tengan tipografía adecuada (de gran tamaño y con un color con contraste en el fondo), trascripción al braille o con información sonora adicional.

¿Qué consecuencias trae la discapacidad visual? ›

La discapacidad visual afecta gravemente a la calidad de vida de la población adulta. Los adultos con discapacidad visual a menudo presentan tasas más bajas de participación en el mercado laboral y de productividad y suelen registrar tasas más altas de depresión y ansiedad.

¿Qué tipo de discapacidad es la falta de visión? ›

La discapacidad visual se define con base en la agudeza visual y el campo visual. Se habla de discapacidad visual cuando existe una disminución significativa de la agudeza visual aun con el uso de lentes, o bien, una disminución significativa del campo visual.

¿Por qué la visión artificial se considera ingeniería de sistemas? ›

La visión artificial como disciplina de ingeniería de sistemas se puede considerar distinta de la visión artificial, una forma de informática básica; La visión artificial intenta integrar las tecnologías existentes de nuevas formas y aplicarlas para resolver problemas del mundo real de una manera que cumpla con los requisitos de la automatización industrial y ...

¿Cómo funciona un sensor de visión? ›

Los sensores de visión utilizan imágenes capturadas por una cámara para determinar la presencia, la orientación y la precisión de las piezas . Estos sensores se diferencian de los “sistemas” de inspección de imágenes en que la cámara, la luz y el controlador están integrados, lo que simplifica la instalación y el funcionamiento de la unidad.

¿Qué plataformas se usan para la implementación de sistemas basados en inteligencia artificial Enumere 5 ejemplos con sus características? ›

1. AWS Machine Learning
  • AWS SageMaker (producto principal de Machine Learning de Amazon)
  • Amazon Lex (es una plataforma para crear chatbots)
  • Amazon Recognition (motor de análisis de imágenes y videos de aprendizaje automático)
  • Amazon Transcribe (herramienta de inteligencia artificial de voz a texto de AWS)

¿Cómo funciona el sistema artificial? ›

La inteligencia artificial funciona a través de la implementación de algoritmos y técnicas en sistemas informáticos, los cuales permiten que una máquina o dispositivo aprenda de los datos y mejore su rendimiento a medida que se expone a más información.

¿Qué es la visión artificial y sus etapas? ›

La visión artificial la componen un conjunto de procesos destinados a realizar el análisis de imágenes. Estos procesos son: captación de imágenes, memorización de la información, procesado e interpretación de los resultados.

¿Cuál es la diferencia entre la visión artificial y la visión artificial? ›

Los sistemas de visión artificial involucran el procesamiento de imágenes y trabajan en un conjunto de reglas y parámetros para respaldar las aplicaciones de fabricación, como el control de calidad. Por otro lado, la visión artificial se refiere a la captura y automatización del análisis de imágenes.

¿Qué edad tiene la visión artificial? ›

La visión por computadora comenzó en serio durante la década de 1960 en universidades que vieron el proyecto como un trampolín hacia la inteligencia artificial. Los primeros investigadores eran extremadamente optimistas sobre el futuro de estos campos relacionados y promovieron la inteligencia artificial como una tecnología que podría transformar el mundo.

¿Por qué es difícil la visión artificial? ›

La visión artificial es difícil porque el hardware la limita

Los casos de uso del mundo real de Computer Vision requieren hardware para ejecutarse, cámaras para proporcionar la entrada visual y hardware informático para la inferencia de IA.

¿Cómo se puede mejorar el aprendizaje visual? ›

  1. ¿Estos hábitos coinciden con tus costumbres? ...
  2. 1) Utilizá resaltadores. ...
  3. 2) Comenzá a utilizar material audiovisual. ...
  4. 3) Hacé tarjetas de memoria o flashcards. ...
  5. 4) Creá mapas conceptuales e infografías. ...
  6. 5) Minimiza las distracciones. ...
  7. 6) Tratá de tomar notas a mano.
Jan 21, 2020

¿La visión artificial y la CNN son lo mismo? ›

Se podría decir que la visión por computadora le permite a la computadora ver y comprender imágenes y videos digitales, al obtener información significativa. Las redes neuronales de convolución (CNN) se utilizan comúnmente para derivar esta información .

¿Cuál es la ventaja de la visión artificial? ›

La visión artificial brinda seguridad adicional y beneficios operativos al reducir la participación humana en un proceso de fabricación . Además, previene la contaminación humana de las salas limpias y protege a los trabajadores humanos de entornos peligrosos.

¿Qué tan caro es la inteligencia artificial? ›

Asimismo, las compañías tienen que considerar la inversión necesaria para implementar inteligencia artificial, el cual oscila entre $20,000 dólares y $1,000,0000 de dólares, según el tipo de solución.

¿Qué programas se usan para inteligencia artificial? ›

Los 15 mejores softwares de inteligencia artificial de 2021
  • TensorFlow.
  • H2O.Ai.
  • Infosys Nia.
  • Plataforma de Inteligencia Artificial de Google.
  • Azure Machine Learning.
  • IBM Watson.
  • Engati.
  • Wipro Holmes.

¿Qué es lo primero que hay que hacer para comenzar con la inteligencia artificial? ›

Una de las mejores formas relacionadas con cómo estudiar inteligencia artificial, es repasar los conocimientos fundamentales. Se puede empezar con matemáticas básicas como, por ejemplo, fundamentos de informática, estadística, probabilidad, vectores, álgebra lineal, cálculo, etcétera.

¿Qué se necesita para empezar con inteligencia artificial? ›

a continuación algunos aspectos de conocimientos para desarrollar inteligencia artificial.
  1. Programación. ...
  2. Matemáticas Avanzada. ...
  3. Ingeniería. ...
  4. Otros campos tecnológicos. ...
  5. Hojas de cálculo. ...
  6. Diseño. ...
  7. Idiomas. ...
  8. Project Management.
Jun 14, 2021

¿Qué problema principal enfrenta la humanidad con la inteligencia artificial? ›

Los riesgos fundamentales son tres: accidentes, malos usos y carreras de armas. Los sistemas de inteligencia artificial en ocasiones funcionan mal. Por ahora, los daños que pueden causar son limitados, aunque ya ha habido accidentes fatales con coches autónomos.

¿Cómo afecta la luz artificial a la vista? ›

El componente azul de la luz visible puede dañar la retina, pero solo sucede por la exposición accidental al sol o a lámparas de muy alta intensidad, siendo, por lo tanto, poco frecuente. No hay pruebas consistentes de que la exposición prolongada a la luz azul a menor intensidad provoque lesiones en la retina.

¿Cómo afecta la tecnología en la visión? ›

¿Qué problemas visuales están asociados a la creciente vida digital? El abuso de pantallas y dispositivos digitales puede producir adelanto de la presbicia, miopía y fatiga visual. Presbicia: adelanto de la edad de la aparición de la vista cansada. Miopía funcional: un problema en aumento en los más jóvenes.

¿Qué puede causar ceguera temporal en ambos ojos? ›

Las migrañas son las causas más comunes de pérdida temporal de la visión . Las migrañas pueden causar puntos ciegos o puede sentir que está viendo luces intermitentes. Las migrañas causan ceguera repentina en ambos ojos. La arteritis de células gigantes es otra causa de ceguera temporal en un ojo.

¿Qué es lo bueno y lo malo de la inteligencia artificial? ›

La IA no sólo incrementa la productividad a nivel de maquinaria, sino que también hace que incremente la productividad de los trabajadores y la calidad del trabajo que realizan. El poder gozar de mayor información, les permite tener una visión más focalizada de su trabajo y tomar mejores decisiones.

¿Cómo nos afecta la inteligencia artificial en el futuro? ›

La inteligencia artificial del futuro tendrá un papel cada vez más importante en la vida cotidiana. Se espera que desempeñe un papel clave en el desarrollo de soluciones innovadoras para la automatización de procesos, la mejora de la seguridad y la eficiencia en la industria, así como en la medicina y la educación.

¿Cuáles son los tres tipos de luz que pueden dañar los ojos? ›

Radiación ultravioleta

En realidad, hay 3 tipos diferentes de luz ultravioleta, conocidos como UV-C, UV-A y UV-B . UV-A y UV-B son las ondas de luz que afectan la piel y los ojos. Afortunadamente, la luz UV-C es absorbida por las capas de ozono, por lo que no es algo de lo que deba preocuparse.

¿Qué luz afecta más a los ojos? ›

Un exceso de luz de las bandas ultravioleta y azul-violeta puede dañar el ojo humano. Además de causar una dolorosa inflamación de la conjuntiva y la córnea, también puede causar daños en el cristalino (p. ej. cataratas) y especialmente en la retina (degeneración macular).

¿Qué tipo de luz daña tus ojos? ›

La luz ultravioleta tiene la longitud de onda más corta y se sabe que es peligrosa. Puede quemar la piel en forma de quemadura solar y provocar cáncer. Los rayos ultravioleta también pueden quemar los ojos, en particular la córnea, y provocar enfermedades oculares como la ceguera de la nieve o la córnea del soldador.

¿Mirar la pantalla de un teléfono daña la vista? ›

Según los expertos, mirar fijamente las pantallas de las computadoras, tabletas y teléfonos inteligentes no dañará su vista de forma permanente . Sin embargo, hacerlo puede causar algunos efectos secundarios molestos, en particular el síndrome de visión por computadora (también llamado fatiga visual digital).

¿El tiempo de pantalla puede dañar tus ojos? ›

La astenopia puede ser causada por el uso excesivo del ojo, por ejemplo, durante un período de enfoque prolongado en una pantalla. Cualquier resplandor en la pantalla puede cansar aún más los ojos. Los niños con fatiga ocular pueden quejarse de dolores de cabeza, dolor de ojos o sensación de cansancio, dolores de cabeza. Pueden perder interés en tareas como la lectura.

¿Cuánto tiempo de pantalla es saludable para los ojos? ›

Tome descansos frecuentes.

La Asociación Estadounidense de Optometría recomienda la regla 20/20/20: apartar la mirada de la pantalla cada 20 minutos , enfocar un objeto a una distancia de al menos 20 pies, durante al menos 20 segundos. Además, los niños deben alejarse de la pantalla durante al menos 10 minutos cada hora.

¿Cómo se llama la enfermedad de los ojos que te deja ciego? ›

El glaucoma se caracteriza por una pérdida de la visión periférica (como si miráramos a través de un túnel) y, en ocasiones, también central debido al daño progresivo que se produce en el nervio óptico.

¿Qué parte del cerebro causa ceguera? ›

La ceguera cortical es la falta de visión, no por un problema ocular o una enfermedad visual, sino debido a un daño cerebral en las áreas visuales primarias del lóbulo occipital (corteza visual).

¿Cuánto tiempo puede durar la ceguera temporal de un ojo? ›

Entre los síntomas se incluye la pérdida súbita de la visión en uno de los ojos. Esto generalmente dura entre algunos segundos y algunos minutos. Posteriormente, la visión vuelve a la normalidad. Algunas personas describen esta pérdida de la visión como una sombra gris o negra que baja por los ojos.

Videos

1. 22 Visión por Computador: UNet, GAN, Anomaly Detection
(Domingo Mery)
2. 007 Extracción características [Visión artificial]
(Giovanny Espinal Ramirez)
3. ¿De qué es capaz la inteligencia artificial? | DW Documental
(DW Documental)
4. #Ciencia | Reconstrucción 3D a partir de una sola imagen mediante redes neuronales convolucionales
(Universidad Jorge Tadeo Lozano)
5. What Is Computer Vision & Why Does It Matter?
(NVIDIA)
6. Webconference "Uso y Aplicación de la Inteligencia Artificial en la Actualidad"
(Universidad de Xalapa)
Top Articles
Latest Posts
Article information

Author: Delena Feil

Last Updated: 10/08/2023

Views: 5514

Rating: 4.4 / 5 (65 voted)

Reviews: 88% of readers found this page helpful

Author information

Name: Delena Feil

Birthday: 1998-08-29

Address: 747 Lubowitz Run, Sidmouth, HI 90646-5543

Phone: +99513241752844

Job: Design Supervisor

Hobby: Digital arts, Lacemaking, Air sports, Running, Scouting, Shooting, Puzzles

Introduction: My name is Delena Feil, I am a clean, splendid, calm, fancy, jolly, bright, faithful person who loves writing and wants to share my knowledge and understanding with you.