🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr
✅ Blog original: All the things that Amazon Comprehend, Rekognition, Textract, Polly, Transcribe, and Others Do
Los desarrolladores, aquellos que brindan soluciones a problemas informáticos, basan procedimientos, programan y mantienen soluciones, son programadores, pero eso no los convierte en expertos en todo lo relacionado con el código, como es el caso de crear funciones dependientes de ML, donde es necesario estar familiarizados con los modelos y el entrenamiento de algoritmos, lo cual no es de conocimiento común.
Hay algunas API listas para usar que llaman a modelos existentes previamente entrenados para cumplir funciones de ML sin necesidad de conocimientos de ML y, además, mantienen segura la información que se comparte con ellos.
A continuación, voy a hablarte de algunos servicios específicos de API de Machine Learning y de cuatro casos de uso para que te familiarices con ellos y dejes volar tu imaginación.
¿Cómo funcionan las API de ML-Functions listas para usar? Solo tienes que seguir 3 sencillos pasos:
- Define el input, la ubicación del objeto en un bucket o texto de Amazon S3.
- Invoca la API mediante la entrada.
- Output en formato json.
Echemos un vistazo a las API
En AWS hay varios servicios de ML y AI
que te permiten acelerar su adopción en las aplicaciones, desde las que proporcionan una infraestructura para entrenar tus propios modelos hasta las que están listas para usarse como llamadas a la API pre-entrenadas, veamos algunos de los segundos:
Tipos de APIs | Que puedes hacer | Nombre del servicio |
---|---|---|
🔎 Analisis de Imagenes (.png, .jpg) /videos (.mp4) |
|
Amazon Rekognition |
🔎 Detección y análisis de texto en documentos (PNG, JPG, PDF or TIFF) |
|
Amazon Textract |
🔎 Natural Language Processing (NLP) y analisis de texto. | Procesa documentos y extrae información como:
|
Amazon comprehend |
🔎 Conversión de texto a voz |
|
Amazon Polly |
🔎 Conversión de voz a texto |
|
Amazon Transcribe |
🔎 Traducción | Traduce documentos de texto no estructurado (UTF-8) o cree aplicaciones que funcionen en multiples idiomas | Amazon Translate |
🚀 Casos de uso
La mejor manera de aprender a programar es resolviendo problemas mediante el desarrollo de código, lo mismo ocurre cuando quieres aprender a usar un servicio, necesitas usarlo para aprender. Estos cuatro casos de uso son problemas reales (e inventados) que resolví mientras aprendía.
Si te apasiona proporcionar vídeo con herramientas para que otros aprendan, querrás llegar al mayor número de personas posible, y el idioma es una barrera que puedes eliminar con esta aplicación.
- Sube un video en formato .mp4 a unAmazon s3 bucket.
- Una Amazon Lambda Function sealiza la llamada a la API de Transcribe.
- El archivo de subtitulos es descargado en su idioma original en un Bucket de S3.
- Una Lambda Function realiza la llamada a la API de Translate.
- El archivo de subtítulos en el nuevo idioma se descarga en S3 Bucket.
Hay personas que tienen montañas de papeles en sus casas, cartas de amantes anteriores, exámenes médicos, recuerdos del colegio de sus hijos, bancos, etc. ¿Qué te parece guardarlo pulcramente en la nube? Intenta aprender sobre Textract y Comprehend con esta aplicación.
- Sube el documento (PNG, JPG, PDF o TIFF) en un S3 Bucket.
- Una Lambda Function realiza la llamada a la API de Textract.
- Con la respuesta de Textract, Lambda Function realiza la llamada a la API Comprehend.
- Una Lambda Function realiza la llamada a la API de traducción.
- La respuesta se guarda en un Bucket de S3.
Tenía curiosidad por saber cómo sonaba un chino hablando italiano y, como Polly tiene voces nativas para cada idioma, creé este cuaderno para jugar. 😂.
- Desde un Jupyter Notebook, haga la llamada a la API Polly.
- Polly almacena el resultado en un Bucket de S3.
- Recupera el audio.
Soy fan de las películas de acción y quería probar Rekognition con el tráiler de Die Hard 1, así que creé esta aplicación y ¡guau! cada dataframe es pura violencia 🫣... Te invito a que lo pruebes con un tráiler de tu película favorita.
- Sube un video en formato .mp4 a un Bucket de S3.
- Una Lambda Function hace la llamada a la API de Rekognition.
- Una vez finalizada la revisión del vídeo, una nueva función de Lambda recupera el resultado y lo almacena en un bucket de S3.
Conclusión
Ahora has aprendido que puedes utilizar el AI/ML como una llamada a la API para analizar imágenes y vídeos, detectar y analizar texto en documentos escaneados, analizar texto mediante la PNL para extraer opiniones del idioma dominante y mucho más. Además de poder convertir texto en voz y viceversa, y disponer de un traductor de idiomas al alcance de una llamada a la API.
Esto es solo una pequeña parte de lo que puedes crear al impulsar las aplicaciones AI-ML al alcance de una llamada a la API.
Seguro que tienes un problema real o inventado que te gustaría resolver utilizando alguno de estos servicios y si no es así te dejo estos enlaces para que sigas experimentando y aprendiendo:
- Amazon Translate Code Samples.. more code samples
- Amazon Transcribe and Amazon Comprehend Code Samples
- Amazon Polly Code Samples
- Amazon Rekognition Code Samples
🚨¿Te gusto? 👩🏻💻 ¿Tienes comentarios?🎤 cuéntamelo todo --> acá
¡Gracias!
🇻🇪🇨🇱 Dev.to Linkedin GitHub Twitter Instagram Youtube
Linktr
Top comments (1)
Muy buen aporte!, muchas gracias. ahora tengo un panorama mas claro