Ricardo Sueiras for AWS

Posted on Nov 25, 2022 • Edited on Oct 29, 2025

AWS open source newsletter, #137 (Edición en español)

#github #opensource

November 25th, 2022 - Instalment #137

Bienvenidos

Bienvenido al boletín informativo de código abierto de AWS, edición n.º 137. Como se trata de re:Invent la próxima semana, publicaré el boletín temprano cuando salga el lunes. Estaré en Las Vegas hablando con constructores de código abierto, pasando el rato en el quiosco de código abierto en AWS Village y dando algunas charlas. Si vienes, me encantaría conocer a algunos de ustedes, así que ponte en contacto. También me tomaré un descanso de una semana, por lo que el próximo boletín será el 12 de diciembre.

Como siempre, esta semana tenemos más proyectos nuevos para que practiques tus cuatro libertades, incluidos un par de proyectos para aquellos que buscan quizás hacer frente a sus propias instancias de Mastadon. "aws-vpc-flowlogs-enricher" es un proyecto para ayudarlo a agregar datos adicionales en sus registros de flujo de VPC, "aws-security-assessment-solution", una solución que utiliza algunas herramientas de seguridad de código abierto que puede usar para evaluar su AWS cuentas, "aws-backup-amplify-appsync", una herramienta para todos los usuarios de AWS Amplify que deben conocer, "message-bus-bridge" es una herramienta para ayudarlo a copiar mensajes entre mensajes, "monitor-serverless-datalake" manténgase al tanto de sus lagos de datos con esta solución, "ec2-image-builder-send-approval-notifications-before-sharing-ami" le muestra cómo puede agregar un paso de notificación en el flujo de trabajo de creación de AMI, "amazon-ecs- fargate-cdk-v2-cicd" es una buena demostración sobre el uso de AWS CDKv2 con Flask, "deploy-nth-to-eks", una herramienta para administradores de Kubernetes, ¡y también algunos proyectos más!

Con el período previo a re:Invent, el equipo de AWS Amplify ha estado entusiasmado y tenemos una gran cantidad de contenido excelente para los usuarios y fanáticos de AWS Amplify. También tenemos excelente contenido que cubre sus proyectos de código abierto favoritos, incluidos GraphQL, Grafana, Prometheus, MariaDB, PostgreSQL, Flutter, React, Apache Iceberg, Apache Airflow, Apache Flink, Apache ShardingSphere, AutoGluon, AWS ParallelCluster, Kubeflow, NGINX, Finch, Amazon EMR, Trino, Apache Hudi, O3DE, Apache Kafka, OpenSearch, MLFlow y más.

Finalmente, con re:Invent upon us, asegúrese de consultar la sección de eventos para obtener todo lo que necesita saber para asegurarse de no perderse las mejores sesiones de código abierto.

AWS Copilot: dé su opinión

El proyecto AWS Copilot ha creado una nueva propuesta de diseño para anular los recursos abstractos de Copilot mediante el kit de desarrollo de la nube (CDK) de AWS. El objetivo es proporcionar un mecanismo de "romper el cristal" para acceder y configurar la funcionalidad que no aparece en los manifiestos de Copilot aprovechando el poder expresivo de un lenguaje de programación. Dé su opinión dirigiéndose a Extending Copilot with the CDK y únase a la discusión.

Feedback

Hágame saber cómo podemos mejorar este boletín y cómo AWS puede trabajar mejor con proyectos y tecnologías de código abierto completando esta breve encuesta que probablemente lo llevará menos de 30 segundos para completar. ¡Muchas gracias!

Celebrando a los contribuyentes de código abierto

Los artículos y proyectos compartidos en este boletín solo son posibles gracias a los muchos colaboradores en código abierto. Me gustaría gritar y agradecer a aquellas personas que realmente impulsan el código abierto y nos permiten a todos aprender y construir sobre lo que han creado.

Así que gracias a los siguientes héroes de código abierto: John Preston, Andreas Wittig, Michael Wittig, Uma Ramadoss, Boni Bruno, Eric Henderson, Chelluru Vidyadhar, Vijay Karumajji, Justin Lim, Krishna Sarabu, Chirag Dave, and Mark Townsend

Últimos proyectos de código abierto

Lo mejor de los proyectos de código abierto es que puede revisar el código fuente. Si le gusta el aspecto de estos proyectos, asegúrese de echar un vistazo al código y, si le resulta útil, póngase en contacto con el mantenedor para proporcionar comentarios, sugerencias o incluso enviar una contribución.*

Hermamientas

aws-sam-cli-pipeline-init-templates

aws-sam-cli-pipeline-init-templates Este repositorio contiene las plantillas de inicio de canalización que se utilizan en la CLI de AWS SAM para los comandos de canalización de sam. Los clientes ahora pueden agregar servicios de forma incremental a su repositorio y automatizar la creación y ejecución de canalizaciones para cada nuevo servicio sin servidor. La plantilla crea la infraestructura de soporte necesaria para realizar un seguimiento del historial de confirmaciones y los cambios que ocurren en sus directorios, por lo que solo se activa la canalización de servicio modificada. Comience simplemente eligiendo la opción 2 cuando inicie y arranque y una nueva canalización.

aws-security-assessment-solution

aws-security-assessment-solution La ciberseguridad sigue siendo un tema muy importante y un motivo de preocupación para muchos CIO, CISO y sus clientes. Para satisfacer estas importantes preocupaciones, AWS ha desarrollado un conjunto principal de servicios que los clientes deben usar para ayudar a proteger sus cuentas. Las revisiones de Amazon GuardDuty, AWS Security Hub, AWS Config y AWS Well-Architected ayudan a los clientes a mantener una sólida postura de seguridad en sus cuentas de AWS. A medida que más organizaciones se implementan en la nube, especialmente si lo hacen rápidamente, y aún no han implementado los servicios de AWS recomendados, es posible que sea necesario realizar una evaluación de seguridad rápida del entorno de la nube. Con eso en mente, hemos trabajado para desarrollar una solución económica, fácil de implementar, segura y rápida para proporcionar a nuestros clientes dos (2) informes de evaluación de seguridad. Estas evaluaciones de seguridad son de los proyectos de código abierto "Prowler" y "ScoutSuite". Cada uno de estos proyectos lleva a cabo una evaluación basada en las mejores prácticas de AWS y puede ayudar a identificar rápidamente cualquier área de riesgo potencial en el entorno implementado de un cliente.

aws-backup-amplify-appsync

aws-backup-amplify-appsync AWS Amplify facilita la creación de aplicaciones de interfaz de usuario de interfaz de usuario de pila completa con backends y autenticación. AWS AppSync agrega tablas GraphQL y DynamoDB sin servidor a su aplicación sin código. Este proyecto lo guía sobre cómo incluir la infraestructura como código para agregar AWS Backup a una aplicación de Amplify y AppSync para administrar instantáneas para las tablas de DynamoDB de sus aplicaciones.

monitor-serverless-datalake

monitor-serverless-datalake Este repositorio sirve como plataforma de lanzamiento para monitorear lagos de datos sin servidor en AWS. El objetivo es proporcionar un mecanismo plug and play para monitorear lagos de datos a escala empresarial. Los lagos de datos comienzan pequeños y explotan rápidamente con la adopción. Con una adopción creciente, las canalizaciones de datos también crecen en número y complejidad. Es fundamental garantizar que la canalización de datos se ejecute según el SLA y que se mitiguen las fallas. La solución proporciona mecanismos para lo siguiente: 1. Capturar cambios de estado en todas las tareas en el lago de datos 2. Notificar rápidamente las operaciones de fallas a medida que ocurren 3. Medir la confiabilidad del servicio en todo el lago de datos para identificar oportunidades para la optimización del rendimiento.

message-bus-bridge

message-bus-bridge es un servicio relativamente simple que transfiere mensajes entre dos buses de mensajes diferentes. Fue construido con el propósito de proporcionar a los usuarios de los servicios API de WebSocket una forma rápida y fácil de proporcionar conectividad a sus sistemas de bus MQ existentes sin tener que volver a codificar a una API de WebSocket. Efectivamente, escuchará cualquier mensaje proveniente del bus MQ y lo enviará a la API de WebSocket y viceversa. Si bien el servicio en esta encarnación implementa MQ en WebSockets, el código es modular para que el código de manejo del bus respectivo se pueda cambiar por otro bus, como JMS o Kafka.

aws-vpc-flowlogs-enricher

aws-vpc-flowlogs-enricher Este repositorio contiene un código de función lambda de muestra que se puede usar en el flujo de Kinesis Firehose para enriquecer el registro de flujo de VPC con metadatos adicionales, como etiquetas de recursos para las direcciones IP de origen y destino, e ID de VPC, ID de subred, ID de interfaz, AZ para las direcciones IP de destino. . Estos datos se pueden usar para identificar flujos para etiquetas específicas, o tráfico de origen AZ a destino AZ y muchos más escenarios.

ec2-image-builder-send-approval-notifications-before-sharing-ami

ec2-image-builder-send-approval-notifications-before-sharing-ami Es posible que deba validar manualmente la imagen de máquina de Amazon (AMI) creada a partir de una canalización de Image Builder de Amazon Elastic Compute Cloud (Amazon EC2) antes de compartir esta AMI con otras cuentas de AWS o con una organización de AWS. Actualmente, Image Builder proporciona una canalización de un extremo a otro que comparte automáticamente las AMI una vez que se han creado. Este repositorio proporciona código y documentación para ayudarlo a crear una solución para habilitar las notificaciones de aprobación antes de que las AMI se compartan con otras cuentas de AWS.

deploy-nth-to-eks

deploy-nth-to-eks El controlador de terminación de nodos de AWS (nth) garantiza que el plano de control de Kubernetes responda adecuadamente a los eventos que pueden hacer que su instancia EC2 deje de estar disponible, como eventos de mantenimiento de EC2, interrupciones puntuales de EC2, ASG Scale-In, ASG AZ Rebalance y EC2 Instance Termination a través de la API o la consola. Si no se controla, es posible que el código de su aplicación no se detenga correctamente, tarde más en recuperar la disponibilidad total o programe accidentalmente el trabajo en los nodos que se están desactivando. El controlador de terminación de nodo de aws (NTH) puede operar en dos modos diferentes: Metadatos de instancia Servicio (IMDS) o el Procesador de Cola. El Monitor de servicio de metadatos de instancia de aws-node-termination-handler ejecutará un pequeño módulo en cada host para monitorear las rutas de IMDS como /spot o /events y reaccionar en consecuencia para drenar y/o acordonar el nodo correspondiente. El procesador de cola aws-node-termination-handler monitoreará una cola SQS de eventos de Amazon EventBridge para eventos de ciclo de vida de ASG, eventos de cambio de estado de EC2, eventos de notificación de terminación de interrupción de spot y eventos de recomendación de reequilibrio de spot. Cuando NTH detecta que una instancia está fallando, usamos la API de Kubernetes para acordonar el nodo y garantizar que no se programe ningún nuevo trabajo allí, luego lo drenamos y eliminamos cualquier trabajo existente. El controlador de terminación Queue Processor requiere permisos de AWS IAM para monitorear y administrar la cola de SQS y para consultar la API de EC2. Este patrón automatizará la implementación del controlador de terminación de nodo utilizando el procesador de cola a través de la canalización CICD.

Demos, Samples, Solutions and Workshops

custom-provider-with-terraform-plugin-framework

custom-provider-with-terraform-plugin-framework Este repositorio contiene una implementación completa de un proveedor personalizado creado con el último SDK de HashiCorp llamado marco de complemento de Terraform. Se utiliza para enseñar, educar y mostrar el funcionamiento interno de un proveedor creado con el SDK más reciente de HashiCorp. Incluso si no está buscando aprender cómo crear proveedores personalizados, puede mejorar sus habilidades de solución de problemas a un nivel experto si aprende cómo funciona uno detrás de escena. Además, es muy divertido jugar con este proveedor. El proveedor se llama buildonaws y le permite mantener personajes de cómics como héroes, superhéroes y villanos.

mastodon-on-aws

mastodon-on-aws Andreas Wittig y Michael Wittig comparten detalles sobre cómo puede alojar su propia instancia de Mastodon en AWS. También han elaborado esta publicación de blog, Mastodon en AWS: aloje su propia instancia que puede leer para obtener más información.

mastodon-aws-architecture

mastodon-aws-architecture este repositorio proporciona detalles sobre cómo se ejecuta la instancia de snapp.social Mastadon en AWS, y a medida que más y más personas exploran si esta opción es adecuada para ellos, eche un vistazo y vea cómo han diseñado e implementado esto en AWS.

amazon-ecs-fargate-cdk-v2-cicd

amazon-ecs-fargate-cdk-v2-cicd Este proyecto crea una aplicación Flask en contenedor de muestra completa disponible públicamente en AWS, utilizando Fargate, ECS, CodeBuild y CodePipline para producir una canalización completamente funcional para implementar cambios continuamente en su nueva aplicación.

ROSConDemo

ROSConDemo este repositorio contiene código para un proyecto de demostración de recolección de frutas robótica en funcionamiento para O3DE con ROS 2 Gem.

o3de-demo-project

Este proyecto demuestra cómo se puede usar ROS2 Gem para O3DE con una escena (proyecto The Loft) y la pila de navegación ROS 2.

AWS and Community blog posts

Finch

Phil Estes y Chris Short elaboraron esta publicación, Presentamos a Finch: un cliente de código abierto para el desarrollo de contenedores para anunciar un nuevo proyecto de código abierto, Finch. Finch es un nuevo cliente de línea de comandos para crear, ejecutar y publicar contenedores de Linux. Proporciona una instalación sencilla de un cliente macOS nativo, junto con un conjunto seleccionado de componentes de código abierto estándar de facto, incluidos Lima, nerdctl, containerd y BuildKit. Con Finch, puede crear y ejecutar contenedores localmente, y crear y publicar imágenes de contenedores de Open Container Initiative (OCI). Una cosa que realmente se destaca de esta publicación es esta cita:

En lugar de iterar en privado y lanzar un proyecto terminado, creemos que el código abierto tiene más éxito cuando diversas voces se unen a la fiesta. Tenemos planes para características e innovaciones, pero abrir el proyecto tan temprano conducirá a una solución más sólida y útil para todos. Nos complace abordar los problemas y estamos listos para aceptar solicitudes de incorporación de cambios.

Así que echa un vistazo a esta publicación y ponte manos a la obra con Finch.

Apache Hudi

Inmediatamente después de presentar Apache Hudi en el último programa Build on Open Source, tenemos a Suthan Phillips y Dylan Qu que han creado Build your Apache Lago de datos de Hudi en AWS usando Amazon EMR - Parte 1, donde cubren las mejores prácticas al construir lagos de datos de Hudi en AWS usando Amazon EMR

Apache Kafka

Con tantas opciones para los constructores sobre cómo implementar Apache Kafka, ¿cómo decide cuál es la opción adecuada para usted? Bueno, John Preston, creador de la comunidad de AWS, está aquí para brindar su opinión sobre esto en su publicación de blog, AWS MSK, Confluent Cloud, Aiven. ¿Cómo elegir su proveedor de servicios administrados de Kafka? Después de leer la publicación, comparta sus pensamientos con John en los comentarios.

Apache ShardingSphere

Apache ShardingSphere sigue Database Plus, el concepto de desarrollo rector de nuestra comunidad para crear un ecosistema completo que le permite transformar cualquier base de datos en un sistema de base de datos distribuido y mejorarlo fácilmente con fragmentación, escalado elástico, funciones de cifrado de datos y más. Se enfoca en reutilizar las bases de datos existentes, colocando una capa superior estandarizada sobre las bases de datos existentes y fragmentadas, en lugar de crear una nueva base de datos. Puede leer más sobre este proyecto en la publicación, ShardingSphere-on-Cloud y Pisanix reemplazan a Sidecar para una verdadera experiencia nativa de la nube y obtener más información sobre ShardingSphere-on-Cloud que le muestra cómo puede implementar ShardingSphere en un entorno de Kubernetes en AWS.

MySQL y MariaDB

En la publicación Prácticas recomendadas de seguridad para Amazon RDS para instancias MySQL y MariaDB, Chelluru Vidyadhar analiza las diferentes prácticas recomendadas que puede seguir para ejecutar Amazon RDS para bases de datos MySQL y Amazon RDS para MariaDB de forma segura. Chelluru analiza las buenas prácticas actuales a nivel de red, instancia de base de datos y motor de base de datos (MySQL y MariaDB).

Siguiendo con MariaDB, Vijay Karumajji y Justin Lim han creado Aumentar el rendimiento de escritura en Amazon RDS para MariaDB usando el motor de almacenamiento MyRocks, donde exploran el nuevo lanzó la arquitectura del motor de almacenamiento MyRocks en Amazon RDS para MariaDB 10.6. Comienzan cubriendo MyRocks y su arquitectura, casos de uso de MyRocks y demuestran nuestros resultados de evaluación comparativa, para que pueda determinar si el motor de almacenamiento de MyRocks puede ayudarlo a obtener un mayor rendimiento para su carga de trabajo.

PostgreSQL

pgBadger es una herramienta de código abierto para identificar consultas de ejecución lenta y de ejecución frecuente en sus aplicaciones de PostgreSQL, y ayudarlo a guiarlo sobre cómo mejorar su rendimiento. En la publicación de blog, Una arquitectura sin servidor para analizar registros de PostgreSQL con pgBadger Krishna Sarabu, Chirag Dave y Mark Townsend lo guían a través de un diseño de solución que permite el análisis de los registros de la base de datos de PostgreSQL sin utilizar recursos informáticos persistentes. Esto le permite usar pgBadger sin tener que preocuparse por el aprovisionamiento, la protección y el mantenimiento de recursos informáticos y de almacenamiento adicionales. [hands on]

Kubernetes

Tuvimos una gran cantidad de contenido de Kubernetes en el período previo a re:Invent, por lo que aquí hay un resumen de los que me parecieron más interesantes.

Cómo detectar problemas de seguridad en clústeres de Amazon EKS mediante Amazon GuardDuty - Parte 1 repasa los eventos que llevaron a un problema de seguridad real que ocurrió debido a una configuración incorrecta del clúster de EKS, y luego analiza cómo un actor malintencionado podría usar esas configuraciones incorrectas, y cómo Amazon GuardDuty monitorea e identifica actividades sospechosas durante el evento de seguridad de EKS
Almacenamiento persistente para Kubernetes la primera de una publicación de dos partes que cubre los conceptos de almacenamiento persistente para Kubernetes y cómo puede aplicar esos conceptos para un básico carga de trabajo
*
Exposición de aplicaciones de Kubernetes, Parte 3: Controlador de entrada de NGINX, el tercero de una serie que busca formas de exponer aplicaciones que se ejecutan en un clúster de Kubernetes para acceso externo, esta publicación cubre el uso de una implementación de código abierto de un controlador de entrada: NGINX Ingress Controller, explorando algunas de sus características y las formas en que difiere de su AWS Load Balancer Controller

Aprendizaje automático con Kubeflow en Amazon EKS con Amazon EFS explica cómo puede usar Kubeflow en Amazon EKS para implementar el paralelismo de modelos y usar Amazon EFS como persistente almacenamiento para compartir conjuntos de datos [práctica]

Otras publicaciones y lecturas rápidas

Uso de Authorizer con DynamoDB y EKS muestra cómo usar el Authorizer de código abierto /2bd) proyecto para proporcionar una solución de autenticación cuando se trabaja con Amazon DynamoDB

Lanzar trabajos de capacitación autosupervisados en la nube con AWS ParallelCluster describe el proceso para crear un clúster de computación de alto rendimiento (HPC) que lanzará grandes, trabajos de capacitación autosupervisados, principalmente aprovechando dos tecnologías: AWS ParallelCluster y la biblioteca Vision Self-Supervised Learning (VISSL)

Introducción a los solucionadores de JavaScript en las API GraphQL de AWS AppSync analiza cómo puede usar ahora JavaScript para escribir el código de resolución de canalización de AppSync y la función de AppSync código, así como el Lenguaje de plantilla de Velocity (VTL) existente

Pronóstico fácil y preciso con AutoGluon-TimeSeries muestra la facilidad de uso de AutoGluon-TimeSeries para construir rápidamente un potente pronosticador [prácticas]

Administrar imágenes en su aplicación NextJS con AWS AppSync y AWS CDK muestra cómo combinar AWS CDK con la biblioteca JavaScript de Amplify proporciona la flexibilidad necesaria para que los equipos escalen de forma independiente y con confianza, mientras siguen aprovechando las herramientas modernas [prácticas]

Estudios de caso

Anuncio de los ganadores de los premios inaugurales Future of Government: celebración de iniciativas de transformación digital en todo el mundo incluye detalles de los ganadores de Open Source Creation of the Year Premio y Premio a la Adaptación de Código Abierto del Año.
DENT, el sistema operativo de red de código abierto para borde distribuido, ahora impulsa la tecnología AWS Just Walk Out una mirada a cómo se está llevando a cabo este proyecto de red de código abierto utilizado por AWS en su tecnología Just Walk Out.

Quick updates

Apache Iceberg

Amazon Athena agregó comandos SQL y formatos de archivo que simplifican el almacenamiento, la transformación y el mantenimiento de los datos almacenados en las tablas de Apache Iceberg. Estas nuevas capacidades permiten a los ingenieros y analistas de datos combinar más de las comodidades familiares de SQL con las propiedades transaccionales de Iceberg para permitir casos de uso de análisis eficientes y sólidos.

El lanzamiento de hoy agrega los comandos CREATE TABLE AS SELECT (CTAS), MERGE y VACUUM que agilizan la gestión del ciclo de vida de sus datos Iceberg: CTAS hace que sea rápido y eficiente crear tablas, MERGE sincroniza tablas en un solo paso para simplificar sus tareas de preparación y actualización de datos y VACUUM lo ayuda a administrar el espacio de almacenamiento y eliminar registros para cumplir con los requisitos normativos, como el RGPD. También agregamos soporte para AVRO y ORC para que pueda crear tablas Iceberg con un conjunto más amplio de formatos de archivo. Por último, ahora puede simplificar el acceso a los datos administrados por Iceberg mediante el uso de Vistas para ocultar combinaciones, agregaciones y tipos de datos complejos.

Apache Airflow

Amazon Managed Workflows for Apache Airflow (MWAA) ahora proporciona métricas de Amazon CloudWatch para el uso de contenedores, bases de datos y colas. Amazon MWAA es un servicio administrado para Apache Airflow que le permite usar la misma plataforma familiar de Apache Airflow que usa hoy para organizar sus flujos de trabajo y disfrutar de una escalabilidad, disponibilidad y seguridad mejoradas sin la carga operativa de tener que administrar la infraestructura subyacente. Con estas métricas adicionales, los clientes han mejorado la visibilidad de su rendimiento de Amazon MWAA para ayudarlos a depurar cargas de trabajo y dimensionar adecuadamente sus entornos.

Consulte la excelente publicación Presentación de métricas de utilización de contenedores, bases de datos y colas para el entorno Amazon MWAA, donde Uma Ramadoss profundiza y comparte detalles sobre el nuevo métricas publicadas para el entorno de Amazon MWAA, cree una aplicación de muestra con un flujo de trabajo prediseñado y explore las métricas con el panel de CloudWatch. [las manos en]

Apache Flink

Apache Flink es un marco de código abierto popular para cálculos con estado sobre flujos de datos. Le permite formular consultas que se evalúan continuamente casi en tiempo real frente a un flujo entrante de eventos. Hubo un par de anuncios esta semana sobre este proyecto de código abierto.

Primero fue la noticia de que Amazon Kinesis Data Analytics para Apache Flink ahora es compatible con la versión 1.15 de Apache Flink. Esta nueva versión incluye mejoras en la semántica de procesamiento exactamente una vez de Flink, los conectores Kinesis Data Streams y Kinesis Data Firehose, las funciones definidas por el usuario de Python, Flink SQL y más. El lanzamiento también incluye una capacidad aportada por AWS, un nuevo marco Async-Sink que simplifica la creación de sumideros personalizados para entregar datos procesados. Lea más sobre cómo contribuimos a este lanzamiento consultando la publicación, Facilitando la creación de conectores con Apache Flink: Presentando el sumidero asíncrono donde Zichen Liu, Steffen Hausmann y Ahmed Hamdy hablan sobre una característica de Apache Flink, Async Sinks y cómo funciona Async Sink, cómo puede construir un nuevo receptor basado en Async Sink y analizan nuestros planes para continuar con nuestras contribuciones a Apache Flink. .

Los clientes de Amazon EMR ahora pueden usar AWS Glue Data Catalog desde sus flujos de trabajo SQL por lotes y de transmisión en Flink. El catálogo de datos de AWS Glue es un catálogo compatible con Apache Hive metastore. Puede configurar sus trabajos de Flink en Amazon EMR para utilizar el catálogo de datos como un metaalmacén externo de Apache Hive. Con esta versión, puede ejecutar directamente consultas Flink SQL en las tablas almacenadas en el catálogo de datos.

Flink es compatible con el metastore de Hive en el clúster como catálogo persistente listo para usar. Esto significa que los metadatos tenían que volver a crearse cuando se cerraban los clústeres y era difícil que varios clústeres compartieran la misma información de metadatos. A partir de Amazon EMR 6.9, sus trabajos de Flink en Amazon EMR pueden administrar los metadatos de Flink en AWS Glue Data Catalog. Puede usar un catálogo de datos de Glue persistente y completamente administrado como un repositorio centralizado. Cada catálogo de datos es una colección altamente escalable de tablas organizadas en bases de datos.

El catálogo de datos de AWS Glue proporciona un repositorio uniforme donde los sistemas dispares pueden almacenar y encontrar metadatos para realizar un seguimiento de los datos en los silos de datos. Luego puede consultar los metadatos y transformar esos datos de manera consistente en una amplia variedad de aplicaciones. Con soporte para AWS Glue Data Catalog, puede usar Apache Flink en Amazon EMR para el procesamiento unificado BATCH y STREAM de Apache Hive Tables o metadatos de cualquier fuente de tabla Flink, como Iceberg, Kinesis o Kafka. Puede especificar AWS Glue Data Catalog como metastore para Flink mediante la Consola de administración de AWS, la CLI de AWS o la API de Amazon EMR.

Amazon EMR

Un par de actualizaciones de Amazon EMR en Amazon EKS esta semana.

El controlador ACK para Amazon EMR en Elastic Kubernetes Service (EKS) pasó al estado de disponibilidad general. Con el controlador ACK para EMR en EKS, puede definir y administrar de forma declarativa EMR en recursos de EKS, como clústeres virtuales y ejecuciones de trabajos como recursos personalizados de Kubernetes. Esto le permite administrar estos recursos directamente usando herramientas nativas de Kubernetes como 'kubectl'. EMR en EKS es una opción de implementación para EMR que le permite ejecutar marcos de macrodatos de código abierto en clústeres de EKS. Puede consolidar las cargas de trabajo analíticas con sus aplicaciones basadas en Kubernetes en el mismo clúster de Amazon EKS para mejorar la utilización de los recursos y simplificar la administración y las herramientas de la infraestructura. ACK es una colección de definiciones de recursos personalizados (CRD) de Kubernetes y controladores personalizados que trabajan juntos para ampliar la API de Kubernetes y administrar los recursos de AWS en su nombre.

Después de eso, tuvimos el anuncio de soporte para configurar las propiedades de Spark dentro de las sesiones de EMR Studio Jupyter Notebook para cargas de trabajo interactivas de Spark. Amazon EMR en EKS permite a los clientes ejecutar de manera eficiente marcos de macrodatos de código abierto como Apache Spark en Amazon EKS. Los clientes de Amazon EMR en EKS configuran y usan un punto de enlace administrado (disponible en versión preliminar) para ejecutar cargas de trabajo interactivas mediante entornos de desarrollo integrados (IDE) como EMR Studio. Los ingenieros y científicos de datos utilizan las notebooks EMR Studio Jupyter con EMR en EKS para desarrollar, visualizar y depurar aplicaciones escritas en Python, PySpark o Scala. Con esta versión, los clientes ahora pueden personalizar su configuración de Spark, como la CPU/memoria del controlador y el ejecutor, la cantidad de ejecutores y las dependencias del paquete, dentro de su sesión de computadora portátil para manejar diferentes cargas de trabajo computacionales o diferentes cantidades de datos, utilizando un único punto final administrado.

Trino

Trino es un motor de consulta SQL de código abierto que se utiliza para ejecutar análisis interactivos en los datos almacenados en Amazon S3. La semana pasada se anunció que Amazon S3 mejora el rendimiento de las consultas que se ejecutan en Trino hasta 9 veces cuando se usa Amazon S3 Select. Con S3 Select, “empuja hacia abajo” el trabajo computacional para filtrar sus datos S3 en lugar de devolver el objeto completo. Al usar Trino con S3 Select, recupera solo un subconjunto de datos de un objeto, lo que reduce la cantidad de datos devueltos y acelera el rendimiento de las consultas.

Con la contribución ascendente de AWS a Trino de código abierto, puede usar Trino con S3 Select para mejorar el rendimiento de sus consultas. S3 Select descarga el trabajo pesado de filtrar y acceder a los datos dentro de los objetos a Amazon S3, lo que reduce la cantidad de datos que debe transferir y procesar Trino. Por ejemplo, si tiene un lago de datos creado en Amazon S3 y usa Trino hoy, puede usar la capacidad de filtrado de S3 Select para ejecutar consultas ad-hoc interactivas rápida y fácilmente.

Puede explorar esto con más detalle al consultar esta publicación de blog, Ejecute consultas hasta 9 veces más rápido usando Trino con Amazon S3 Select en Amazon EMR donde Boni Bruno y Eric Henderson analizan los puntos de referencia de rendimiento en la versión 397 de Trino con S3 Select mediante consultas de puntos de referencia similares a TPC-DS a una escala de 3 TB.

AWS Amplify

Amplify DataStore brinda a los desarrolladores de aplicaciones frontend la capacidad de crear aplicaciones en tiempo real con capacidades fuera de línea mediante el almacenamiento de datos en el dispositivo (navegador web o dispositivo móvil) y la sincronización automática de datos en la nube y entre dispositivos en una conexión a Internet. Esta semana se lanzó el lanzamiento de claves primarias personalizadas, también conocidas como identificadores personalizados, para que Amplify DataStore brinde flexibilidad adicional para sus modelos de datos. Puede profundizar más en esta actualización leyendo la publicación, Nuevo: anuncio de compatibilidad con clave principal personalizada para AWS Amplify DataStore

Tuvimos otra publicación de Amplify DataStore que analiza una serie de otras mejoras con Amplify DataStore que se lanzaron esta semana, que facilitan el trabajo con datos relacionales: carga diferida, predicados de consulta anidados y mejoras de tipo. Para obtener más información sobre estas nuevas mejoras, consulte NUEVO: Predicados de consulta anidados y carga diferida para AWS Amplify DataStore [hands on]

También se anunció esta semana el lanzamiento de la versión 5.0.0 de la biblioteca JavaScript de Amplify. Esta versión está repleta de funciones muy solicitadas, además de mejoras internas para mejorar la estabilidad y la facilidad de uso de la biblioteca de JavaScript. Consulte la publicación Anuncio de la versión 5 de la biblioteca de JavaScript de AWS Amplify que contiene enlaces al repositorio de GitHub.

El equipo de Amplify ha estado muy ocupado, ya que también anunció una vista previa para desarrolladores para expandir el soporte de Flutter a Web y Desktop para los casos de uso de API, Analytics y Storage. Los desarrolladores ahora pueden crear aplicaciones de Flutter multiplataforma con Amplify que apuntan a iOS, Android, Web y Desktop (macOS, Windows, Linux) usando una sola base de código. En combinación con la vista previa de autenticación que se lanzó anteriormente, los desarrolladores ahora pueden crear aplicaciones Flutter multiplataforma que incluyen API REST o API GraphQL para interactuar con datos de back-end, análisis para comprender el comportamiento del usuario y almacenamiento para guardar y recuperar archivos y medios. Esta versión de vista previa para desarrolladores se escribió completamente en Dart, lo que permite a los desarrolladores implementar sus aplicaciones en todas las plataformas de destino actualmente compatibles con Flutter. Amplify Flutter está diseñado para proporcionar a los desarrolladores un comportamiento coherente, independientemente de la plataforma de destino. Con estos conjuntos de funciones ahora disponibles en la Web y el escritorio, los desarrolladores de Flutter pueden crear experiencias dirigidas a las plataformas que más les importan a sus clientes. Consulte la publicación, Anuncio de la compatibilidad con Flutter Web y escritorio para las bibliotecas de almacenamiento, análisis y API de AWS Amplify, para obtener más información sobre este lanzamiento y cómo Utilice la API GraphQL de AWS Amplify y las bibliotecas de almacenamiento mediante la creación de una aplicación de lista de compras con Flutter dirigida a iOS, Android, web y escritorio. [hands on]

Finalmente, también anunciamos que AWS Amplify anuncia compatibilidad con las API de GraphQL sin la resolución de conflictos habilitada. Con este lanzamiento, es más fácil que nunca usar mutaciones y consultas personalizadas, sin necesidad de administrar el protocolo de resolución de conflictos subyacente. Todavía puede modelar sus datos con la misma interfaz gráfica fácil de usar. Y también estamos trayendo pruebas de API de GraphQL mejoradas a Studio a través de la herramienta de código abierto, GraphiQL.

Obtenga más información leyendo la publicación, Anunciando nuevas características de la API de GraphQL en Amplify Studio

Contenido extra

Se ha publicado mucho contenido de AWS Amplify esta semana, así que ¿por qué no echa un vistazo a algunas de estas publicaciones?

NUEVO: Cree formularios React para cualquier API en minutos con AWS Amplify Studio (no se requiere una cuenta de AWS) analiza el generador de formularios Amplify Studio, la nueva forma para construir componentes de formulario React para cualquier API [hands on]

Texto a voz en Android usando AWS Amplify proporciona un buen ejemplo sobre cómo usar la categoría Predicciones para implementar texto a voz en una aplicación de Android [hands on]

AWS Toolkits

AWS Toolkits for JetBrains y VS Code lanzaron una experiencia de iteración de código más rápida para desarrollar aplicaciones SAM de AWS. Los kits de herramientas de AWS son complementos de código abierto para los IDE de JetBrains y VS Code que brindan una experiencia integrada para desarrollar aplicaciones sin servidor, incluida la asistencia para comenzar y capacidades de depuración paso a paso locales para aplicaciones sin servidor. Con el lanzamiento de hoy, los kits de herramientas agregan las capacidades de "sincronización" Lambda de SAM CLI enviadas como SAM Accelerate (vea el anuncio). Estas nuevas características en los kits de herramientas para JetBrains y VS Code brindan a los clientes una mayor flexibilidad. Los clientes pueden sincronizar toda su aplicación sin servidor (es decir, la infraestructura y el código) o sincronizar solo los cambios de código y omitir las implementaciones de Cloudformation.

Obtenga más información en la publicación completa del blog, Experiencia de iteración más rápida para aplicaciones SAM de AWS en los kits de herramientas de AWS para JetBrains y VS Code

Grafana

Esta semana se lanzó la nueva función de alertas de Amazon Managed Grafana que permite a los clientes obtener visibilidad de sus alertas de Prometheus Alertmanager desde su espacio de trabajo de Grafana. Los clientes pueden continuar usando Grafana Alerting clásico en sus espacios de trabajo de Amazon Managed Grafana si esa experiencia se adapta mejor a sus necesidades. Los clientes que utilizan Amazon Managed Service para espacios de trabajo de Prometheus para recopilar métricas de Prometheus utilizan las funciones Alert Manager y Ruler completamente administradas en el servicio para configurar reglas de alerta y registro. Con esta función, pueden visualizar todas sus reglas de alerta y grabación configuradas en su espacio de trabajo de Amazon Managed Service for Prometheus.

Lea más en la guía práctica, Anunciando las reglas de Prometheus Alertmanager en Amazon Managed Grafana

También se anunció la compatibilidad con Amazon Managed Grafana para conectarse a fuentes de datos dentro de una nube privada virtual de Amazon (Amazon VPC). Los clientes que usan Amazon Managed Grafana han estado solicitando asistencia para conectarse a fuentes de datos que residen en una VPC de Amazon y no son de acceso público. Los datos en los clústeres de Amazon OpenSearch Service, las instancias de Amazon RDS, las fuentes de datos autohospedadas y otras cargas de trabajo sensibles a los datos a menudo solo son accesibles de forma privada. Los clientes han expresado la necesidad de conectar Amazon Managed Grafana a estas fuentes de datos de forma segura mientras mantienen una sólida postura de seguridad.

Lea más sobre esto en la publicación, Anuncio de la compatibilidad con fuentes de datos de VPC privadas para Amazon Managed Grafana

NodeJS

Ahora puede desarrollar funciones de AWS Lambda utilizando el tiempo de ejecución de Node.js 18. Esta versión está en estado LTS activo y se considera lista para uso general. Al crear o actualizar funciones, especifique un valor de parámetro de tiempo de ejecución de nodejs18.x o use la imagen base del contenedor adecuada para usar este nuevo tiempo de ejecución. Esta versión de tiempo de ejecución es compatible con funciones que se ejecutan en procesadores AWS Graviton2 basados en Arm o procesadores basados en x86. El uso de la opción de arquitectura de procesador Graviton2 le permite obtener hasta un 34 % más de rendimiento de precio.

Lea la publicación Node.js 18.x runtime now available in AWS Lambda, para obtener más información sobre los principales cambios disponibles con Node.js 18 tiempo de ejecución en Lambda. También debe consultar Por qué y cómo debe usar AWS SDK para JavaScript (v3) en Node.js 18 como AWS SDK para JavaScript (v3). ) se incluye de forma predeterminada en el tiempo de ejecución de AWS Lambda Node.js 18.

MariaDB

Amazon Relational Database Service (Amazon RDS) para MariaDB ahora es compatible con las versiones secundarias de MariaDB 10.6.11, 10.5.18, 10.4.27 y 10.3.37. Le recomendamos que actualice a las versiones secundarias más recientes para corregir las vulnerabilidades de seguridad conocidas en versiones anteriores de MariaDB y beneficiarse de las numerosas correcciones de errores, mejoras de rendimiento y nuevas funciones agregadas por la comunidad de MariaDB.

PostgreSQL

Amazon Relational Database Service (Amazon RDS) para PostgreSQL ahora es compatible con las versiones secundarias de PostgreSQL 14.5, 13.8, 12.12, 11.17 y 10.22. Le recomendamos que actualice a la última versión secundaria para corregir las vulnerabilidades de seguridad conocidas en versiones anteriores de PostgreSQL y beneficiarse de las correcciones de errores, las mejoras de rendimiento y la nueva funcionalidad agregada por la comunidad de PostgreSQL. Consulte el anuncio de la comunidad de PostgreSQL para obtener más detalles sobre el lanzamiento. Esta versión también incluye soporte para Amazon RDS Multi-AZ con dos standby legibles y actualizaciones para las extensiones PostgreSQL compatibles existentes: la extensión PostGIS se actualiza a 3.1.7, la extensión pg_partman se actualiza a 4.6.2 y la extensión pgRouting se actualiza a 3.2.2 . Consulte la lista de extensiones admitidas en la Guía del usuario de Amazon RDS para conocer las versiones específicas.

Videos of the week

Kubernetes and AWS

Si se perdió esto, vale la pena echarle un vistazo a la increíble discusión de Jay Pipes sobre el uso de Kubernetes por parte de AWS, así como las contribuciones de AWS a la base de código de Kubernetes. La entrevista fue grabada en KubeCon North America el mes pasado.

OpenSearch

Los videos de OpenSearchCon que tuvieron lugar a principios de este año ya están disponibles. Puede ver la lista completa aquí, y hay una serie de excelentes sesiones que cubren una amplia gama de temas. La que pasé tiempo viendo fue esta sesión de OpenSearch Core Codebase Nicholas Knize, OpenSearch maintainer, Lucene Committer y miembro de PMC. Si está interesado en contribuir con OpenSearch y tiene curiosidad por saber cómo comenzar, esta sesión responderá algunas de estas preguntas y más al levantar el capó y explorar la base del código.

Kubeflow and MLFlow

Únase a sus anfitriones, Antje Barth y Chris Fregley, ya que se les unen varios invitados para hablar sobre algunos grandes proyectos de código abierto como Kubeflow, MLflow, datamesh.utils y data.all.

Build on Open Source

Para aquellos que no están familiarizados con este programa, Build on Open Source es donde repasamos este boletín y luego invitamos a invitados especiales a profundizar en su proyecto de código abierto. Espere mucho código, demostraciones y, con suerte, risas. Hemos creado una lista de reproducción para que pueda acceder fácilmente a los (siete) episodios del programa Build on Open Source. Construir en la lista de reproducción de código abierto

Events for your diary

Apache Hudi Meetup - re:Invent
November 28th - December 3rd, Las Vegas

Apache Hudi es una tecnología de plataforma de datos que ayuda a construir lagos de datos confiables y escalables. Hudi lleva el procesamiento de flujo a big data, sobrecargando sus lagos de datos, haciéndolos mucho más eficientes.

Hudi es ampliamente utilizado por muchas empresas como Uber, Walmart, Amazon.com, Robinhood, GE, Disney Hotstar, Alibaba, ByteDance que construyen lagos de datos transaccionales o de transmisión. Hudi también viene prediseñado con Amazon EMR y está integrado con Amazon Athena, AWS Glue y Amazon Redshift. También está integrado en muchos otros proveedores de nube, como la nube de Google y la nube de Alibaba.

Únase a la comunidad de Apache Hudi para una reunión organizada por Onehouse y la comunidad de Apache Hudi en el sitio de re:Invent. Aquí están los diferentes horarios y ubicaciones (hora local de Las Vegas):

Nov 28th [7:00 pm - 7:20 pm] Networking
Nov 28th [7:20 pm - 7:50 pm] Hudi 101 (Speaker TBA)
Nov 28th [7:50 pm - 8:20 pm] How Hudi supercharges your lake house architecture with streaming and historical data by Vinoth Chandar
Nov 28th [8:20 pm - 8:40 pm] Roadmap (Speaker TBA)
Nov 28th [8:40 pm - 9:00 pm] Open floor for Q&A

Se llevará a cabo en la sala de conferencias "Chopin 2" en el Hotel Encore.

re:Invent
November 28th - December 3rd, Las Vegas

re:Invent está sucediendo toda esta semana, y hay una gran cantidad de excelente contenido de código abierto para usted, ya sean sesiones de trabajo, charlas de tiza, proveedores de código abierto en la exposición y más.

Volveremos a presentar proyectos de código abierto en Developer Lounge, en AWS Modern Applications and Open Source Zone. Hemos publicado un cronograma de los proyectos de código abierto que puede consultar, así que ¿por qué no echa un vistazo a La zona de código abierto y aplicaciones modernas de AWS: aprenda, juegue y relájese en AWS re:Invent 2022 y ven. Estaré allí durante una gran parte del tiempo los martes, miércoles y jueves. Si tiene una buena historia de código abierto que contar, o algo de SWAG para intercambiar, traeré nuestras monedas del desafío Build On Open Source, ¡así que asegúrese de buscarme!

Eche un vistazo a esta forma práctica de ver todas las increíbles sesiones de código abierto, luego consulte este panel de control [es necesario registrarse]. Me encantaría saber cuáles te entusiasman, así que házmelo saber en los comentarios o a través de Twitter. Si desea escuchar cuáles son mis tres sesiones principales, debe verlas, entonces esto es a lo que asistiría (lamentablemente, como empleado de AWS, no puedo asistir a las sesiones)

OPN306 AWS Lambda Powertools: Lecciones del camino hacia los 10 millones de descargas: Heitor Lessa brindará una sesión increíble sobre el viaje desde la idea hasta una de las herramientas de código abierto más queridas y utilizadas para los usuarios de AWS Lambda.
BOA204 Cuando la seguridad, la seguridad y la urgencia importan: Manejo de Log4Shell: no puedo esperar a esta sesión de Abbey Fuller, quien nos explicará cómo manejamos este incidente.
OPN202 Mantener abierto el marco de trabajo de AWS Amplify: Matt Auerbach y Ashish Nanda compartirán detalles sobre cómo los gerentes de ingeniería de Amplify trabajan con la comunidad de OSS para crear software de código abierto.

OpenSearch
Every other Tuesday, 3pm GMT

Esta reunión regular es para cualquier persona interesada en OpenSearch y Open Distro. Todos los niveles de habilidad son bienvenidos y cubren y dan la bienvenida a charlas sobre temas que incluyen: búsqueda, registro, análisis de registros y visualización de datos.

Regístrese en la próxima sesión, Reunión de la comunidad de OpenSearch

Stay in touch with open source at AWS

I hope this summary has been useful. Remember to check out the Open Source homepage to keep up to date with all our activity in open source by following us on @AWSOpen

DEV Community