DEV Community: Edison Achalma

Analizar texto sobre ciencia de datos

Edison Achalma — Fri, 17 Jun 2022 00:37:06 +0000

| Analizar texto sobre ciencia de datos - by @achalmaedison_ |

Challenge: Analyzing Text about Data Science

In this example, let's do a simple exercise that covers all steps of a traditional data science process. You do not have to write any code, you can just click on the cells below to execute them and observe the result. As a challenge, you are encouraged to try this code out with different data.

Goal

In this lesson, we have been discussing different concepts related to Data Science. Let's try to discover more related concepts by doing some text mining. We will start with a text about Data Science, extract keywords from it, and then try to visualize the result.

As a text, I will use the page on Data Science from Wikipedia:

url = 'https://en.wikipedia.org/wiki/Data_science'

Step 1: Getting the Data

First step in every data science process is getting the data. We will use requests library to do that:

import requests

text = requests.get(url).content.decode('utf-8')
print(text[:1000])

Step 2: Transforming the Data

The next step is to convert the data into the form suitable for processing. In our case, we have downloaded HTML source code from the page, and we need to convert it into plain text.

There are many ways this can be done. We will use the simplest built-in HTMLParser object from Python. We need to subclass the HTMLParser class and define the code that will collect all text inside HTML tags, except <script> and <style> tags.

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    script = False
    res = ""
    def handle_starttag(self, tag, attrs):
        if tag.lower() in ["script","style"]:
            self.script = True
    def handle_endtag(self, tag):
        if tag.lower() in ["script","style"]:
            self.script = False
    def handle_data(self, data):
        if str.strip(data)=="" or self.script:
            return
        self.res += ' '+data.replace('[ edit ]','')

parser = MyHTMLParser()
parser.feed(text)
text = parser.res
print(text[:1000])

Step 3: Getting Insights

The most important step is to turn our data into some form from which we can draw insights. In our case, we want to extract keywords from the text, and see which keywords are more meaningful.

We will use Python library called RAKE for keyword extraction. First, let's install this library in case it is not present:

import sys
!{sys.executable} -m pip install nlp_rake

The main functionality is available from Rake object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword - to 2. Feel free to play around with other values and observe the result.

import nlp_rake
extractor = nlp_rake.Rake(max_words=2,min_freq=3,min_chars=5)
res = extractor.apply(text)
res

We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.

Step 4: Visualizing the Result

People can interpret the data best in the visual form. Thus it often makes sense to visualize the data in order to draw some insights. We can use matplotlib library in Python to plot simple distribution of the keywords with their relevance:

import matplotlib.pyplot as plt

def plot(pair_list):
    k,v = zip(*pair_list)
    plt.bar(range(len(k)),v)
    plt.xticks(range(len(k)),k,rotation='vertical')
    plt.show()

plot(res)

There is, however, even better way to visualize word frequencies - using Word Cloud. We will need to install another library to plot the word cloud from our keyword list.

!{sys.executable} -m pip install wordcloud

WordCloud object is responsible for taking in either original text, or pre-computed list of words with their frequencies, and returns and image, which can then be displayed using matplotlib:

from wordcloud import WordCloud
import matplotlib.pyplot as plt

wc = WordCloud(background_color='white',width=800,height=600)
plt.figure(figsize=(15,7))
plt.imshow(wc.generate_from_frequencies({ k:v for k,v in res }))

We can also pass in the original text to WordCloud - let's see if we are able to get similar result:

plt.figure(figsize=(15,7))
plt.imshow(wc.generate(text))

wc.generate(text).to_file('images/ds_wordcloud.png')

You can see that word cloud now looks more impressive, but it also contains a lot of noise (eg. unrelated words such as Retrieved on). Also, we get fewer keywords that consist of two words, such as data scientist, or computer science. This is because RAKE algorithm does much better job at selecting good keywords from text. This example illustrates the importance of data pre-processing and cleaning, because clear picture at the end will allow us to make better decisions.

In this exercise we have gone through a simple process of extracting some meaning from Wikipedia text, in the form of keywords and word cloud. This example is quite simple, but it demonstrates well all typical steps a data scientist will take when working with data, starting from data acquisition, up to visualization.

In our course we will discuss all those steps in detail.

Definición de ciencia de datos

Edison Achalma — Fri, 17 Jun 2022 00:29:03 +0000

| Definición de la ciencia de datos - by @achalmaedison_ |

¿Qué son los datos?

En nuestra vida cotidiana, estamos constantemente rodeados de datos. El texto que estás leyendo ahora son datos. La lista de números de teléfono de sus amigos en su teléfono inteligente son datos, así como la hora actual que se muestra en su reloj. Como seres humanos, operamos naturalmente con datos contando el dinero que tenemos o escribiendo cartas a nuestros amigos.

Sin embargo, los datos se volvieron mucho más críticos con la creación de computadoras. La función principal de las computadoras es realizar cálculos, pero necesitan datos para operar. Por lo tanto, necesitamos entender cómo las computadoras almacenan y procesan los datos.

Con la aparición de Internet, el papel de las computadoras como dispositivos de manejo de datos aumentó. Si lo piensas, ahora usamos computadoras cada vez más para el procesamiento de datos y la comunicación, en lugar de cálculos reales. Cuando escribimos un correo electrónico a un amigo o buscamos alguna información en Internet, esencialmente estamos creando, almacenando, transmitiendo y manipulando datos.

¿Puedes recordar la última vez que usaste computadoras para calcular algo?

¿Qué es la ciencia de datos?

En Wikipedia, la ciencia de datos se define como un campo científico que utiliza métodos científicos para extraer conocimientos y perspectivas de datos estructurados y no estructurados, y aplicar conocimientos y conocimientos procesables a partir de datos en una amplia gama de dominios de aplicación.

Esta definición destaca los siguientes aspectos importantes de la ciencia de datos:

El objetivo principal de la ciencia de datos es extraer conocimiento de los datos, en otras palabras, comprender los datos, encontrar algunas relaciones ocultas y construir un modelo.
La ciencia de datos utiliza métodos científicos, como probabilidad y estadística. De hecho, cuando se introdujo por primera vez el término ciencia de datos, algunas personas argumentaron que la ciencia de datos era solo un nuevo nombre elegante para las estadísticas. Hoy en día se ha hecho evidente que el campo es mucho más amplio.
El conocimiento obtenido debe aplicarse para producir algunos conocimientos útiles, es decir, conocimientos prácticos que puede aplicar a situaciones comerciales reales. * Deberíamos poder operar con datos tanto estructurados como no estructurados. Volveremos a discutir los diferentes tipos de datos más adelante en el curso.
El dominio de la aplicación es un concepto importante, y los científicos de datos a menudo necesitan al menos cierto grado de experiencia en el dominio del problema, por ejemplo: finanzas, medicina, marketing, etc.

Otro aspecto importante de la ciencia de datos es que estudia cómo se pueden recopilar, almacenar y operar los datos usando computadoras. Si bien las estadísticas nos brindan fundamentos matemáticos, la ciencia de datos aplica conceptos matemáticos para extraer información de los datos.

Una de las formas (atribuida a Jim Gray) de observar la ciencia de datos es considerarla como un paradigma separado de la ciencia:

Empirico, en el que nos basamos principalmente en observaciones y resultados de experimentos
Teórico, donde surgen nuevos conceptos a partir del conocimiento científico existente
Computacional, donde descubrimos nuevos principios basados en algunos experimentos computacionales
Data-Driven, basado en el descubrimiento de relaciones y patrones en los datos

Otros campos relacionados

Dado que los datos son omnipresentes, la ciencia de datos en sí también es un campo amplio que toca muchas otras disciplinas.

Bases de datos: Una consideración crítica es **cómo almacenar** los datos, es decir, cómo estructurarlos de manera que permitan un procesamiento más rápido. Hay diferentes tipos de bases de datos que almacenan datos estructurados y no estructurados, que consideraremos en nuestro curso.
Big Data: A menudo necesitamos almacenar y procesar grandes cantidades de datos con una estructura relativamente simple. Existen enfoques y herramientas especiales para almacenar esos datos de manera distribuida en un clúster de computadoras y procesarlos de manera eficiente.
Aprendizaje automático: Una forma de comprender los datos es **construir un modelo** que pueda predecir el resultado deseado. El desarrollo de modelos a partir de datos se denomina **aprendizaje automático**.
Inteligencia Artificial: Un área de aprendizaje automático conocida como inteligencia artificial (IA) también se basa en datos e implica la construcción de modelos de alta complejidad que imitan los procesos de pensamiento humano. Los métodos de IA a menudo nos permiten convertir datos no estructurados (por ejemplo, lenguaje natural) en información estructurada.
Visualización: Grandes cantidades de datos son incomprensibles para un ser humano, pero una vez que creamos visualizaciones útiles usando esos datos, podemos darles más sentido y sacar algunas conclusiones. Por lo tanto, es importante conocer muchas formas de visualizar información, algo que cubriremos en la Sección 3 de nuestro curso. . Los campos relacionados también incluyen **Infografía** e **Interacción humano-computadora** en general.

Tipos de datos

Como ya hemos mencionado, los datos están en todas partes. ¡Solo tenemos que capturarlo de la manera correcta! Es útil distinguir entre datos estructurados y no estructurados. El primero generalmente se representa en una forma bien estructurada, a menudo como una tabla o un número de tablas, mientras que el segundo es solo una colección de archivos. A veces también podemos hablar de datos semiestructurados, que tienen algún tipo de estructura que puede variar mucho.

Structured	Semi-structured	Unstructured
List of people with their phone numbers	Wikipedia pages with links	Text of Encyclopedia Britannica
Temperature in all rooms of a building at every minute for the last 20 years	Collection of scientific papers in JSON format with authors, data of publication, and abstract	File share with corporate documents
Data for age and gender of all people entering the building	Internet pages	Raw video feed from surveillance camera

Dónde obtener datos

Hay muchas fuentes posibles de datos, ¡y será imposible enumerarlas todas! Sin embargo, mencionemos algunos de los lugares típicos donde puede obtener datos:

Estructurado:
- Internet de las cosas (IoT), que incluye datos de diferentes sensores, como sensores de temperatura o presión, proporciona una gran cantidad de datos útiles. Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar los costos.
- Encuestas que solicitamos a los usuarios que completen después de una compra o después de visitar un sitio web. -
- El análisis de comportamiento puede, por ejemplo, ayudarnos a comprender qué tan profundo ingresa un usuario a un sitio y cuál es la razón típica para abandonar el sitio.
No estructurado:
- Los textos pueden ser una rica fuente de información, como una puntuación de opinión general o la extracción de palabras clave y significado semántico.
- Imágenes o Video. Se puede usar un video de una cámara de vigilancia para estimar el tráfico en la carretera e informar a las personas sobre posibles atascos de tráfico.
- Los Registros del servidor web se pueden usar para comprender qué páginas de nuestro sitio se visitan con más frecuencia y durante cuánto tiempo.
Semiestructurado:
- Los gráficos de redes sociales pueden ser excelentes fuentes de datos sobre las personalidades de los usuarios y la eficacia potencial en la difusión de información.
- Cuando tenemos un montón de fotografías de una fiesta, podemos intentar extraer datos de Dinámica de grupo construyendo un gráfico de personas tomándose fotos entre sí.

Al conocer diferentes fuentes posibles de datos, puede intentar pensar en diferentes escenarios donde se pueden aplicar técnicas de ciencia de datos para conocer mejor la situación y mejorar los procesos comerciales.

Qué puede hacer con los datos

En Data Science, nos centramos en los siguientes pasos del viaje de datos:

1) Adquisición de datos

El primer paso es recopilar los datos. Si bien en muchos casos puede ser un proceso sencillo, como los datos que llegan a una base de datos desde una aplicación web, a veces necesitamos usar técnicas especiales. Por ejemplo, los datos de los sensores de IoT pueden ser abrumadores, y es una buena práctica utilizar puntos finales de almacenamiento en búfer como IoT Hub para recopilar todos los datos antes de su posterior procesamiento.

2) Almacenamiento de datos

Almacenar datos puede ser un desafío, especialmente si estamos hablando de big data. Al decidir cómo almacenar datos, tiene sentido anticipar la forma en que consultaría los datos en el futuro. Hay varias formas en que se pueden almacenar los datos:

Una base de datos relacional almacena una colección de tablas y utiliza un lenguaje especial llamado SQL para consultarlas. Normalmente, las tablas se organizan en diferentes grupos llamados esquemas. En muchos casos, necesitamos convertir los datos del formulario original para que se ajusten al esquema.
Una base de datos NoSQL, como CosmosDB, no aplica esquemas en los datos y permite almacenar datos más complejos, por ejemplo, documentos o gráficos JSON jerárquicos. Sin embargo, las bases de datos NoSQL no tienen las capacidades de consulta enriquecidas de SQL y no pueden imponer la integridad referencial, es decir, las reglas sobre cómo se estructuran los datos en tablas y gobiernan las relaciones entre tablas.
El almacenamiento de Data Lake se utiliza para grandes colecciones de datos en forma cruda y no estructurada. Los lagos de datos se utilizan a menudo con big data, donde todos los datos no pueden caber en una máquina, y tienen que ser almacenados y procesados por un clúster de servidores Parquet es el formato de datos que a menudo se usa junto con big data.

3) Tratamiento de datos

Esta es la parte más emocionante del viaje de datos, que implica convertir los datos de su forma original en una forma que se puede usar para la visualización / entrenamiento de modelos. Cuando se trata de datos no estructurados, como texto o imágenes, es posible que necesitemos utilizar algunas técnicas de IA para extraer **características** de los datos, convirtiéndolos así en forma estructurada.

4) Visualización / Human Insights

A menudo, para entender los datos, necesitamos visualizarlos. Al tener muchas técnicas de visualización diferentes en nuestra caja de herramientas, podemos encontrar la vista correcta para hacer una idea. A menudo, un científico de datos necesita "jugar con los datos", visualizándolos muchas veces y buscando algunas relaciones. Además, podemos utilizar técnicas estadísticas para probar una hipótesis o probar una correlación entre diferentes datos.

5) Entrenamiento de un modelo predictivo

Debido a que el objetivo final de la ciencia de datos es poder tomar decisiones basadas en datos, es posible que deseemos utilizar las técnicas de Machine Learning para construir un modelo predictivo. Luego podemos usar esto para hacer predicciones utilizando nuevos conjuntos de datos con estructuras similares.

Por supuesto, dependiendo de los datos reales, es posible que falten algunos pasos (por ejemplo, cuando ya tenemos los datos en la base de datos o cuando no necesitamos capacitación en modelos), o algunos pasos pueden repetirse varias veces (como el procesamiento de datos).

Digitalización y Transformación Digital

En la última década, muchas empresas comenzaron a comprender la importancia de los datos al tomar decisiones comerciales. Para aplicar los principios de la ciencia de datos a la gestión de un negocio, primero se necesitan recopilar algunos datos, es decir, traducir los procesos de negocio a forma digital. Esto se conoce como digitalización. ALa aplicación de técnicas de ciencia de datos a estos datos para guiar las decisiones puede conducir a aumentos significativos en la productividad (o incluso al pivote empresarial), llamado transformación digital.

Consideremos un ejemplo. Supongamos que tenemos un curso de ciencia de datos (como este) que impartimos en línea a los estudiantes, y queremos usar la ciencia de datos para mejorarlo. ¿Cómo podemos hacerlo?

Podemos empezar preguntándonos "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que tarda cada alumno en completar cada módulo, y medir los conocimientos obtenidos dando una prueba de opción múltiple al final de cada módulo. Al promediar el tiempo de finalización en todos los estudiantes, podemos averiguar qué módulos causan las mayores dificultades para los estudiantes y trabajar para simplificarlos.

Puede argumentar que este enfoque no es ideal, porque los módulos pueden ser de diferentes longitudes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar.

Cuando comenzamos a analizar los resultados de las pruebas de opción múltiple, podemos tratar de determinar qué conceptos tienen dificultades para entender los estudiantes, y usar esa información para mejorar el contenido. Para hacer eso, necesitamos diseñar pruebas de tal manera que cada pregunta se asigne a un determinado concepto o trozo de conocimiento.

Si queremos complicarnos aún más, podemos trazar el tiempo empleado para cada módulo en función de la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad se necesita un tiempo inapropiadamente largo para completar el módulo, o que los estudiantes abandonan antes de completarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas por las expectativas erróneas.

🚀 Challenge

En este desafío, trataremos de encontrar conceptos relevantes para el campo de la Ciencia de Datos mirando textos. Tomaremos un artículo de Wikipedia sobre Ciencia de Datos, descargaremos y procesaremos el texto, y luego construiremos una nube de palabras como esta:

Visite notebook.ipynb para leer el código. También puede ejecutar el código y ver cómo realiza todas las transformaciones de datos en tiempo real.

Si no sabe cómo ejecutar código en un Jupyter Notebook, eche un vistazo a este artículo.

Assignments

Tarea 1: Modificar el código anterior para descubrir conceptos relacionados con los campos de Big Data y Machine Learning
Tarea 2: Pensar en escenarios de ciencia de datos

Credits

Esta lección ha sido escrita con ♥️ por Dmitry Soshnikov y E Edison Achalma Mendoza