<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>DEV Community: Edison Achalma</title>
    <description>The latest articles on DEV Community by Edison Achalma (@achalmaedison).</description>
    <link>https://dev.to/achalmaedison</link>
    <image>
      <url>https://media2.dev.to/dynamic/image/width=90,height=90,fit=cover,gravity=auto,format=auto/https:%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser%2Fprofile_image%2F866347%2F3f43c5fa-5f27-41fe-9a5a-0e0e77f8f63f.jpeg</url>
      <title>DEV Community: Edison Achalma</title>
      <link>https://dev.to/achalmaedison</link>
    </image>
    <atom:link rel="self" type="application/rss+xml" href="https://dev.to/feed/achalmaedison"/>
    <language>en</language>
    <item>
      <title>Analizar texto sobre ciencia de datos</title>
      <dc:creator>Edison Achalma</dc:creator>
      <pubDate>Fri, 17 Jun 2022 00:37:06 +0000</pubDate>
      <link>https://dev.to/achalmaedison/ejemplo-01-55cc</link>
      <guid>https://dev.to/achalmaedison/ejemplo-01-55cc</guid>
      <description>&lt;p&gt;|              Analizar texto sobre ciencia de datos - by &lt;a href="https://twitter.com/achalmaedison" rel="noopener noreferrer"&gt;@achalmaedison&lt;/a&gt;_               |&lt;/p&gt;

&lt;h1&gt;
  
  
  Challenge: Analyzing Text about Data Science
&lt;/h1&gt;

&lt;p&gt;In this example, let's do a simple exercise that covers all steps of a traditional data science process. You do not have to write any code, you can just click on the cells below to execute them and observe the result. As a challenge, you are encouraged to try this code out with different data. &lt;/p&gt;

&lt;h2&gt;
  
  
  Goal
&lt;/h2&gt;

&lt;p&gt;In this lesson, we have been discussing different concepts related to Data Science. Let's try to discover more related concepts by doing some &lt;strong&gt;text mining&lt;/strong&gt;. We will start with a text about Data Science, extract keywords from it, and then try to visualize the result.&lt;/p&gt;

&lt;p&gt;As a text, I will use the page on Data Science from Wikipedia:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;url = 'https://en.wikipedia.org/wiki/Data_science'
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Step 1: Getting the Data
&lt;/h2&gt;

&lt;p&gt;First step in every data science process is getting the data. We will use &lt;code&gt;requests&lt;/code&gt; library to do that:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;import requests

text = requests.get(url).content.decode('utf-8')
print(text[:1000])
&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Step 2: Transforming the Data
&lt;/h2&gt;

&lt;p&gt;The next step is to convert the data into the form suitable for processing. In our case, we have downloaded HTML source code from the page, and we need to convert it into plain text.&lt;/p&gt;

&lt;p&gt;There are many ways this can be done. We will use the simplest built-in &lt;a href="https://docs.python.org/3/library/html.parser.html" rel="noopener noreferrer"&gt;HTMLParser&lt;/a&gt; object from Python. We need to subclass the &lt;code&gt;HTMLParser&lt;/code&gt; class and define the code that will collect all text inside HTML tags, except &lt;code&gt;&amp;lt;script&amp;gt;&lt;/code&gt; and &lt;code&gt;&amp;lt;style&amp;gt;&lt;/code&gt; tags.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    script = False
    res = ""
    def handle_starttag(self, tag, attrs):
        if tag.lower() in ["script","style"]:
            self.script = True
    def handle_endtag(self, tag):
        if tag.lower() in ["script","style"]:
            self.script = False
    def handle_data(self, data):
        if str.strip(data)=="" or self.script:
            return
        self.res += ' '+data.replace('[ edit ]','')

parser = MyHTMLParser()
parser.feed(text)
text = parser.res
print(text[:1000])

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;h2&gt;
  
  
  Step 3: Getting Insights
&lt;/h2&gt;

&lt;p&gt;The most important step is to turn our data into some form from which we can draw insights. In our case, we want to extract keywords from the text, and see which keywords are more meaningful.&lt;/p&gt;

&lt;p&gt;We will use Python library called &lt;a href="https://github.com/aneesha/RAKE" rel="noopener noreferrer"&gt;RAKE&lt;/a&gt; for keyword extraction. First, let's install this library in case it is not present:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;import sys
!{sys.executable} -m pip install nlp_rake

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;The main functionality is available from &lt;code&gt;Rake&lt;/code&gt; object, which we can customize using some parameters. In our case, we will set the minimum length of a keyword to 5 characters, minimum frequency of a keyword in the document to 3, and maximum number of words in a keyword - to 2. Feel free to play around with other values and observe the result.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;import nlp_rake
extractor = nlp_rake.Rake(max_words=2,min_freq=3,min_chars=5)
res = extractor.apply(text)
res

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;We obtained a list terms together with associated degree of importance. As you can see, the most relevant disciplines, such as machine learning and big data, are present in the list at top positions.&lt;/p&gt;

&lt;h2&gt;
  
  
  Step 4: Visualizing the Result
&lt;/h2&gt;

&lt;p&gt;People can interpret the data best in the visual form. Thus it often makes sense to visualize the data in order to draw some insights. We can use &lt;code&gt;matplotlib&lt;/code&gt; library in Python to plot simple distribution of the keywords with their relevance:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;import matplotlib.pyplot as plt

def plot(pair_list):
    k,v = zip(*pair_list)
    plt.bar(range(len(k)),v)
    plt.xticks(range(len(k)),k,rotation='vertical')
    plt.show()

plot(res)

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;There is, however, even better way to visualize word frequencies - using &lt;strong&gt;Word Cloud&lt;/strong&gt;. We will need to install another library to plot the word cloud from our keyword list.&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;!{sys.executable} -m pip install wordcloud

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;&lt;code&gt;WordCloud&lt;/code&gt; object is responsible for taking in either original text, or pre-computed list of words with their frequencies, and returns and image, which can then be displayed using &lt;code&gt;matplotlib&lt;/code&gt;:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;from wordcloud import WordCloud
import matplotlib.pyplot as plt

wc = WordCloud(background_color='white',width=800,height=600)
plt.figure(figsize=(15,7))
plt.imshow(wc.generate_from_frequencies({ k:v for k,v in res }))

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;We can also pass in the original text to &lt;code&gt;WordCloud&lt;/code&gt; - let's see if we are able to get similar result:&lt;br&gt;
&lt;/p&gt;

&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;plt.figure(figsize=(15,7))
plt.imshow(wc.generate(text))

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;





&lt;div class="highlight js-code-highlight"&gt;
&lt;pre class="highlight plaintext"&gt;&lt;code&gt;wc.generate(text).to_file('images/ds_wordcloud.png')

&lt;/code&gt;&lt;/pre&gt;

&lt;/div&gt;



&lt;p&gt;You can see that word cloud now looks more impressive, but it also contains a lot of noise (eg. unrelated words such as &lt;code&gt;Retrieved on&lt;/code&gt;). Also, we get fewer keywords that consist of two words, such as &lt;em&gt;data scientist&lt;/em&gt;, or &lt;em&gt;computer science&lt;/em&gt;. This is because RAKE algorithm does much better job at selecting good keywords from text. This example illustrates the importance of data pre-processing and cleaning, because clear picture at the end will allow us to make better decisions.&lt;/p&gt;

&lt;p&gt;In this exercise we have gone through a simple process of extracting some meaning from Wikipedia text, in the form of keywords and word cloud. This example is quite simple, but it demonstrates well all typical steps a data scientist will take when working with data, starting from data acquisition, up to visualization.&lt;/p&gt;

&lt;p&gt;In our course we will discuss all those steps in detail. &lt;/p&gt;

</description>
      <category>datascience</category>
    </item>
    <item>
      <title>Definición de ciencia de datos</title>
      <dc:creator>Edison Achalma</dc:creator>
      <pubDate>Fri, 17 Jun 2022 00:29:03 +0000</pubDate>
      <link>https://dev.to/achalmaedison/01-defining-data-science-4n0m</link>
      <guid>https://dev.to/achalmaedison/01-defining-data-science-4n0m</guid>
      <description>&lt;p&gt;|              Definición de la ciencia de datos - by &lt;a href="https://twitter.com/achalmaedison" rel="noopener noreferrer"&gt;@achalmaedison&lt;/a&gt;_               |&lt;/p&gt;

&lt;h2&gt;
  
  
  ¿Qué son los datos?
&lt;/h2&gt;

&lt;p&gt;En nuestra vida cotidiana, estamos constantemente rodeados de datos. El texto que estás leyendo ahora son datos. La lista de números de teléfono de sus amigos en su teléfono inteligente son datos, así como la hora actual que se muestra en su reloj. Como seres humanos, operamos naturalmente con datos contando el dinero que tenemos o escribiendo cartas a nuestros amigos.&lt;/p&gt;

&lt;p&gt;Sin embargo, los datos se volvieron mucho más críticos con la creación de computadoras. La función principal de las computadoras es realizar cálculos, pero necesitan datos para operar. Por lo tanto, necesitamos entender cómo las computadoras almacenan y procesan los datos.&lt;/p&gt;

&lt;p&gt;Con la aparición de Internet, el papel de las computadoras como dispositivos de manejo de datos aumentó. Si lo piensas, ahora usamos computadoras cada vez más para el procesamiento de datos y la comunicación, en lugar de cálculos reales. Cuando escribimos un correo electrónico a un amigo o buscamos alguna información en Internet, esencialmente estamos creando, almacenando, transmitiendo y manipulando datos.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;¿Puedes recordar la última vez que usaste computadoras para calcular algo?&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h2&gt;
  
  
  ¿Qué es la ciencia de datos?
&lt;/h2&gt;

&lt;p&gt;En &lt;a href="https://en.wikipedia.org/wiki/Data_science" rel="noopener noreferrer"&gt;Wikipedia&lt;/a&gt;, &lt;strong&gt;la ciencia de datos&lt;/strong&gt; se define como &lt;em&gt;un campo científico que utiliza métodos científicos para extraer conocimientos y perspectivas de datos estructurados y no estructurados, y aplicar conocimientos y conocimientos procesables a partir de datos en una amplia gama de dominios de aplicación&lt;/em&gt;. &lt;/p&gt;

&lt;p&gt;Esta definición destaca los siguientes aspectos importantes de la ciencia de datos:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;El objetivo principal de la ciencia de datos es &lt;strong&gt;extraer conocimiento&lt;/strong&gt; de los datos, en otras palabras, &lt;strong&gt;comprender&lt;/strong&gt; los datos, encontrar algunas relaciones ocultas y construir un &lt;strong&gt;modelo&lt;/strong&gt;.&lt;/li&gt;
&lt;li&gt;La ciencia de datos utiliza &lt;strong&gt;métodos científicos&lt;/strong&gt;, como probabilidad y estadística. De hecho, cuando se introdujo por primera vez el término &lt;em&gt;ciencia de datos&lt;/em&gt;, algunas personas argumentaron que la ciencia de datos era solo un nuevo nombre elegante para las estadísticas. Hoy en día se ha hecho evidente que el campo es mucho más amplio.
&lt;/li&gt;
&lt;li&gt;El conocimiento obtenido debe aplicarse para producir algunos &lt;strong&gt;conocimientos útiles&lt;/strong&gt;, es decir, conocimientos prácticos que puede aplicar a situaciones comerciales reales. * Deberíamos poder operar con datos tanto &lt;strong&gt;estructurados&lt;/strong&gt; como &lt;strong&gt;no estructurados&lt;/strong&gt;. Volveremos a discutir los diferentes tipos de datos más adelante en el curso. &lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;El dominio de la aplicación&lt;/strong&gt; es un concepto importante, y los científicos de datos a menudo necesitan al menos cierto grado de experiencia en el dominio del problema, por ejemplo: finanzas, medicina, marketing, etc.&lt;/li&gt;
&lt;/ul&gt;

&lt;blockquote&gt;
&lt;p&gt;Otro aspecto importante de la ciencia de datos es que estudia cómo se pueden recopilar, almacenar y operar los datos usando computadoras. Si bien las estadísticas nos brindan fundamentos matemáticos, la ciencia de datos aplica conceptos matemáticos para extraer información de los datos.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Una de las formas (atribuida a &lt;a href="https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist)" rel="noopener noreferrer"&gt;Jim Gray&lt;/a&gt;) de observar la ciencia de datos es considerarla como un paradigma separado de la ciencia:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Empirico&lt;/strong&gt;, en el que nos basamos principalmente en observaciones y resultados de experimentos&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Teórico&lt;/strong&gt;, donde surgen nuevos conceptos a partir del conocimiento científico existente&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Computacional&lt;/strong&gt;, donde descubrimos nuevos principios basados ​​en algunos experimentos computacionales&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Data-Driven&lt;/strong&gt;, basado en el descubrimiento de relaciones y patrones en los datos&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Otros campos relacionados
&lt;/h2&gt;

&lt;p&gt;Dado que los datos son omnipresentes, la ciencia de datos en sí también es un campo amplio que toca muchas otras disciplinas.&lt;/p&gt;

&lt;dl&gt;
&lt;dt&gt;Bases de datos&lt;/dt&gt;
&lt;dd&gt;
Una consideración crítica es **cómo almacenar** los datos, es decir, cómo estructurarlos de manera que permitan un procesamiento más rápido. Hay diferentes tipos de bases de datos que almacenan datos estructurados y no estructurados, que &lt;a href="https://github.com/achalmed/Data-Science-For-Beginners/blob/main/2-Working-With-Data/README.md" rel="noopener noreferrer"&gt;consideraremos en nuestro curso&lt;/a&gt;.
&lt;/dd&gt;
&lt;dt&gt;Big Data&lt;/dt&gt;
&lt;dd&gt;
A menudo necesitamos almacenar y procesar grandes cantidades de datos con una estructura relativamente simple. Existen enfoques y herramientas especiales para almacenar esos datos de manera distribuida en un clúster de computadoras y procesarlos de manera eficiente.
&lt;/dd&gt;
&lt;dt&gt;Aprendizaje automático&lt;/dt&gt;
&lt;dd&gt;
Una forma de comprender los datos es **construir un modelo** que pueda predecir el resultado deseado. El desarrollo de modelos a partir de datos se denomina **aprendizaje automático**. 
&lt;/dd&gt;
&lt;dt&gt;Inteligencia Artificial&lt;/dt&gt;
&lt;dd&gt;
Un área de aprendizaje automático conocida como inteligencia artificial (IA) también se basa en datos e implica la construcción de modelos de alta complejidad que imitan los procesos de pensamiento humano. Los métodos de IA a menudo nos permiten convertir datos no estructurados (por ejemplo, lenguaje natural) en información estructurada.
&lt;/dd&gt;
&lt;dt&gt;Visualización&lt;/dt&gt;
&lt;dd&gt;
Grandes cantidades de datos son incomprensibles para un ser humano, pero una vez que creamos visualizaciones útiles usando esos datos, podemos darles más sentido y sacar algunas conclusiones. Por lo tanto, es importante conocer muchas formas de visualizar información, algo que cubriremos en la &lt;a href="../../3-Data-Visualization/README.md"&gt;Sección 3&lt;/a&gt; de nuestro curso. . Los campos relacionados también incluyen **Infografía** e **Interacción humano-computadora** en general.
&lt;/dd&gt;
&lt;/dl&gt;

&lt;h2&gt;
  
  
  Tipos de datos
&lt;/h2&gt;

&lt;p&gt;Como ya hemos mencionado, los datos están en todas partes. ¡Solo tenemos que capturarlo de la manera correcta! Es útil distinguir entre datos &lt;strong&gt;estructurados&lt;/strong&gt; y &lt;strong&gt;no estructurados&lt;/strong&gt;. El primero generalmente se representa en una forma bien estructurada, a menudo como una tabla o un número de tablas, mientras que el segundo es solo una colección de archivos. A veces también podemos hablar de datos &lt;strong&gt;semiestructurados&lt;/strong&gt;, que tienen algún tipo de estructura que puede variar mucho.&lt;/p&gt;

&lt;div class="table-wrapper-paragraph"&gt;&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;Structured&lt;/th&gt;
&lt;th&gt;Semi-structured&lt;/th&gt;
&lt;th&gt;Unstructured&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;List of people with their phone numbers&lt;/td&gt;
&lt;td&gt;Wikipedia pages with links&lt;/td&gt;
&lt;td&gt;Text of Encyclopedia Britannica&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Temperature in all rooms of a building at every minute for the last 20 years&lt;/td&gt;
&lt;td&gt;Collection of scientific papers in JSON format with authors, data of publication, and abstract&lt;/td&gt;
&lt;td&gt;File share with corporate documents&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Data for age and gender of all people entering the building&lt;/td&gt;
&lt;td&gt;Internet pages&lt;/td&gt;
&lt;td&gt;Raw video feed from surveillance camera&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;&lt;/div&gt;

&lt;h2&gt;
  
  
  Dónde obtener datos
&lt;/h2&gt;

&lt;p&gt;Hay muchas fuentes posibles de datos, ¡y será imposible enumerarlas todas! Sin embargo, mencionemos algunos de los lugares típicos donde puede obtener datos:&lt;/p&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Estructurado&lt;/strong&gt;: 

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Internet de las cosas&lt;/strong&gt; (IoT), que incluye datos de diferentes sensores, como sensores de temperatura o presión, proporciona una gran cantidad de datos útiles. Por ejemplo, si un edificio de oficinas está equipado con sensores IoT, podemos controlar automáticamente la calefacción y la iluminación para minimizar los costos.
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Encuestas&lt;/strong&gt; que solicitamos a los usuarios que completen después de una compra o después de visitar un sitio web. - &lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;El análisis de comportamiento&lt;/strong&gt; puede, por ejemplo, ayudarnos a comprender qué tan profundo ingresa un usuario a un sitio y cuál es la razón típica para abandonar el sitio. &lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;

&lt;strong&gt;No estructurado&lt;/strong&gt;: 

&lt;ul&gt;
&lt;li&gt;Los &lt;strong&gt;textos&lt;/strong&gt; pueden ser una rica fuente de información, como una &lt;strong&gt;puntuación de opinión&lt;/strong&gt; general o la extracción de palabras clave y significado semántico. &lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Imágenes&lt;/strong&gt; o &lt;strong&gt;Video&lt;/strong&gt;. Se puede usar un video de una cámara de vigilancia para estimar el tráfico en la carretera e informar a las personas sobre posibles atascos de tráfico. &lt;/li&gt;
&lt;li&gt;Los &lt;strong&gt;Registros&lt;/strong&gt; del servidor web se pueden usar para comprender qué páginas de nuestro sitio se visitan con más frecuencia y durante cuánto tiempo. &lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;li&gt;Semiestructurado: 

&lt;ul&gt;
&lt;li&gt;Los gráficos de &lt;strong&gt;redes sociales&lt;/strong&gt; pueden ser excelentes fuentes de datos sobre las personalidades de los usuarios y la eficacia potencial en la difusión de información. &lt;/li&gt;
&lt;li&gt;Cuando tenemos un montón de fotografías de una fiesta, podemos intentar extraer datos de &lt;strong&gt;Dinámica de grupo&lt;/strong&gt; construyendo un gráfico de personas tomándose fotos entre sí. &lt;/li&gt;
&lt;/ul&gt;


&lt;/li&gt;

&lt;/ul&gt;

&lt;p&gt;Al conocer diferentes fuentes posibles de datos, puede intentar pensar en diferentes escenarios donde se pueden aplicar técnicas de ciencia de datos para conocer mejor la situación y mejorar los procesos comerciales.&lt;/p&gt;

&lt;h2&gt;
  
  
  Qué puede hacer con los datos
&lt;/h2&gt;

&lt;p&gt;En Data Science, nos centramos en los siguientes pasos del viaje de datos:&lt;/p&gt;

&lt;dl&gt;
&lt;dt&gt;1) Adquisición de datos&lt;/dt&gt;
&lt;dd&gt;
El primer paso es recopilar los datos. Si bien en muchos casos puede ser un proceso sencillo, como los datos que llegan a una base de datos desde una aplicación web, a veces necesitamos usar técnicas especiales. Por ejemplo, los datos de los sensores de IoT pueden ser abrumadores, y es una buena práctica utilizar puntos finales de almacenamiento en búfer como IoT Hub para recopilar todos los datos antes de su posterior procesamiento.
&lt;/dd&gt;
&lt;dt&gt;2) Almacenamiento de datos&lt;/dt&gt;
&lt;dd&gt;
Almacenar datos puede ser un desafío, especialmente si estamos hablando de big data. Al decidir cómo almacenar datos, tiene sentido anticipar la forma en que consultaría los datos en el futuro. Hay varias formas en que se pueden almacenar los datos:
&lt;ul&gt;
&lt;li&gt;Una base de datos relacional almacena una colección de tablas y utiliza un lenguaje especial llamado SQL para consultarlas. Normalmente, las tablas se organizan en diferentes grupos llamados esquemas. En muchos casos, necesitamos convertir los datos del formulario original para que se ajusten al esquema.
&lt;/li&gt;
&lt;li&gt; Una base de datos &lt;a href="https://en.wikipedia.org/wiki/NoSQL" rel="noopener noreferrer"&gt;NoSQL&lt;/a&gt;, como &lt;a href="https://azure.microsoft.com/services/cosmos-db/?WT.mc_id=academic-31812-dmitryso" rel="noopener noreferrer"&gt;CosmosDB&lt;/a&gt;, no aplica esquemas en los datos y permite almacenar datos más complejos, por ejemplo, documentos o gráficos JSON jerárquicos. Sin embargo, las bases de datos NoSQL no tienen las capacidades de consulta enriquecidas de SQL y no pueden imponer la integridad referencial, es decir, las reglas sobre cómo se estructuran los datos en tablas y gobiernan las relaciones entre tablas.&lt;/li&gt;
&lt;li&gt;
&lt;a href="https://en.wikipedia.org/wiki/Data_lake" rel="noopener noreferrer"&gt;El almacenamiento de Data Lake&lt;/a&gt; se utiliza para grandes colecciones de datos en forma cruda y no estructurada. Los lagos de datos se utilizan a menudo con big data, donde todos los datos no pueden caber en una máquina, y tienen que ser almacenados y procesados por un clúster de servidores &lt;a href="https://en.wikipedia.org/wiki/Apache_Parquet" rel="noopener noreferrer"&gt;Parquet&lt;/a&gt; es el formato de datos que a menudo se usa junto con big data.
&lt;/li&gt; 
&lt;/ul&gt;
&lt;/dd&gt;
&lt;dt&gt;3) Tratamiento de datos&lt;/dt&gt;
&lt;dd&gt;
Esta es la parte más emocionante del viaje de datos, que implica convertir los datos de su forma original en una forma que se puede usar para la visualización / entrenamiento de modelos. Cuando se trata de datos no estructurados, como texto o imágenes, es posible que necesitemos utilizar algunas técnicas de IA para extraer **características** de los datos, convirtiéndolos así en forma estructurada.
&lt;/dd&gt;
&lt;dt&gt;4) Visualización / Human Insights&lt;/dt&gt;
&lt;dd&gt;
A menudo, para entender los datos, necesitamos visualizarlos. Al tener muchas técnicas de visualización diferentes en nuestra caja de herramientas, podemos encontrar la vista correcta para hacer una idea. A menudo, un científico de datos necesita "jugar con los datos", visualizándolos muchas veces y buscando algunas relaciones. Además, podemos utilizar técnicas estadísticas para probar una hipótesis o probar una correlación entre diferentes datos.   
&lt;/dd&gt;
&lt;dt&gt;5) Entrenamiento de un modelo predictivo&lt;/dt&gt;
&lt;dd&gt;
Debido a que el objetivo final de la ciencia de datos es poder tomar decisiones basadas en datos, es posible que deseemos utilizar las técnicas de &lt;a href="http://github.com/microsoft/ml-for-beginners" rel="noopener noreferrer"&gt;Machine Learning&lt;/a&gt; para construir un modelo predictivo. Luego podemos usar esto para hacer predicciones utilizando nuevos conjuntos de datos con estructuras similares.
&lt;/dd&gt;
&lt;/dl&gt;

&lt;p&gt;Por supuesto, dependiendo de los datos reales, es posible que falten algunos pasos (por ejemplo, cuando ya tenemos los datos en la base de datos o cuando no necesitamos capacitación en modelos), o algunos pasos pueden repetirse varias veces (como el procesamiento de datos).&lt;/p&gt;

&lt;h2&gt;
  
  
  Digitalización y Transformación Digital
&lt;/h2&gt;

&lt;p&gt;En la última década, muchas empresas comenzaron a comprender la importancia de los datos al tomar decisiones comerciales. Para aplicar los principios de la ciencia de datos a la gestión de un negocio, primero se necesitan recopilar algunos datos, es decir, traducir los procesos de negocio a forma digital. Esto se conoce como &lt;strong&gt;digitalización&lt;/strong&gt;.  ALa aplicación de técnicas de ciencia de datos a estos datos para guiar las decisiones puede conducir a aumentos significativos en la productividad (o incluso al pivote empresarial), llamado &lt;strong&gt;transformación digital&lt;/strong&gt;.&lt;/p&gt;

&lt;p&gt;Consideremos un ejemplo. Supongamos que tenemos un curso de ciencia de datos (como este) que impartimos en línea a los estudiantes, y queremos usar la ciencia de datos para mejorarlo. ¿Cómo podemos hacerlo?&lt;/p&gt;

&lt;p&gt;Podemos empezar preguntándonos "¿Qué se puede digitalizar?" La forma más sencilla sería medir el tiempo que tarda cada alumno en completar cada módulo, y medir los conocimientos obtenidos dando una prueba de opción múltiple al final de cada módulo. Al promediar el tiempo de finalización en todos los estudiantes, podemos averiguar qué módulos causan las mayores dificultades para los estudiantes y trabajar para simplificarlos.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;Puede argumentar que este enfoque no es ideal, porque los módulos pueden ser de diferentes longitudes. Probablemente sea más justo dividir el tiempo por la longitud del módulo (en número de caracteres) y comparar esos valores en su lugar.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;p&gt;Cuando comenzamos a analizar los resultados de las pruebas de opción múltiple, podemos tratar de determinar qué conceptos tienen dificultades para entender los estudiantes, y usar esa información para mejorar el contenido. Para hacer eso, necesitamos diseñar pruebas de tal manera que cada pregunta se asigne a un determinado concepto o trozo de conocimiento.&lt;/p&gt;

&lt;p&gt;Si queremos complicarnos aún más, podemos trazar el tiempo empleado para cada módulo en función de la categoría de edad de los estudiantes. Podríamos descubrir que para algunas categorías de edad se necesita un tiempo inapropiadamente largo para completar el módulo, o que los estudiantes abandonan antes de completarlo. Esto puede ayudarnos a proporcionar recomendaciones de edad para el módulo y minimizar la insatisfacción de las personas por las expectativas erróneas.&lt;/p&gt;

&lt;h2&gt;
  
  
  🚀 Challenge
&lt;/h2&gt;

&lt;p&gt;En este desafío, trataremos de encontrar conceptos relevantes para el campo de la Ciencia de Datos mirando textos. Tomaremos un artículo de Wikipedia sobre Ciencia de Datos, descargaremos y procesaremos el texto, y luego construiremos una nube de palabras como esta:&lt;/p&gt;

&lt;p&gt;Visite &lt;a href="https://github.com/achalmed/Data-Science-For-Beginners/blob/main/1-Introduction/01-defining-data-science/notebook.ipynb" rel="noopener noreferrer"&gt;&lt;code&gt;notebook.ipynb&lt;/code&gt;&lt;/a&gt; para leer el código. También puede ejecutar el código y ver cómo realiza todas las transformaciones de datos en tiempo real.&lt;/p&gt;

&lt;blockquote&gt;
&lt;p&gt;Si no sabe cómo ejecutar código en un Jupyter Notebook, eche un vistazo a &lt;a href="https://soshnikov.com/education/how-to-execute-notebooks-from-github/" rel="noopener noreferrer"&gt;este artículo&lt;/a&gt;.&lt;/p&gt;
&lt;/blockquote&gt;

&lt;h2&gt;
  
  
  Assignments
&lt;/h2&gt;

&lt;ul&gt;
&lt;li&gt;
&lt;strong&gt;Tarea 1&lt;/strong&gt;: Modificar el código anterior para descubrir conceptos relacionados con los campos de &lt;strong&gt;Big Data&lt;/strong&gt; y &lt;strong&gt;Machine Learning&lt;/strong&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;strong&gt;Tarea 2&lt;/strong&gt;: &lt;a href="//assignment.md"&gt;Pensar en escenarios de ciencia de datos&lt;/a&gt;
&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;
  
  
  Credits
&lt;/h2&gt;

&lt;p&gt;Esta lección ha sido escrita con ♥️ por &lt;a href="http://soshnikov.com" rel="noopener noreferrer"&gt;Dmitry Soshnikov&lt;/a&gt; y &lt;a href="https://github.com/achalmed" rel="noopener noreferrer"&gt;E Edison Achalma Mendoza&lt;/a&gt;&lt;/p&gt;

</description>
      <category>datascience</category>
      <category>python</category>
      <category>jupyter</category>
    </item>
  </channel>
</rss>
