¿Cómo puedo convertirme en un científico de datos? Hablando en términos muy generales (porque depende de la realidad y habilidades de cada uno), la respuesta es fácil y compleja al mismo tiempo.
Fácil, porque hay una inmensidad de recursos disponibles en la web (tanto gratuitos como de pago), en una era en que el conocimiento está a un par de clics, además de herramientas de asistencia que permiten una experiencia más amena al momento de escribir código (algunas basadas en las famosas Inteligencias Artificiales, otras no).
Complejo, porque mucha información puede llegar a ser un sinónimo de no tenerla (https://hir.harvard.edu/too-much-information/) ¿Cómo inicio mi camino? ¿Qué debo aprender? ¿En qué recursos en línea puedo confiar? Las combinaciones son prácticamente infinitas y en esta era de la sobre-información y de fake news, es muy fácil “aprender mal”, más aún si se toma el camino de ser autodidacta (que en el fondo, es el camino que en gran parte tomamos). Y es un camino que se abre y se diferencia en una creciente cantidad de roles, que normalmente caen bajo el nombre de Científico de Datos, pero que fuera del rol propiamente como tal, existen también otros que necesitan diferentes habilidades y conocimientos: Data Engineer, Data Analyst, ML Engineer, ML Researcher, Software Engineer, Data Visualization Engineer… y la lista continúa creciendo.
En cuanto a los datos, aquellos de juguete con los que uno aprende (iris, mtcars, titanic, entre tantos otros) están lejos de la realidad con la que normalmente nos encontramos. Lejos en complejidad y lejos, muy lejos, en estructura. Hay varias cifras al respecto dando vueltas, pero más o menos todas concuerdan en que uno invierte cerca del 80% del tiempo en limpieza de datos (el lado no glamoroso de la Ciencia de Datos). ¿Dónde podemos encontrar datos confiables? ¿Son datos de calidad? Y es un tema demasiado importante, porque si los datos de entrada son malos/incorrectos, no importa qué tan sofisticado sea el modelo que los procese, pues con casi total certeza el resultado será malo. Los sensores evolucionan (capturando mayor y mejor información) y disminuyendo sus costos, al tiempo que la conectividad también mejora (en rapidez, latencia y cobertura), lo que permite que cada vez existan más fuentes de datos (de manera pública y/o privada). El crecimiento es ciertamente exponencial y supone varios desafíos, entre otros: ¿cómo escojo los apropiados para responder mi pregunta? ¿cómo los hago conversar con otras bases de datos de interés? ¿con qué formato/estructura los recibo y cuál es la más apropiada para mi análisis? ¿cómo puedo revisar la calidad de los mismos? Si mis datos no son de tan buena calidad ¿puedo contar con un algoritmo que me ayude a corregir/depurar/imputar?
Y conforme aumenta la cantidad de datos, la capacidad de cómputo también va creciendo y el uso de la nube cada vez se hace más necesario cuando se quiere ingestar datos o ejecutar y/o entrenar ese modelo que necesita un poder de procesamiento y/o memoria (y GPU) superiores a lo que los computadores de escritorio más convencionales pueden proveer, a veces, por un lapso acotado de tiempo (desde minutos hasta días). Y si también agregamos a la mezcla la necesidad de poder tratar datos en tiempo real, clave en determinadas industrias a la hora de tomar decisiones a tiempo y certeras, terminamos con un conjunto de necesidades y requerimientos que sólo irán creciendo en el tiempo. Si bien puede resultar un poco abrumador, lo importante es no perder de vista estas variables al momento de querer implementar alguna solución, sobre todo si tenemos pensando que crezca o escale en un futuro cercano.
Por cierto, el aumento de la conectividad y de las fuentes de datos, abre un tema muy importante: privacidad y ética. Porque nosotros somos parte de este ecosistema en que generamos y enviamos datos de diferentes maneras, cada vez que interactuamos con alguna máquina o sistema en línea. Y la lista es gigante: desde el uso de nuestro computador, celular o reloj inteligente, las compras en línea, los sitios web que revisamos, nuestra ficha médica, cuando usamos nuestra clave única, etc. En cada uno de ellos, existe un equipo de personas de otro lado que los utilizan con diferentes fines, por lo cual es vital garantizar que dichos datos sean utilizados de manera responsable y estén resguardados con altos estándares de seguridad. Un buen ejemplo de estas prácticas se pueden encontrar en el Reglamento General de Protección de Datos (https://commission.europa.eu/law/law-topic/data-protection/data-protection-eu_es), uno de los más completos y estrictos.
Por otro lado, siempre surge la pregunta acerca de qué lenguaje aprender: ¿Python o R (o Julia)? ¿SQL? ¿Matlab? ¿Javascript/Typescript para algunas aplicaciones web? ¿Scala? Si bien las opciones más típicas, según varios estudios en este campo, recaen en Python y R (por ejemplo: https://survey.stackoverflow.co/2023/#technology), la verdad es que la respuesta es muy variable y dependiente del perfil de las tareas que cada uno desarrolle o quiera desarrollar. Ciertamente Python ofrece la mayor versatilidad (fue creado teniendo en cuenta ser multipropósito), además de que la gran mayoría de las herramientas de Inteligencia Artificial (IA) están disponibles en este lenguaje, pero más importante que el lenguaje de programación, es fundamental entender bien los conceptos que subyacen, los que están principalmente relacionados con las matemáticas. Porque cuando estás revisando, por ejemplo, el cómo vectorizar cierto proceso para que se ejecute de manera más rápida y eficiente, vaya que son útiles esas clases de álgebra lineal. Y ese problema lo tendrás en cualquier lenguaje de programación que elijas.
La IA llegó para quedarse, y si bien hoy en día están de moda las de tipo Large Language Model (LLM) como ChatGPT o Convolutional Neural Networks (CNN) en el caso de clasificación de imágenes, existen muchas variantes y están presentes en nuestras vidas desde hace bastante tiempo: desde el carrito de compras con sugerencias, hasta los vehículos autónomos (como autos y los mal llamados “drones”). Y ciertamente la industria seguirá adoptando estas tecnologías tal como ya lo ha estado haciendo. La diferencia estará en entender en qué parte de la cadena queremos estar para contribuir con un desarrollo adecuado y sostenible de la tecnología.
En resumen, el camino de ser Científico de datos o “Data scientist”, implica que sí o sí se deben considerar aspectos como la rigurosidad, ética, innovación y constante formación. Con esto, aseguramos que los aportes que tiene esta disciplina sean útiles y concordantes con los desafíos de nuestras sociedades actuales.
Una columna de opinión de Álvaro Paredes, data scientist de Data Observatory.
Data Observatory es una institución público-privada-académica, cuya misión es la adquisición, el análisis, el procesamiento y la disponibilización de grandes bases de datos complejas para promover el desarrollo de un país sostenible basado en la ciencia de datos. Actualmente es financiada por la Agencia Nacional de Investigación y Desarrollo (ANID).
Grupo DiarioSur, una plataforma informativa de Global Channel SPA.
Powered by Global Channel
163870