¿Cuál es el mejor sistema operativo para la ciencia de datos?
Esta es una pregunta que se cae de madura, cuando estaba en el primer ciclo de la Maestría en Inteligencia Artificial surgió la pregunta, esto debidoa que en algunos de los cursos que llevábamos tuvimos que trabajar con Linux, y los compañeros que no sabían de sistemas operativos tuvieron problemas para desarrollar los trabajos, ahora biein debemos diferenciar las necesidades existentes en un entorno académico a un entorno laboral y tambien las condiciones de los mismos, es real que existe gente que debe trabajar con clusters y de hecho que va a necesitar saber linux, otros que utilizan herramientas propias del cloud que emplea la empresa y poco o nada debe saber del sistema operativo donde trabaja, entonces la pregunta tiene mas de una respuesta, sin embargo es cierto que al igual que ahora sugieren que conozcas mas de un entorno cloud y de bases de datos relacionales y no relacionales, es lo mas seguro que para afrontar los retos que surgen en la ciencia de datos tambien se debe saber de Linux aunque tu mayor preferencia este por el entorno de Windows.
Razones para utilizar linux
Joao Gross propone 5 razones por las cuales utilizar Linux para la ciencia de datos.
- Velocidad: Actualmente, la mayoría de las supercomputadoras más rápidas del mundo operan con Linux, representando aproximadamente el 90% del total, mientras que solo el 1% utiliza Windows. Una de las principales razones de esta preferencia es el sólido soporte de hardware que ofrece Linux. Por ejemplo, para ejecutar contenedores Docker en NVIDIA Dockers (GPU NVIDIA), es indispensable contar con un host Linux, ya que Microsoft Windows no proporciona compatibilidad para esta tecnología. En el campo de la ciencia de datos, donde se manejan grandes volúmenes de información, contar con un sistema operativo que optimice el uso del hardware es fundamental para garantizar un procesamiento eficiente. El tiempo es un enemigo constante para el científico de datos, cada vez nos piden mas en menos tiempo y Linux ha demostrado siempre sacar lo mejor del hardware con el que se cuente.
- Software libre: Linux es un sistema operativo gratuito y de código abierto, lo que brinda una doble ventaja. Muchas personas en la comunidad tecnológica son partidarias del software de código abierto, lo que ha impulsado el desarrollo de una gran variedad de herramientas y aplicaciones disponibles sin costo, adaptadas a diferentes necesidades. Además, los científicos de datos pueden desarrollar y colaborar en diversos proyectos, compartiéndolos con la comunidad. Gracias a esta apertura y colaboración, Linux ofrece un soporte superior para herramientas como Jupyter Notebook e IPython.
- Flexibilidad: Linux es compatible con una amplia variedad de dispositivos. Prácticamente existe una versión disponible para cada tipo de equipo, como Ubuntu para computadoras de escritorio y portátiles, y Android para tabletas y teléfonos inteligentes, algo que no ocurre con Microsoft Windows. Además, Raspberry Pi cuenta con su propia distribución optimizada, llamada Raspbian, diseñada específicamente para su arquitectura ARM. Otra ventaja de Linux es su bajo consumo de recursos, lo que permite su uso en computadoras más antiguas o con hardware limitado, ya que no requiere grandes cantidades de memoria RAM ni almacenamiento en disco para funcionar adecuadamente. Definitivamente es un punto a tener en cuenta por que actualmente las fuentes de datos son cada vez mas variadas y por tanto contar con sistema que es tan flexible para funcionar en distintos dispositivos se vuelve necesario para recolectar los datos.
- Presentaciones y hojas de trabajo: En este punto Gross y yo compartimos la misma opinión, Excel como hoja de cálculo cuenta con una serie de opciones que le dan una potencia que otras hojas no han alcanzado por lo que es muy probable que se necesite utilizarlo, sea como propone Gross mediante su instalación en una maquina virtual o simplemente utilizar otro equipo para las tareas que requieran el uso de herramientas propias de Windows.
- Demanda de trabajo y terminal Linux: Gracias a su facilidad de uso en proyectos de programación, Linux es ampliamente preferido por científicos de datos e ingenieros de software. Además, ofrece un rendimiento superior y cuenta con una terminal eficiente que facilita la búsqueda de archivos, la manipulación de datos y la creación de visualizaciones.
Conclusiones
Quienes deseen dedicarse a la ciencia de datos deben tener en consideración la necesidad de conocer Linux como sistema operativo para el uso de herramientas necesarias para el día a día.
Referencias bibliográficas
Gross, J. (s. f.). ¿Cuál es el mejor sistema operativo para la ciencia de datos? LinkedIn. Recuperado 30 de enero de 2025, de https://www.linkedin.com/pulse/which-best-operating-system-data-science-jo%C3%A3o-gross/
.