Científico de datos: Una profesión cada vez más demandada
by Cátedra SAS
Data Scientists
La fiebre de los datos ha hecho que empecemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si es una moda pasajera o los científicos de datos han venido para quedarse. Repasamos qué es exactamente eso de la data science, sus oportunidades laborales y las posibilidades que existen para formarse.
¿Qué es un cientifico de datos?
Desde hace unos años, esta profesión está de moda gracias, en parte, al auge mundo del las Startups. Pero la ciencia de datos va mucho más allá y está convirtiéndose en una de las profesiones más prometedoras de hoy en día, en todos los niveles industriales.
En un sentido práctico, Los científicos de datos son una nueva estirpe de expertos en datos analíticos que poseen habilidades técnicas para resolver problemas complejos – y la curiosidad de explorar qué problemas necesitan resolverse. Son parte matemáticos, parte científicos en computación y parte observadores de tendencias, por tanto sus aptitudes se anclan dentro de varios campos laborales.
Otra forma de verlo es la del cientifico de data Josh Wills. Wills usa otra definición que resulta acertada y bastante esclarecedora:
“Científico de datos (n): Persona que sabe más de estadística que cualquier programados y que a la vez sabe más de programación que cualquier estadístico“.
De tal manera que podemos pensar en un científico de datos como un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet o digital hoy en día.
¿Más que una moda?
la tecnología actual no solo necesita del mejor talento sino de datos, mucho datos. Muchos. Es decir, que la moda por lo abierto y el giro hacia los datos no es más que la enésima máscara del mismo espíritu corporativo de siempre buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.
Lo curioso es que este gran valor de los datos contrasta con que precisamente los datos son el recurso más abundante del planeta (se calcula que se crean 2.5 trillones de bytes de información nuevos al día). No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es, lo complejo es procesarlos.
Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma, nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos ante la primera gran ‘democratización’ de estas técnicas. Y, con ello, el boom de los científicos de datos: nadie quiere tener una mina de oro sin aprovechar.
Mucha demanda, poca oferta
El problema es que, de repente, ha surgido una gran demanda de un perfil que hasta ahora prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.
La mayor parte de las veces se ha solucionado con formación autodidacta que completa las habilidades básicas que debería tener programa formativo pero no tiene. Por eso, hoy por hoy, podemos encontrar una gran diversidad de perfiles profesionales en el mundo de la ciencia de datos. Según Burtch Works, el 32% de los científicos de datos en activo vienen del mundo de las matemáticas y la estadística, el 19% de la ingeniería informática y el 16% de otras ingenierías.
Convirtiendose en un científico de datos:
Pre-Grados y Posgrados
A día de hoy, existen programas de formación profesional en ingeniería informática y matemáticas o en informática y estadística) que se presentan como una excelente opción si nos planteamos esta especialización. De hecho, esta opción parece más interesante que los posibles ‘grados en ciencia de datos’ que pudieran surgir en el futuro: las posibilidades son más amplias, la formación más diversa y permite no encasillarnos.
No debemos olvidar que la mayor parte del trabajo de los científicos de datos está en empresas que buscan rentabilizar sus bases de datos, porque lo que la orientación al mercado es algo muy recomendable. De hecho, muchos de los másteres en ‘big data’ lo ofrencen planes de formación de negocios enfocados en administración y empresas.
MOOCS y cursos virtuales
Uno de los recursos más interesantes que podréis encontrar son los moocs (cursos abiertos masivos online). Esta opción autoformativa podía tener mucho futuro, tanto por su oferta como por sus precios y facilidad de aprendizaje. Encontramos servicios de alta calidad que nos ofrecen programas de formación en ciencia y analisis de datos, por ejemplo el programa de especialización en big data de Coursera, O los cursos de las escuels de capacitación de la IBM. Aquí podemos encontrar cursos online de las mejores universidades del mundo, complementando todo esto con las numerosas herramientas para aprender lenguajes como Python o R.
Certificados y otras opciones
También existen una serie de certificados o acreditaciones que permiten avalar formalmente nuestros conocimientos en ciencia de datos: el Certified Analytics Professional (CAP), Cloudera Certified Professional: Data Scientist (CCP:DS), EMC: Data Science Associate (EMCDSA) o certificados más específicos como los de SAS. Algunos de estos certificados tienen unos requisitos muy duros pero son una buena alternativa si ha estado trabajando en este campo con anterioridad¿.
¿Programación? Un requisito impresindible
En programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales.Lo que sí está claro es que hay algunos lenguajes más populares que otros.
Existen tambien unos lenguajes de programación que se consideran insustitubles; son un requisito vital para poder entrar en el mundo de la ciencia de datos, entre ellos encontramos:
- SQL: El 68% de los científicos de datos usan SQL y si incluyéramos a todas las bases de datos, completaríamos casi el 100 por 100 de los encuestados. Es algo necesario no sólo por la inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa un científico de datos profesional provienen de internet.
- R: En torno a un 52% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es más antigua, compleja y fea que otros lenguajes más modernos que empujan fuertes. Es el lenguaje de los que se acercan desde un background científico.
- Python: El 51% por ciento de los dateros usan Python de forma habitual. Es la némesis de R en este caso: tiene una sintaxis muy buena y moderna pero aún queda mucho por trabajo por hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es más competitivo y iniciativas como SciPy están poniéndole las cosas muy difíciles a R. Es el lenguaje de los que se acercan desde un background informático.
- Julia: Un lenguaje diseñado para conservar la potencia de lenguajes como fortran o C combinado con las facilidad de sintaxis de los nuevos lenguajes. Si tuviera que apostar, a día de hoy, no lo haría por Julia. Le queda mucho trabajo si quiere ser algo más que el refugio de los fortraneros más abiertos al cambio.
- Excel y PowerQuery: No es un lenguaje pero es bastante popular como herramienta de analisís de grandes cantidades de información. Actualmente según encuentas un 59% por ciento de los encuestados usan habitualmente excel.
El mundo de la ciencia de datos es un negocio trillonario, sin embargo en los años venideros seguirá creciendo de manera abrumadora y el único problema que presenta actualmente para impulsarse aún más es la clara escasez de profesionales. Este fenómeno hace que los sueldos sen profundamente fructiferos, conforme vayan apareciendo más perfiles dateros, se va a ir ajustando dicha brecha.
Por eso, se puede decir que ahora es el momento para introducirse en el mundo de la ciencia de los datos, pues dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro lugar.
Artículo Original: https://www.xataka.com