Mostrando entradas con la etiqueta ciencia de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta ciencia de datos. Mostrar todas las entradas

viernes, octubre 01, 2021

¿Puede un hashtag ayudarme a ser autodidacta? #66daysofdata

Por Talya Aluveaux


En uno de esos días de estar viendo el teléfono sin poder conciliar el sueño, me encontré con un tweet de Isaac Zepeda (@elkeogh), en el que hacía alusión al capítulo del libro que había leído ese día, utilizando la etiqueta #66daysofdata, y como yo últimamente me he obsesionado un poco con las etiquetas (no sé si es la pandemia o la edad avanzada), pues de inmediato intenté averiguar de qué se trataba, aunque era más o menos obvio.


En realidad lo que quería saber era si había una fecha de inicio concreta, o solo había que seguir el ritmo a nivel individual. Descubrí un esfuerzo colectivo en el que distintas personas con distinto nivel de conocimiento, en distintos tiempos, deciden aceptar el reto de aprender sobre ciencia de datos, leyendo al respecto por 66 días.


El tweet de @elkeogh se refería al capítulo 1 del libro "Practical Natural Language Processing. A Comprehensive Guide to Building Real-World NLP Systems", lo cual, lo admito, suena un poco intimidante, pero vamos, se trata de alguien versado en el tema, en su día 42, a quien además hay que felicitar por esa persistencia. Entre paréntesis, a pesar de tener acceso a todos los materiales de O´Reilly, solo me he resuelto a inscribirme a uno, máximo dos, talleres o cursos, por mes, aunque en mi defensa todos han sido precisamente sobre análisis de datos. Entonces pensé -yo y mis grandes ideas-, que adherirme a este hashtag sería una buena manera de aprovechar mejor este repositorio de conocimientos, y de paso observar lo que los demás están leyendo y aprendiendo. Sufriré, lo sé. Todo sea en nombre de la sabiduría.


En fin, decidí investigar si hay una especie de guía o algo más o menos estructurado para ir avanzando poco a poco en esta pequeña aventura, y entonces me encontré con el hilo de Jeremy Ravenel (@ravenel_jeremy), donde explica que se trata de una iniciativa que Ken Jee comenzó durante el 2020. Resulta que no está tan difícil como yo pensaba, la idea es dedicar por lo menos 5 minutos al día al aprendizaje de la ciencia de datos. El objetivo del reto es compartir lo que aprendiste cada día para crear el hábito del aprendizaje y de compartir tu trabajo, aunque la verdad creo que voy a necesitar más de 5 minutos si es que quiero aprender algo.


Pero bueno, hay dos beneficios importantes: 1) Estás creando el hábito de aprender cada día en un campo en el que realmente (REALMENTE) nunca vas a terminar de aprender, y 2) está el factor de la "accountability" o el hecho de que el compartir lo aprendido pone un poco (un poquito nomás) de presión social para que no se nos "olvide".


Comenta Jeremy, y coincido, que lo que le agrada de este reto es el aspecto de comunidad, pero también afirma que se animó a hacerlo al leer las palabras de @KenJee_DS, quien dice que para él, el aprendizaje basado en proyectos es la forma más efectiva de aprender. Y así, él decide aplicarlo a un proyecto personal, en este caso re aprender todo lo que sabe sobre ciencia de datos. A pesar de no tener un background técnico, en algún momento aprendió Jupyter Notebooks y Python, eventualmente fundando NAAS. Entonces, Nada de Netflix para él, pues hoy toca The Art of Learning Data Science.


Su opinión me pareció acertada, y aunque puede ser y de hecho es interesante, por no hablar de útil, observar lo que los miembros de la comunidad están aprendiendo, lo mejor es planear una trayectoria más o menos estructurada con base en un proyecto de interés (¡y/o urgencia!) propio. Que bueno, en mi caso supongo que serían dos, porque definitivament e requiero mejorar mis habilidades de análisis de datos con Python y R, pero también urge aprender sobre ML (Machine Learning), comenzando por el proceso de anotación de los datos y terminando con un montón de cosas que por el momento desconozco, pero sospecho tendré que aprender. En fin, por lo pronto ya estoy inscrita en un curso de matemáticas básicas para ciencia de datos. Estaré reportando desde las trincheras.


Cuéntenme si se deciden a hacerlo, y con qué proyecto, y gracias a @elkeogh por la inspiración.


Tip: Si utilizan la plataforma de O´Reilly, ahórrense un dolor de cabeza sabiendo de antemano que la manera en que aparecen "impresas" las ecuaciones es un desastre y no es que no entiendan o estén mal sus soluciones, es que la manera en que aparecen los distintos símbolos se prestan a toda suerte de confusiones, o al menos así ha sido en el caso de algunos libros que me ha tocado leer. Lo aprendí a la mala.


Antes de irnos:


1. En Discord está el canal #virtual-racing-league, dedicado a todos los interesados a participar en carreras virtuales de autos autónomos. Sólo para nerds, está advertido.


2. ¿Ya se subieron al tren de Xbox Cloud Gaming? Yo todavía no (ni gamer soy), pero al parecer trae de cabeza a más de un uno, ahora que está disponible con Xbox Game Pass. Eso sí, para conectarse debe disponerse de aparatos relativamente nuevos. Nada inferior a un iPhone XR/XS va a funcionar. Todo aquí, y la lista de dispositivos soportados aquí.


Dénle amor a esto: Jane Fonda es una verdadera inspiración en lo que respecta a la participación civil en los problemas relacionados con el cambio climático, entre otros asuntos sociales. En su libro titulado "What can I do?" intenta contestar, precisamente, esta pregunta. ¿Qué podemos hacer para ayudar? Puede leer un extracto o escuchar un fragmento en SoundCloud aquí.

martes, septiembre 28, 2021

¡Hola, Python y R! Ciencia de datos en Sonora

Por Talya Aluveaux


Nunca, como ahora, ha habido tantos datos disponibles. Y por tanto nunca como ahora había sido de tal importancia el análisis de los mismos. La avalancha es incesante, y como han dicho repetidamente, el problema ya no es obtenerlos, porque tenemos abundancia. El problema es procesarlos, y que tengan sentido. El problema es convertir todo ese montón de datos que tenemos en algo útil. Aquí es donde se abre el telón para el científico de datos, o la ciencia de datos, una disciplina que ha cobrado popularidad recientemente, aunque en realidad el análisis de datos siempre ha estado ahí. Bueno, no siempre. Ustedes entienden.


Curiosamente, la ciencia de datos como disciplina académica o carrera profesional no era algo que se viera en los listados de oferta de licenciaturas y/o ingenierías en las universidades e institutos tecnológicos del estado. Al menos no en mi radar. Hace unos pocos años, sin embargo, surgió en la Universidad de Sonora la inquietud y posteriormente la voluntad, organización y trabajo para la creación de la Maestría en Ciencia de Datos -de corte profesionalizante-, la cual hasta donde tengo entendido es parte de los postgrados de calidad avalados por Conacyt (lo que significa que los estudiantes pueden dedicarse al trabajo académico de tiempo completo gracias a una beca de manutención).


No tengo detalles sobre cómo sucedieron las cosas, pero a pesar de no conocer los entretelones, lo que sí he podido observar son algunos de sus frutos, o bueno, al menos de uno, en este caso, la labor de difusión de uno de sus estudiantes.


Creo que el caso de Luis Moreno es ilustrativo. Valiéndose de las plataformas de redes sociales (Facebook, Twitter), lleva ya un buen tiempo dando seguimiento y documentando datos y más datos generados acerca de COVID-19, aprendiendo (¡y compartiendo conocimiento!-sobre la marcha. Aunque no es el único en hacerlo, en general su disciplina y consistencia han servido a lo largo de esta pandemia como una fuente de información, a la par de la publicada por la Secretaría de Salud, los avisos apocalípticos de última hora del Dr. Claussen, las telenovelas de la tarde de mediados del 2020 desde la ciudad de México, y otras instancias. Desde la página de la MCD en sí se ha hecho una importante labor de difusión en términos de datos acerca de la pandemia desde un dashboard que se ha mantenido actualizado de manera más o menos consistente desde el inicio de esta pesadilla.


Quiero enfocarme en el hecho de que, a diferencia del tema que discutíamos ayer, la creación de una maestría de este tipo es un ejemplo singular de -llamémosle un nodo-, un nodo o una entidad, si quieren, diseminador de conocimiento. Si queremos ubicarnos dentro de la triple hélice, está obviamente en la hélice clasificada como instituciones de educación, y se va a tratar, en mi opinión, de un fuerte polo de atracción para jóvenes promesas de la ciencia de datos en la región. 


Una característica muy especial del conocimiento es que, a diferencia de otros recursos como el agua o el petróleo, el compartirlo propicia o potencia su crecimiento exponencial en lugar de su agotamiento. ¿Y esto cómo funciona? Todos lo sabemos. Una unidad de conocimiento viaja de una mente a otra, y esta encuentra eco o no, es a su vez compartida o no, se expande o no, se enriquece o no, viaja lejos o se queda cerca. Pero no se agota. Elinor Ostrom, ganadora del premio Nobel de economía, escribió junto con Charlotte Hess un libro al respecto.


Entonces, ¿qué podemos esperar de la existencia de una maestría en ciencia de datos en la universidad local más importante en términos de alumnado, infraestructura, presupuesto e investigadores? Solamente cosas buenas. La ciencia de datos es un término sombrilla para un sinfín de disciplinas, conocimientos y aprendizajes, y se trata en términos generales de una cuestión transversal, es decir, aplicable a casi todo. Excelente para investigación transdiciplinaria, tan necesaria como escasa.


Sobra decir que habrá que estar pendientes de los resultados de las primeras generaciones, sus tesis y proyectos, y también -sobra decir- así como no se puede dejar todo al libre mercado, tampoco debería dejarse toda esta diseminación de conocimiento, esta fertilización cruzada, al azar. Su circulación puede propiciarse activando mecanismos de intermediación entre los distintos agentes identificados como de interés e incluso frente a la sociedad, como lo hace de manera espontánea Luis. 


Dénle amor a esto: Ya están disponibles en Apple TV+ los primeros tres episodios de la saga Fundación, basada en las novelas del escritor de ciencia ficción Isaac Asimov. Imperdibles. Aquí el trailer

La bio de Miguel; lo prometido es deuda

Por Talya Aluveaux @talya Miguel de Icaza nació en 1972. Es un programador, mejor conocido por iniciar los proyectos GNOME, Mono y Xamarin. ...