#15 Praktisches Machine Learning mit Python

In Folge 15 sind Jochen und Dominik vom Python Podcast zu Gast um uns dem maschinellen Lernen zu widmen. Gemeinsam besprechen wir ganz konkret die notwendigen Schritte, um Nachrichtentexte automatisch Tags zuzuordnen. Einerseits diskutieren wir über das richtige Tooling im Python-Umfeld, etwa Jupyter Notebooks, PyData Tools wie numpy und pandas sowie unsere bevorzugten Plotting Bibliotheken. Nach einer ersten Datenanalyse besprechen wir den Umgang mit Null-Werten und wie man mit TF-IDF oder Word-Embeddings den Text vektorisiert. Wir diskutieren verschiedene Algorithmen aus der Scikit-Learn Bibliothek und erklären Pipelines und Hyper-Parameter Tuning. Abschließend überprüfen wir die Güte unserer Modelle anhand eines Klassifikations-Reports und streifen Themen Skalierung, Deep Learning und vieles mehr. [Reuters Dataset](https://martin-thoma.com/nlp-reuters/) [Pandas Profiling](https://github.com/pandas-profiling/pandas-profiling) [Pathlib](https://docs.python.org/3/library/pathlib.html) [Modin](https://github.com/modin-project/modin) [Pandarallel](https://github.com/nalepae/pandarallel) [Dask](https://dask.org/) [Sklearn Pipelines](https://www.kaggle.com/baghern/a-deep-dive-into-sklearn-pipelines) [Management von Machine Learning Modellen](https://www.inovex.de/blog/machine-learning-model-management/) [kaggle](https://www.kaggle.com/)

Om Podcasten