Big Data Acquisition and Preprocessing

Language: German, Chinese

Am Ende des Moduls werden Sie mit der Funktionsweise des Internetprotokoll HTTP sowie mit den verfügbaren HTTP-Methoden vertraut sein. Darüber hinaus werden Sie wissen, was es mit einem Status-Code auf sich hat und was die verschiedenen Statuscodes-Klassen aussagen. Außerdem werden Sie mit den Möglichkeiten vertraut sein, die Python bietet, um auf das Web zuzugreifen. Sie werden die wichtigste Funktion des Moduls urllib kennen sowie weitere Methoden. Auch die Python-Bibliothek request mit deren Möglichkeiten wird Ihnen ein Begriff sein. Darüber hinaus werden Sie wissen, was man unter Crawling bzw. Scraping versteht und welche Technologien davor schützen können. Dazu lernen Sie die einzelnen Technologien und deren Funktionsweisen kennen.

Im Rahmen dessen werden Sie ebenfalls mit der User-Agent-Technologie vertraut gemacht. Sie werden über ihren Aufbau sowie über die Pooltechnologie in Python informiert sein.

Außerdem verfügen Sie am Ende des Moduls über grundlegendes Wissen zu regulären Ausdrücken und kennen die einzelnen Zeichen und deren Funktionen. Zusätzlich wissen Sie, wie die Auswertung in Python funktioniert und kennen die entsprechenden Funktionen des Moduls re. Auch die Auswertung in Java wird Ihnen bekannt sein.

Nach einer Auffrischung der Grundlagen von XML & HTML werden Sie auch die Grundlagen von XPath verinnerlicht haben und dessen 13 Achsen kennen. Letztlich werden Sie wissen, was man unter PacketCapturing versteht und verstehen, wie das Programm tcdump funktioniert.