OggS vbC ZOpusHead8 OggS vbC ƈ1OpusTags Lavf56.4.101 language=deu handler_name=SoundHandler encoder=Lavc56.1.100 libopus major_brand=isom minor_version=512" compatible_brands=isomiso2avc1mp41 author=Florian Liß genre=lecture title=WebcrawlerR copyright=Licensed to the public under http://creativecommons.org/licenses/by/4.0/ album=FrOSCon 2015 description=
Die Informationsvielfalt im Internet ist nahezu grenzenlos: fast alles ist tagesaktuell und ständig verfügbar. Leider gibt es nur für einen kleinen Teil dieser Daten öffentlich verfügbare APIs. Ein Webcrawler kann diese Lücke schießen. Er liest öffentlich verfügbare Informationen, verarbeitet sie und wandelt sie in ein maschinenlesbares Format um. Damit werden viele praxisnahe Softwareanwendungen erst möglich.
Dieser Vortrag richtet sich an alle, die sich für den Aufbau und Funktionsweise eines solchen Webcrawler interessieren.
Die Basis-Funktionen eines Webcrawler sind schnell erklärt und einfach implementiert: Man lädt den Inhalt einer Seite, extrahiert die benötigten Daten und verwendet sie nach Belieben. Aber es gibt noch einige Details, auf die man Rücksicht nehmen sollte. Ein schlecht gebauter Bot verärgert schnell die Server-Administratoren und man wird als böswilliger Angreifer beschimpft.
Der Vortrag geht auf wichtige Details beim Bau eines Webcrawler ein und zeigt Herangehenweisen, um mit der riesigen Datenflut fertig zu werden, die, wenn man es eben richtig macht, aus dem Netz frei extrahiert werden kann.
Robots.txt, Parallelisierung, cURL, HTML-Parser, Regular-Expression, PhantomJS… sind nur ein paar Schlüsselwörter auf die der Vortrag eingeht. Aber vor allem können die Zuhörer von den großen Erfahrungen eines lokalen Unternehmens profitieren, welches es zum Marktführer in ganz Deutschland geschafft hat.
Der Vortrag enthält einige Live-Demonstrationen, in denen gezeigt wird, wie leicht das Internet als freie Informationsquelle genutzt werden kann und das man nicht immer auf kostenpflichtige APIs angewiesen ist, um Daten strukturiert zu erhalten. Meistens besteht nicht einmal die Möglichkeit, Daten in einem maschinenlesbarem Format abzurufen. In diesen Fällen schließt ein Webcrawler die Lücke
Kurz gesagt: Dieser Vortrag richtet sich an diejenigen Zuhörer, die sich für eine sichere, effiziente und vorallem freie Möglichkeit interessieren, das Internet als Datenbasis zu nutzen.
The crawling is strong in you
artist=Florian LißOggS vbC yG2rsvutrnponnnnnpofjkhijihigfihimili{0GIKu@d2Tq.pQ l]*-CI#jmFbCq-Cr'y.x/TB5K2o| @ѫ=fp}K&ղsn[wqcT JȺVoCq}*? :{rWEB/3v ]){bR2B<(B?IXD v=7sQ'!XHA)f7,eL$Ss(%xZ9}cүb> 1@Xqc#gTC>]5vV>938##hoWw+oY7^0R@v@}DMv4nc $y~Kg%U>L1Q#FHWsYn[nnƕaj'?:?$}%wU3(%$&SP.` ƎNU3q7ʓ%=cH2_ /%FO8צɆxrQ7@?>\Wܤ7+fm=`fseAx"J Lˣ+zqI)?`>x`U*ܜGC;l,>oiL/V~-Ⱥ S0m梦d"EHаXQ@L,Í$