Wie funktioniert die Text-, Sprach- oder Bilderkennung in der Praxis?

Wie funktioniert die Text-, Sprach- oder Bilderkennung in der Praxis?

Hinter Anwendungen zur Text-, Sprach- oder Bilderkennung stecken häufig Künstliche Neuronale Netzwerke (KNN) oder Deep Learning. KNN eignen sich besonders für das Thema Text Mining bzw. Sentiment Analysis. Deep Learning wird in Bereichen Bild- und Spracherkennung, bzw. der Objektklassifizierung eingesetzt.

In kommerziellen Google-Produkten wie der Spracherkennung Googles Assistant, Gmail, Google Fotos und Google Suche wird dafür das open source ML Framework TensorFlow verwendet. Es findet aber auch in zahlreichen anderen Produkten Einsatz, zum Beispiel in Apples Siri oder Amazons Alexa. Im Bereich der Bilderkennung kommen KNN auch für das autonome Fahren zum Einsatz.

Seit Oktober 2019 gibt es die Version 2.0 von TensorFlow. In der Version 2.0 wird der Modellbau einfacher und vor allem die Performance ist deutlich gesteigert. TensorFlow macht es Anfängern und Experten leicht, maschinelle Lernmodelle für Desktop, Mobile, Web und Cloud zu erstellen. Die benutzerfreundlichen APIs von TensorFlow basieren auf dem Keras API-Standard zur Definition und zum Training neuronaler Netzwerke.

© google.com

Eine Besonderheit von TensorFlow ist die Möglichkeit, vortrainierte Modelle in einem Web Browser auszuführen. Die vom Anwender dort eingegebenen Daten sind auch offline verfügbar (bei sehr langsamer Internetgeschwindigkeit) bzw. müssen den Browser zur Verarbeitung nicht verlassen. Anwender können Bilder kontrollieren die den Rechner nicht verlassen oder vertrauliche Daten wie Ausweise können so überprüft werden. Somit ist der Schutz sensibler Kamera- oder Mikrofondaten gewährleistet und das Modell kann bei Bedarf lokal im Browser trainiert werden. Es werden keine Cookies oder andere Trackings nötig, was aus Sicht des Datenschutzes ein großer Vorteil ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.