Google PlaNet: νευρωνικό δίκτυο διαβάζει πού λάβαμε τις φωτογραφίες μας

0
156

Τη γεωγραφική περιοχή όπου λάβαμε τις φωτογραφίες που αναρτήσαμε στο διαδίκτυο μπορεί να «διαβάζει» μια νέα εφαρμογή της Google με την ονομασία PlaNet.

Η εφαρμογή, που δεν έχει ακόμα κυκλοφορήσει προς χρήση, βασίζεται σε ένα λογισμικό «βαθιάς μάθησης» (deep learning) που επιτυγχάνει τον γεωεντοπισμό μιας φωτογραφίας αξιοποιώντας αποκλειστικά τις πληροφορίες που περιέχουν τα εικονοστιχεία (πίξελ) που την αποτελούν.

Εκ πρώτης όψεως φαντάζει δύσκολο έως αδύνατο να καταλάβει κανείς που τραβήχτηκε μια φωτογραφία, χωρίς να έχει άλλες πληροφορίες πέρα από την ίδια την εικόνα.

Οι ενδείξεις, όπως ο καιρός, τα φυτά, διάφορα αντικείμενα κ.α. που φαίνονται στη φωτογραφία, βοηθάνε καμιά φορά για να βγει κάποιο συμπέρασμα σε σχέση με το μέρος – άλλες φορές με επιτυχία και άλλες όχι. Υπάρχουν και σχετικοί διαδικτυακοί τόποι όπως το GeoGuessr και το View from your Window, όπου οι χρήστες δοκιμάζουν τις ικανότητές τους.

Οι ερευνητές ακολούθησαν μια τελείως διαφορετική μέθοδο «υπολογιστικής όρασης»: τοποθέτησαν ένα πλέγμα πάνω σε ένα ψηφιακό κόσμο, διαχωρίζοντας έτσι την επιφάνεια του πλανήτη σε χιλιάδες τετραγωνάκια διαφορετικών μεγεθών, ανάλογα με το πόσες φωτογραφίες τραβιούνται στην πραγματικότητα (π.χ. σε μια πόλη όπως η Νέα Υόρκη τραβιούνται πολύ περισσότερες φωτογραφίες από ό,τι σε μια έρημο, άρα το τετραγωνάκι της μεγαλούπολης είναι μεγαλύτερο).

Στη συνέχεια, τροφοδότησαν το λογισμικό τους με εκατομμύρια αποθηκευμένες φωτογραφίες, που συνοδεύονταν από πληροφορίες γεωεντοπισμού. Ακολούθως, το πρόγραμμα, που διαθέτει «νευρωνική νοημοσύνη», δημιούργησε συσχετίσεις και αντιστοιχίες ανάμεσα στα πίξελ των εικόνων και στις περιοχές όπου τραβήχτηκαν οι φωτογραφίες.

Ο κώδικας ψάχνει για οπτικές συσχετίσεις όπως αρχιτεκτονικά ύφη, γλώσσες και φυτική ζωή και τα αντιπαραβάλλει σε μια βάση δεδομένων 126 εκατομμυρίων «γεωταγκαρισμένων» φωτογραφιών κατανεμημένων σε 26.000 δίκτυα.

Τελικά, η εφαρμογή υποβλήθηκε σε δοκιμές με 2,3 εκατομμύρια φωτογραφίες από το Flickr. Όπως διαπιστώθηκε, κατάφερε να «πέσει μέσα» σε ποσοστό 48% όσον αφορά την ήπειρο που τραβήχτηκε μια φωτογραφία, 28,4% όσον αφορά τη συγκεκριμένη χώρα, 10,1% για την πόλη όπου έγινε η λήψη της φωτογραφίας και 3,6% για τον συγκεκριμένο δρόμο της πόλης.

Ίσως τα ποσοστά αυτά να μην φαίνονται εντυπωσιακά, αλλά ένας άνθρωπος δεν είναι τόσο αποτελεσματικός στον γεωεντοπισμό μιας φωτογραφίας, όπως απέδειξε ένα πείραμα με τη συμμετοχή δέκα εθελοντών.

Επόμενο βήμα για τη βελτίωση της εφαρμογής θα είναι η ενσωμάτωση της ικανότητας να αναγνωρίζει αντικείμενα και άλλα γνωρίσματα (χρώμα δέρματος ανθρώπων, αρχιτεκτονική κτιρίων, είδος δέντρων, πινακίδες οδικής κυκλοφορίας κ.α.) και να τα συσχετίζει με συγκεκριμένες τοποθεσίες.

Σχόλια