Combining Global and Local Attention with Positional Encoding for Video Summarization

Περίληψη

Αυτή η εργασία παρουσιάζει μια νέα μέθοδο για την εποπτευόμενη δημιουργία περιλήψεων βίντεο. Για να ξεπεραστούν τα μειονεκτήματα υφιστάμενων αρχιτεκτονικών δημιουργίας περιλήψεων που βασίζονται σε RNNs, σχετικά με τη μοντελοποίηση των εξαρτήσεων μεγάλης εμβέλειας των καρέ και την ικανότητα παραλληλοποίησης της εκπαίδευσης, το αναπτυγμένο μοντέλο βασίζεται στη χρήση μηχανισμών αυτοπροσοχής για την εκτίμηση της σημασίας των καρέ του βίντεο. Σε αντίθεση με προηγούμενες προσεγγίσεις δημιουργίας περιλήψεων που βασίζονται στην αυτοπροσοχή για να μοντελοποιούν τις εξαρτήσεις των καρέ παρατηρώντας ολόκληρη την αλληλουχία καρέ, η μέθοδός μας συνδυάζει καθολικούς και τοπικούς μηχανισμούς αυτοπροσοχής πολλαπλών κεφαλών για να ανακαλύψει διαφορετικές μοντελοποιήσεις των εξαρτήσεων των καρέ σε διαφορετικά επίπεδα λεπτομέρειας. Επιπλέον, οι χρησιμοποιούμενοι μηχανισμοί αυτοπροσοχής ενσωματώνουν ένα δομικό στοιχείο που κωδικοποιεί τη χρονική θέση των καρέ - μείζονος σημασίας κατά την παραγωγή μιας σύνοψης. Πειράματα σε δύο σύνολα δεδομένων (SumMe και TVSum) καταδεικνύουν την αποτελεσματικότητα του προτεινόμενου μοντέλου σε σύγκριση με τις υπάρχουσες μεθόδους αυτοπροσοχής και την ανταγωνιστικότητά του έναντι άλλων state-of-the-art εποπτευόμενων προσεγγίσεων δημιουργίας περιλήψεων. Μια μελέτη αφαίρεσης που εστιάζει στα κύρια προτεινόμενα δομικά στοιχεία, ειδικότερα τη χρήση καθολικών και τοπικών μηχανισμών αυτοπροσοχής πολλαπλών κεφαλών σε συνεργασία με ένα τμήμα κωδικοποίησης της απόλυτης θέσης, δείχνει τη σχετική συνεισφορά τους στη συνολική απόδοση.

Δημοσίευση
Στο IEEE Int. Symposium on Multimedia (ISM) 2021
Γεώργιος Μπαλαούρας
Γεώργιος Μπαλαούρας
Data Scientist

Τα ερευνητικά μου ενδιαφέροντα περιλαμβάνουν μεθόδους επεξεργασίας και ανάλυσης πολυμέσων.

Σχετικά