Thesis opportunity: NLP Model Development for Key Topic Extraction and Sentence Segmentation in Text and Audio Signals

Teoresi è una società internazionale di servizi di ingegneria, nata a Torino nel 1987.
Siamo specializzati nel supportare le aziende nella realizzazione di progetti che utilizzano tecnologie all'avanguardia, dalla guida autonoma alle nanotecnologie applicate all’ambito medicale. Il nostro approccio innovativo prevede una stretta collaborazione con i reparti di Ricerca e Sviluppo dei principali marchi industriali. Realizziamo soluzioni chiavi in mano accelerando il time-to-market del cliente. Teoresi è una delle 10 aziende selezionate da Amazon per collaborare allo sviluppo di nuovi prodotti basati sull’interazione vocale di Alexa.

Siamo sempre alla ricerca di persone di talento da inserire nel nostro team. In Teoresi diamo valore agli aspetti innovativi di ogni sfida progettuale , al lavoro di squadra, alla diversità e e ci piace pensare liberi da confini, non solo geografici. Siamo costantemente aggiornati sui progressi tecnologici, dando priorità alle persone e alla sostenibilità ambientale. Il nostro team multidisciplinare e la nostra presenza globale ci permettono di offrire opportunità di carriera internazionali e di soddisfare le esigenze di un mercato in costante evoluzione. Crediamo che la proattività e la curiosità per l'apprendimento continuo siano essenziali in un contesto di squadra e ci impegniamo a generare innovazione in tutto ciò che facciamo.
Se condividi i nostri valori e ti interessa far parte di un'azienda orientata al futuro, continua a leggere e candidati!

Description

Research question

This thesis project focuses on the development of an advanced Natural Language Processing (NLP) model tailored for key topic extraction and sentence segmentation in both textual and audio data. The primary goal is to create a versatile framework capable of efficiently extracting key topics from text and audio content, while also segmenting sentences for a more granular analysis of the underlying information. The project will be developed following this workflow:

  • State of the art
  • Dataset research and analysis
  • Topic Extraction Techniques (Exploring and implementing state-of-the-art algorithms and techniques for key topic extraction, such as Latent Dirichlet Allocation (LDA), Non-negative Matrix Factorization (NMF), or Transformer-based models like BERT (Bidirectional Encoder Representations from Transformers)
  • Sentence Segmentation Methods (Designing and implementing effective strategies for sentence segmentation in both text and audio data, considering approaches such as punctuation-based segmentation, deep learning-based segmentation models, and audio signal processing techniques)
  • Model Integration and validation

 

Deliverables

  • Code of prototype (e.g. GitHub repo)
  • PPT and Word reports

 

Keywords: NLP, Key Topic Extraction and Sentence Segmentation, Deep learning, Python

Company Teoresi Group -> Teoresi S.p.A. | Italy
Job requirements

Student requirements:

  • Good knowledge in Python programming
  • Familiarity with Machine Learning and Python related libraries (e.g. pandas, keras, tensorflow, seaborn)
  • Skills in Text Analysis and Preprocessing
  • Object-oriented programming skills
  • Good organization, presentation and communication skills (e.g. provide periodically ppt and word reports to support development work)
  • Self-organized
  • Previous experience with generative AI (nice to have)
  Thesis type: Remote/ In site Contacts:  vincenza.tufano@teoresigroup.com, annalisa.letizia@teoresigroup.com    

Education

Laureando

Career level

Student

.