|
The sound signal textures : a contribution to caracterize urban atmospheres.
23/10/2009
Edito n°22
Mohsen Ben hadj salem
• architecte, assistant à l'Ecole Nationale d'Architecture et d'Urbanisme de Tunis, ENAU. Docteur en urbanisme et aménagement. Membre de l'Equipe de Recherche sur les Ambiances, ERA, ENAU, Tunis
• Architect, Phd, Assistant at National School of Architecture and Urbanism of Tunis, Tunisia (ENAU), researcher at ERA : « Atmospheres research group », National School of Architecture and Urbanism of Tunis.
Pour explorer le contenu informationnel d’un signal sonore, il est habituel de décomposer les sons en évènements sonores élémentaires. Dans cette multiplicité de sons apparaît une classe particulière : les textures audio. La notion de texture audio est récente, elle est apparue par analogie avec les textures image : un ensemble spatialement homogène, une répétition de motifs simples avec des variations aléatoires.
Une texture audio est un ensemble d’éléments sonores répétitifs, organisés aléatoirement, tout en préservant une certaine cohérence temporelle et spectrale (crépitement du feu, chute d’eau, pluie, vent, applaudissements, etc.). Des tests psychoacoustiques ont mis en évidence deux spécificités des textures audio : la constance au cours du temps et la stationnarité qui les diminue l’information véhiculée à la différence de la parole et de la musique.
Les membres de l’équipe U2S [1] de l’Ecole Nationale d’Ingénieurs de Tunis se sont appuyés sur les techniques des traitements d’images. L’homogénéité de la texture a permis de segmenter de scènes sonores successives à partir d’une segmentation des textures images associées. La matrice d’intersimilarité des coefficients MFCC [2] du signal a permis de construire cette image. Cette représentation visuelle a permis de savoir si un signal audio est texturé ou non, et de développer un algorithme de segmentation de textures audio en exploitant des techniques de traitement d’images. Cette technique peut être exploitée pour détecter un changement d’ambiance sonore dans un parcours.
|
|
In order to explore the informational contents of an aural signal, it is usual to break up the sounds into elementary sound events. In this variety of sounds a particular class appears, it’s called « audio textures ». The concept of audio texture is recent, like image textures, It’s a homogeneous unit formed by a repetition of simple elements.
An audio texture is a set of repetitive sound elements, random organized, but in the same time it preservs a temporal and spectral coherence (fire crackling, waterfall, rain, wind, applause). Psychoacoustics tests highlighted two specificities of audio textures: time constancy and stationnarity which decreases their the informational content (in opposition to words or music signals).
The « U2S » [1] group members at the National school of Engineers of Tunis based their researchs on the image processings technics. The homogeneity of texture made it possible to segment successive sound scenes starting from a segmentation of associated images textures. To build image texture, they use the intersimilarity matrix of the signal MFCC [2] coefficients of the signal. This visual representation show if an audio signal is textured or not, and permit to develop a segmentation algorithm of audio textures by exploiting image processing technics. These technics can be exploited to detect changes in sonic atmospheres. |
Partant de l’hypothèse que l’ambiance sonore est une composition de textures audio, la qualification de l’ambiance sonore se fait par la qualification de ses textures élémentaires. Cette démarche analytique devrait aider à saisir le niveau de complexité d’un signal sonore. Une collaboration entre l’ERA [3] et l’U2S a permis de mettre en place un programme de recherche portant sur l’application des textures audio à l’étude des ambiances sonores urbaines.
Dans les séminaires « Textures audio et ambiances sonores » organisés en Tunisie au mois de février et juin 2009, la collaboration s’est focalisée sur la perception des ambiances sonores par les personnes âgées, affectées par une dégradation auditive due à l’âge.
Les deux équipes doivent définir un modèle psycho-acoustique permettant de calculer les pertes auditives. Le modèle propose un seuil d’audition paramétré, basé à la fois sur les pertes auditives exprimées par la norme ISO 7029 selon l’âge et le sexe, et sur le seuil d’audition absolu en MPEG7. Ayant obtenu le seuil de l’auditeur, il est possible de simuler la texture audio perçue. Les objectifs de cette recherche sont multiples : la correction embarquée (prothèses auditives), la diffusion des signaux sonores dans les espaces urbains (avertissements, informations, alerte, etc.), la transformation et l’adaptation des dispositions et des dispositifs architecturaux (matériaux, dispositions spatiales, abat-son, façades réfléchissantes, effets sonores, etc.).
Dans l’objectif de mesurer le contenu informationnel des ambiances sonores urbaines, une mesure de complexité basée sur les entropies spectrale et temporelle a été élaborée. Cette technique vient d’être testée sur des enregistrements réalisés dans la Médina de Tunis. Ces premiers résultats semblent probants. |
|
Considering that sonic atmosphere is a composition of audio textures, the qualification of sonic atmospheres may be done by the qualification of its elementary textures. This analytical step should help to seize the level of complexity of an aural signal. Actually, a scientific collaboration between the ERA [3] and U2S set up a program of researchs program about the applications of audio textures in urban and architectural sonic atmospheres.
In the seminars “Textures audio and sonic atmospheres” organized in Tunisia in June and February 2009, collaboration was focused on sonic atmospheres perception by elderly, affected by auditive degradation due to their age.
ERA and U2S must define a psycho-acoustic model to calculate the auditive losses. The model proposes a parameterized hearing threshold, based at the same time on the auditive losses expressed by the standard ISO 7029 according to age and sex, and on the absolute hearing threshold of in MPEG7. The listener threshold must be defined, so it is possible to simulate perceived audio texture. The objectives of this research are multiple: embarked correction (hearing aids), diffusion of the aural signals in urban spaces (warnings, information, alerts, etc), the transformation and the adaptation of architectural devices (materials, space design, reflective frontages, sound effects, etc).
To measure the informational contents of sonic atmospheres, a measurement of complexity based on spectral and temporal entropies was elaborate. This technic has just been tested on sound recordings carried out in the Medina of Tunis. The preliminary results seem convincing. |
NOTES
[1] Unité de recherche « Signaux et Systèmes », Département TIC, Ecole Nationale d’Ingénieurs de Tunis (ENIT).
/// Research unit « Signals and Systems », TIC Department, National school of Engineers , Tunis, Tunisia (ENIT).
[2] Les MFCC ou Mel-Frequency Cepstral Coefficients sont des coefficients dits spectraux calculés par une transformée en cosinus discrète appliquée au spectre de puissance d’un signal. Les bandes de fréquence de ce spectre sont espacées logarithmiquement selon l’échelle de Mel. L’échelle de Mel est une échelle de fréquences basée sur la perception humaine. Elle se mesure en mels.
/// The MFCC or Mel-Frequency Cepstral Coefficients are spectral coefficients calculated by a discrete cosine transform applied to the signal energy spectrum. The spectrum wavebands are spaced in a logarith way according to Mel scale. The Mel scale is a frequencies scale based on human perception. It is measured in mels.
[3] Equipe de Recherche sur les Ambiances, Ecole Nationale d’Architecture et d’Urbanisme de Tunis (ENAU).
/// ERA : « Atmospheres research group », National School of Architecture and Urbanism of Tunis, Tunisia (ENAU).
|