Spaces:

mumbert
/

automatic-audio-captioning-demo

Sleeping

App Files Files Community

mumbert commited on Feb 8

Commit

55010b0

1 Parent(s): ace54df

app_dcase.py requirements.txt: go back to simple demo with CLAP twice, place dcase baseline in dedicated branch until installation is solved

Browse files

Files changed (2) hide show

app_dcase.py +18 -34
requirements.txt +0 -6

app_dcase.py CHANGED Viewed

@@ -1,40 +1,26 @@
-# import gradio as gr
-# from msclap import CLAP
-# clap_model = CLAP(version = 'clapcap', use_cuda=False)
-# def clap_inference(mic=None, file=None):
-#     if mic is not None:
-#         audio = mic
-#     elif file is not None:
-#         audio = file
-#     else:
-#         return "You must either provide a mic recording or a file"
-#     # Generate captions for the recording
-#     captions = clap_model.generate_caption([audio],
-#                                            resample=True,
-#                                            beam_size=5,
-#                                            entry_length=67,
-#                                            temperature=0.01)
-#     return captions[0]
-from transformers import pipeline
-import gradio as gr
-import torchaudio
-import torch
-from dcase24t6.nn.hub import baseline_pipeline
-import os
-import gdown
-def download_dcase_model_checkpoint():
-    url = "https://drive.google.com/uc?id=1JABWIBlHuLAhYPX5ktbyLniH-YpeRyeT"
-    output = 'epoch_232-step_001864-mode_min-val_loss_3.3752.ckpt'
-    gdown.download(url, output, quiet=False)
 def create_app():
@@ -45,7 +31,7 @@ def create_app():
             """
         )
         gr.Interface(
-            fn=dcase_inference,
             inputs=[
                 gr.Audio(sources="microphone", type="filepath"),
                 gr.Audio(sources="upload", type="filepath"),
@@ -55,8 +41,6 @@ def create_app():
     return demo
-download_dcase_model_checkpoint()
 def main():
     app = create_app()

+import gradio as gr
+from msclap import CLAP
+clap_model = CLAP(version = 'clapcap', use_cuda=False)
+def clap_inference(mic=None, file=None):
+    if mic is not None:
+        audio = mic
+    elif file is not None:
+        audio = file
+    else:
+        return "You must either provide a mic recording or a file"
+    # Generate captions for the recording
+    captions = clap_model.generate_caption([audio],
+                                           resample=True,
+                                           beam_size=5,
+                                           entry_length=67,
+                                           temperature=0.01)
+    return captions[0]
 def create_app():
             """
         )
         gr.Interface(
+            fn=clap_inference,
             inputs=[
                 gr.Audio(sources="microphone", type="filepath"),
                 gr.Audio(sources="upload", type="filepath"),
     return demo
 def main():
     app = create_app()

requirements.txt CHANGED Viewed

@@ -1,8 +1,2 @@
 gradio==5.13.1
 msclap
-# transformers
-# torch==2.2.1
-# torchoutil[extras]~=0.3.0
-# ffmpeg
-# ffmpeg-python
-git+https://github.com/Labbeti/dcase2024-task6-baseline


1	gradio==5.13.1
2	msclap