Spaces:

NLP-Debater-Project
/

FastAPI-Backend-Models

Running

App Files Files Community

malek-messaoudii commited on about 10 hours ago

Commit

129ec23

1 Parent(s): 4c992d0

feat: Update generate_speech endpoint to enforce MP3 format, modify request and response models for clarity, and enhance documentation to reflect language code usage and format restrictions.

Browse files

Files changed (2) hide show

models/mcp_models.py +2 -2
routes/mcp_routes.py +40 -20

models/mcp_models.py CHANGED Viewed

@@ -98,12 +98,12 @@ class GenerateSpeechResponse(BaseModel):
     model_config = ConfigDict(
         json_schema_extra={
             "example": {
-                "audio_path": "temp_audio/tts_e9b78164.wav"
             }
         }
     )
-    audio_path: str = Field(..., description="Path to generated audio file")
 class ExtractTopicResponse(BaseModel):
     """Response model for topic extraction"""

     model_config = ConfigDict(
         json_schema_extra={
             "example": {
+                "audio_path": "temp_audio/tts_e9b78164.mp3"
             }
         }
     )
+    audio_path: str = Field(..., description="Path to generated MP3 audio file")
 class ExtractTopicResponse(BaseModel):
     """Response model for topic extraction"""

routes/mcp_routes.py CHANGED Viewed

@@ -65,17 +65,19 @@ class MatchKeypointRequest(BaseModel):
 class GenerateSpeechRequest(BaseModel):
-    """Request pour générer de la parole"""
     text: str = Field(..., description="Texte à convertir en parole")
-    voice: str = Field(default="Aaliyah-PlayAI", description="Voix à utiliser")
-    format: str = Field(default="wav", description="Format audio (wav, mp3, etc.)")
     class Config:
         json_schema_extra = {
             "example": {
                 "text": "Hello, this is a test",
-                "voice": "Aaliyah-PlayAI",
-                "format": "wav"
             }
         }
@@ -174,16 +176,27 @@ async def list_mcp_tools():
             ),
             ToolInfo(
                 name="generate_speech",
-                description="Convertit du texte en fichier audio",
                 input_schema={
                     "type": "object",
                     "properties": {
-                        "text": {"type": "string", "description": "Texte à convertir en parole"},
-                        "voice": {"type": "string", "description": "Voix à utiliser", "default": "Aaliyah-PlayAI"},
-                        "format": {"type": "string", "description": "Format audio", "default": "wav"}
                     },
-                    "required": ["text"]
-                }
             ),
             ToolInfo(
                 name="generate_argument",
@@ -286,14 +299,14 @@ async def call_mcp_tool(request: ToolCallRequest):
     }
     ```
-    5. **generate_speech** - Générer de la parole:
     ```json
     {
       "tool_name": "generate_speech",
       "arguments": {
         "text": "Hello, this is a test",
-        "voice": "Aaliyah-PlayAI",
-        "format": "wav"
       }
     }
     ```
@@ -488,10 +501,17 @@ async def mcp_transcribe_audio(file: UploadFile = File(...)):
         if os.path.exists(temp_path):
             os.unlink(temp_path)
-@router.post("/tools/generate-speech", summary="Générer de la parole à partir de texte")
 async def mcp_generate_speech(request: GenerateSpeechRequest):
-    """Convertit du texte en fichier audio (téléchargeable)"""
     try:
         result = await mcp_server.call_tool("generate_speech", {
             "text": request.text,
             "voice": request.voice,
@@ -520,7 +540,7 @@ async def mcp_generate_speech(request: GenerateSpeechRequest):
         # Nettoyer le chemin si c'est une représentation string d'objet
         if audio_path and isinstance(audio_path, str):
             # Si c'est une représentation d'objet TextContent, extraire le chemin
-            if "text='" in audio_path and ".wav" in audio_path:
                 import re
                 match = re.search(r"text='([^']+)'", audio_path)
                 if match:
@@ -533,8 +553,8 @@ async def mcp_generate_speech(request: GenerateSpeechRequest):
         if not Path(audio_path).exists():
             raise HTTPException(status_code=500, detail=f"Audio file not found: {audio_path}")
-        # Déterminer le type MIME
-        media_type = "audio/wav" if request.format == "wav" else "audio/mpeg"
         # Retourner le fichier pour téléchargement
         logger.info(f"Speech generated: {audio_path}")

 class GenerateSpeechRequest(BaseModel):
+    """Request pour générer de la parole (TTS gTTS, MP3 seulement)"""
     text: str = Field(..., description="Texte à convertir en parole")
+    # gTTS attend un code langue (ex: 'en', 'fr')
+    voice: str = Field(default="en", description="Code langue à utiliser (ex: 'en', 'fr')")
+    # Le backend gratuit ne supporte que le format MP3
+    format: str = Field(default="mp3", description="Format audio (uniquement 'mp3')")
     class Config:
         json_schema_extra = {
             "example": {
                 "text": "Hello, this is a test",
+                "voice": "en",
+                "format": "mp3",
             }
         }
             ),
             ToolInfo(
                 name="generate_speech",
+                description="Convertit du texte en fichier audio (TTS gTTS, MP3 seulement)",
                 input_schema={
                     "type": "object",
                     "properties": {
+                        "text": {
+                            "type": "string",
+                            "description": "Texte à convertir en parole",
+                        },
+                        "voice": {
+                            "type": "string",
+                            "description": "Code langue à utiliser (ex: 'en', 'fr')",
+                            "default": "en",
+                        },
+                        "format": {
+                            "type": "string",
+                            "description": "Format audio (uniquement 'mp3')",
+                            "default": "mp3",
+                        },
                     },
+                    "required": ["text"],
+                },
             ),
             ToolInfo(
                 name="generate_argument",
     }
     ```
+    5. **generate_speech** - Générer de la parole (MP3 seulement):
     ```json
     {
       "tool_name": "generate_speech",
       "arguments": {
         "text": "Hello, this is a test",
+        "voice": "en",
+        "format": "mp3"
       }
     }
     ```
         if os.path.exists(temp_path):
             os.unlink(temp_path)
+@router.post("/tools/generate-speech", summary="Générer de la parole à partir de texte (MP3 uniquement)")
 async def mcp_generate_speech(request: GenerateSpeechRequest):
+    """Convertit du texte en fichier audio MP3 (téléchargeable) via l'outil MCP generate_speech"""
     try:
+        # Validation explicite pour être cohérent avec le backend gTTS
+        if request.format != "mp3":
+            raise HTTPException(
+                status_code=400,
+                detail="Only 'mp3' format is supported by the TTS backend",
+            )
         result = await mcp_server.call_tool("generate_speech", {
             "text": request.text,
             "voice": request.voice,
         # Nettoyer le chemin si c'est une représentation string d'objet
         if audio_path and isinstance(audio_path, str):
             # Si c'est une représentation d'objet TextContent, extraire le chemin
+            if "text='" in audio_path:
                 import re
                 match = re.search(r"text='([^']+)'", audio_path)
                 if match:
         if not Path(audio_path).exists():
             raise HTTPException(status_code=500, detail=f"Audio file not found: {audio_path}")
+        # Déterminer le type MIME (MP3 uniquement)
+        media_type = "audio/mpeg"
         # Retourner le fichier pour téléchargement
         logger.info(f"Speech generated: {audio_path}")