LauraLaureus commited on
Commit
fc07a14
verified
1 Parent(s): 7ff7a64

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -4
README.md CHANGED
@@ -1,11 +1,18 @@
1
  ## Descripci贸n
2
 
3
- Modelo de embeddings para detectar la similitud entre dos frases, especializado en refranes de habla hispana.
 
 
 
 
 
 
 
4
 
5
  Entrenado con refranes espa帽oles y su significado.
6
  Empleando el dataset [es-paremias-variantes-antonimos](https://huggingface.co/datasets/somosnlp-hackathon-2025/es-paremias-variantes-antonimos) se calcula el coeficiente de Pearson para medir el alineamiento con las preferencias humanas, en este caso, tener conocimiento de refranes de habla hispana.
7
 
8
- Los coeficientes son:
9
  <table>
10
  <tr>
11
  <th>Modelo</th>
@@ -19,6 +26,10 @@ Los coeficientes son:
19
  <td>Multilingual E5 - instruct </td>
20
  <td>0.17</td>
21
  </tr>
 
 
 
 
22
  <tr>
23
  <td>Cohere embed -v4.0 dim 256 </td>
24
  <td>0.67</td>
@@ -33,17 +44,19 @@ Los coeficientes son:
33
  </tr>
34
  <tr>
35
  <td>Cohere embedd multilingual v3.0-light dim 384 </td>
36
- <td><b>0.72</b></td>
37
  </tr>
38
  <tr>
39
  <td>Cohere embedd multilingual v3.0-light dim 1024 </td>
40
  <td><b>0.70</b></td>
41
  </tr>
42
  <tr>
43
- <td>Multilingual E5 refranes </td>
44
  <td><b>0.40</b></td>
45
  </tr>
46
  </table>
 
 
47
  ---
48
  tags:
49
  - sentence-transformers
 
1
  ## Descripci贸n
2
 
3
+ La evaluaci贸n de un modelo del lenguaje es una tarea de investigaci贸n porque las soluciones propuestas no son perfectas:
4
+
5
+ - **Las m茅tricas convencionales** (BLEU,BERTScore ...) son muy r铆gidas en cuanto a la representaci贸n de la palabra y fallan en alinearse con las preferencias humanas.
6
+ - **LLM-as-judge** (RAGAS,DeepEval...) las soluciones que delegan la evaluaci贸n en un LLM tienen el problema de que dos ejecuciones consecutivas no dan el mismo valor en sus m茅tricas.
7
+
8
+ La presente propuesta pasa por quedarnos con lo mejor de los dos mundos: preditibilidad y flexibilidad en la elecci贸n de palabras. Para ello hemos propuesto evaluar la distancia coseno con un modelo de embeddings especializado.
9
+
10
+ Nos hemos concentrado en detectar si un modelo del lenguaje tiene dominio sobre los refranes de habla hispana. Por ello presentamos un modelo de embeddings para detectar la similitud entre dos frases, especializado en refranes de habla hispana.
11
 
12
  Entrenado con refranes espa帽oles y su significado.
13
  Empleando el dataset [es-paremias-variantes-antonimos](https://huggingface.co/datasets/somosnlp-hackathon-2025/es-paremias-variantes-antonimos) se calcula el coeficiente de Pearson para medir el alineamiento con las preferencias humanas, en este caso, tener conocimiento de refranes de habla hispana.
14
 
15
+ Los coeficientes de los modelos estudiados para esta tarea son:
16
  <table>
17
  <tr>
18
  <th>Modelo</th>
 
26
  <td>Multilingual E5 - instruct </td>
27
  <td>0.17</td>
28
  </tr>
29
+ <tr>
30
+ <td>Multilingual E5 </td>
31
+ <td>0.21</td>
32
+ </tr>
33
  <tr>
34
  <td>Cohere embed -v4.0 dim 256 </td>
35
  <td>0.67</td>
 
44
  </tr>
45
  <tr>
46
  <td>Cohere embedd multilingual v3.0-light dim 384 </td>
47
+ <td><b>0.72*</b></td>
48
  </tr>
49
  <tr>
50
  <td>Cohere embedd multilingual v3.0-light dim 1024 </td>
51
  <td><b>0.70</b></td>
52
  </tr>
53
  <tr>
54
+ <td>Multilingual E5 refranes (actual)</td>
55
  <td><b>0.40</b></td>
56
  </tr>
57
  </table>
58
+
59
+
60
  ---
61
  tags:
62
  - sentence-transformers