Léxico frecuente, riqueza léxica y estereotipos sobre la lectura de profesores en formación

Frequent vocabulary, lexical richness and stereotypes of reading in training teachers

María Natalia Castillo Fadić

Pontificia Universidad Católica de Chile, Chile

mcastilf@uc.cl

Enrique Sologuren Insúa

Universidad de los Andes, Chile

esologuren@miuandes.cl

Recibido: Enero 2020 Aceptado: Abril 2020 Publicado: Junio 2020

Citación: Castillo Fadić, M. N. & Sologuren Insúa, E. (2020). Léxico frecuente, riqueza léxica y estereotipos sobre la lectura de profesores en formación. Logos: Revista de Lingüística, Filosofía y Literatura, 30(1), 69-85. DOI: 10.15443/RL3006

Dirección Postal: Av. Vicuña Mackenna 4860, Macul, Santiago, Chile

DOI: doi.org/10.15443/RL3006

Resumen: El presente artículo analiza lexicoestadísticamente un corpus textual de relatos de vida lectora escritos por profesores en formación, con énfasis en los índices de frecuencia, riqueza léxica, representatividad y curva de cobertura; y compara los resultados obtenidos con los de otros corpus de español. Además, analiza cualitativamente las unidades léxicas de mayor frecuencia desde la semántica del estereotipo. Desde el punto de vista cuantitativo, releva los cien vocablos más frecuentes del corpus, determina que la curva de cobertura es más acelerada que las de otros corpus escritos y se acerca a la de corpus orales, precisa el índice de riqueza léxica a partir de dos fórmulas complementarias y presenta los listados de vocablos con contenido nocional y de nombres propios con Fi ≥2, con indicación de su rango. Esto se acompaña de un análisis por estereotipos que da cuenta de una marcada asociación entre lectura y géneros literarios, así como de asociaciones contradictorias, entre las que destaca, por un lado, la de lectura con placer, tiempo libre y capacidad adquisitiva y, por otro, la de lectura con aburrimiento, obligatoriedad, instituciones educativas y bibliotecas.

Palabras clave: lexicoestadística - riqueza léxica - lexicosemántica - semántica del estereotipo

Abstract: The present article analyzes a textual corpus formed by stories of reading life written by teachers in training, with emphasis on frequency index, lexical richness, representativeness and coverage curve with the use of statistics, and compares the results obtained through other corpora of Spanish language. In addition, it analyzes the most frequent lexical units from the Stereotype Semantics field qualitatively. From a qualitative point of view, it gathers the one hundred most frequent words in the corpus, determines a more accelerated coverage curve than the rest of the written corpora and it shows a similar curve to the one of the oral corpora. It also specifies the lexical richness index from complementary formulas and presents the list of words with notional content and proper names with F, ≥2, with range display. This information is accompanied by a stereotype analysis that shows a strong association between reading and literary genres, as well as contradictory associations between, on the one hand, reading with pleasure, free time and purchasing power and, on the other hand, reading with boredom, obligation, educational institution and libraries.

Keywords: lexical statistics - lexical richness - lexical semantics - stereotype semantics

1. Introducción

Los trabajos de estadística léxica comienzan en el mundo hispano a mediados del siglo XX, cuando lingüistas como Rodríguez Bou (1952a y 1952b) y Juilland y Chang-Rodríguez (1964) realizan estudios de frecuencia léxica a partir de corpus de referencia. Estos últimos desarrollan además fórmulas de dispersión compleja y uso. Más tarde, López Morales (1973) extiende esta línea de investigación cuantitativa a los estudios de disponibilidad léxica, a partir de la aplicación de tests asociativos organizados por centros de interés o áreas temáticas, ámbito en el que realiza numerosos aportes (cf., por ejemplo, Lorán & López Morales, 1983 y López Morales, 1999). Tanto los estudios de frecuencia como los de disponibilidad, complementarios, dan cuenta de distintos índices y tienen amplias posibilidades de aplicación en la enseñanza-adquisición de la lengua materna y de segundas lenguas (cf. Germain, 1993; Santos Díaz, 2017a y 2017b; Trigo, Romero y Santos Díaz, 2019). En ambos, importa determinar cuál es el núcleo estadístico del español, ya sea en lo relativo al léxico atemático de mayor uso, como al léxico temático, de mayor disponibilidad, organizado por centros de interés. Uno de los índices de mayor aplicación al ámbito pedagógico ha sido el de riqueza léxica, cuyo precursor en español es Humberto López Morales (1984). Respecto de este índice se han desarrollado distintas fórmulas, de las que daremos cuenta más adelante.

Este artículo analiza estadísticamente léxico en uso de profesores en formación en un corpus textual compuesto por textos pertenecientes a un género discursivo específico: los relatos de vida lectora (cf. Munita, 2017; Parrado, Romero & Trigo, 2018). El trabajo revisa los índices de frecuencia (Fi), representatividad acumulada, cobertura y riqueza léxica. Luego, analiza los estereotipos presentes en las unidades léxicas más frecuentes, con énfasis en aquellas con contenido nocional.

El estudio exploratorio, lexicoestadístico y lexicosemántico tiene finalidad pura e implicancias aplicadas; de corte sincrónico, sintópico, sinstrático y sinfásico, opera sobre un corpus empírico de primera mano y aplica herramientas de lingüística de corpus, lingüística computacional y estadística descriptiva.

El objetivo general es determinar el léxico en uso de profesores en formación. Los objetivos específicos son:

-Describir estadísticamente el léxico del grupo mencionado.

-Comparar los índices estadísticos con los de otros corpus de español.

-Revisar cualitativamente el léxico desde la semántica del estereotipo.

Esperamos que nuestros resultados contribuyan al conocimiento de la relación de futuros profesores con la lectura y, de manera mediata, puedan ser de utilidad para investigaciones ligadas al ámbito educativo.

2. Lexicoestadística y lexicosemántica

La estadística léxica se centra en el nivel léxico de la lengua desde un punto de vista cuantitativo. Por ello, opera sobre la unidad mínima de léxico, el vocablo, y no sobre la unidad mínima textual, la palabra. En este sentido, supone la necesidad de segmentar y lematizar las unidades léxicas actualizadas en los textos, de modo de abstraer la variable bajo la cual se agrupan los tipos léxicos o variantes que, a su vez, aparecen representados en dichos textos por medio de palabras. En lo relativo a la segmentación, importa distinguir no sólo unidades univerbales de pluriverbales, sino también resolver casos de amalgamas, construcciones con pronombres enclíticos, etc. Las variables, vocablos, lemas o unidades de cita operan como etiqueta de todo un paradigma de variantes y su determinación es convencional: así, en español, en el caso de los verbos, el lema es el infinitivo; en el de las formas nominales, usualmente el masculino singular; en el de otras clases léxicas, pueden existir distintas alternativas; por ejemplo, es posible lematizar los pronombres personales por persona y número, por persona con independencia del número e incluso separadamente según si se trata de un caso nominativo, dativo o ablativo, como hacemos en esta ocasión. Estas decisiones inciden, como es lógico, sobre el conteo estadístico y, normalmente, deben estar justificadas de acuerdo con el marco teórico y metodológico y alineadas con los objetivos de la investigación.

En esta investigación, la segmentación y la lematización siguen grosso modo los criterios de Castillo Fadić (2020). No obstante, se consideran también como unidades pluriverbales algunas construcciones con carácter de colocación (cf. Bosque, 2001) relevantes para este estudio; es el caso de, por ejemplo, séptimo_básico, que permite ubicar temporalmente momentos relevantes en la vida lectora de los informantes.

La frecuencia aquí es absoluta (Fi), pues no está ponderada por el tamaño de la muestra. Para el cálculo de la representatividad acumulada (R), ordenamos los vocablos por frecuencia descendente y aplicamos la fórmula presentada en Castillo Fadić (2012b), a saber: , que corresponde al cociente entre la sumatoria de las frecuencias de los vocablos dentro de un rango y el total de vocablos en el mismo rango. La riqueza léxica (r), por su parte, se mide a partir de dos índices complementarios propuestos por López Morales (1984): el primero da cuenta del cociente entre el total de vocablos y el total de palabras de un corpus; el segundo, en tanto, observa el intervalo de palabras nocionales –sustantivos, adjetivos, verbos y adverbios– dentro de un corpus. Estos índices son ampliamente desarrollados en Haché de Yunén (1991) y López Morales (2011).

En lo relativo al análisis semántico, nos basamos en el concepto de estereotipo como lo entiende Lara (2001 y 2004), con quien concordamos en que las unidades léxicas presentan elementos semánticos teñidos socialmente, que dan cuenta de la cosmovisión de la comunidad. A diferencia del prototipo, el estereotipo no es universal, se asocia a las características de la sociedad y es, por tanto, dependiente de la experiencia y de las ideologías de los hablantes.

Puesto que los análisis realizados requieren operar sobre un corpus empírico homogéneo, para efectos de esta investigación entendemos los relatos de vida lectora como género discursivo (Parodi, 2008; Bazerman, 2012) y estimamos que este género puede ser definido como una interacción comunicativa cuyo modo de organización discursivo predominante es narrativo y se caracteriza por una fuerte orientación reflexiva. Así, este género reflexivo (Jarpa y Becerra, 2019) se construye a través de las historias que un estudiante cuenta de sí mismo (Romero y Trigo, 2018) y a partir de las experiencias personales del sujeto lector (Munita, 2017). De allí se desprende su valor formativo e investigativo como herramienta heurística y también como género discursivo de formación. De este modo, nuestro corpus textual simple está constituido por material lingüístico correspondiente únicamente al género discursivo relato de vida lectora.

3. El relato de vida lectora como género discursivo

El concepto de género discursivo resulta fundamental para indagar en lo que las comunidades hacen a través de sus textos. La noción moderna de género se debe a Mijaíl Bajtín, quien en los años 50 escribió una serie de textos inéditos sobre los géneros discursivos, que fueron conocidos en occidente a partir de los años 80. Los géneros discursivos son, para Bajtín (2005, p. 248), tipos de enunciados relativamente estables que pertenecen a esferas de la comunicación determinadas. Se trata de unidades de comunicación discursiva que se caracterizan por el contenido temático, el estilo verbal –“o sea por la selección de los recursos léxicos, fraseológicos y gramaticales de la lengua” (Bajtín, 2005, p. 248)– y la composición o estructuración, tres aspectos inseparables que caracterizan a todo enunciado.

Estos tipos de enunciados pueden ser orales o escritos, primarios o secundarios. Los primarios o simples (Bajtín, 1986) se adquieren por medio de las interacciones de crianza y se corresponden con diálogos cotidianos, conversaciones diarias, anécdotas y narraciones breves, principalmente orales; por su parte, los secundarios o complejos requieren mayor elaboración y generalmente son de modalidad escrita. Su adquisición y desarrollo está mediatizado por las instituciones escolares y de instrucción formal. Asimismo, los géneros primarios pueden integrarse a los géneros secundarios ya que “mientras los géneros discursivos se van formando, estos absorben y alteran los géneros primarios o simples” (Beke, 2011, p. 43). Visto lo anterior y desde esta perspectiva, en este artículo entendemos el relato de vida lectora como género discursivo escrito secundario.

Desde los estudios de la composición norteamericana, destaca la corriente de la nueva retórica ¬–los Estudios Retóricos del Género (RGE, por sus siglas en inglés)¬– que postula que “Los géneros se corresponden con formas estandarizadas de expresiones que son reconocidas como las que llevan a cabo ciertas acciones en ciertas circunstancias y hacia entendimientos estandarizados de las situaciones” (Bazerman, 2012, p. 131). De fuerte raigambre bajtiniana y socioconstructivista, esta concepción de los géneros releva con mayor énfasis el carácter accional de estas formas, al catalogarlas como acciones tipificadas “by using these typified texts we are able to advance our own interests and shape our meanings in relation to complex social systems” (Bazerman, 1994, p. 79). En este marco, es muy importante distinguir que los géneros no corresponden a categorías fijas o estáticas atribuidas a un texto, sino a categorías de reconocimiento psicosocial, por lo cual “el género discursivo es lo que las personas, en tanto grupos y en tanto individuos, identifican como tal” (Bazerman, Little, Bethel, Chavquin, Foquette & Garufis, 2016, p. 170).

Se trata, por tanto, de una cuestión de percepción (Bazerman, 2015, p. 81) que va más allá de las apariencias convencionales superficiales. Esta concepción de género es relevante para nuestra investigación, puesto que no sólo permite tipificar el relato de vida lectora como género, sino que, además, al trascender los aspectos visibles de forma y contenido y plantear que “Los géneros discursivos son maneras de hacer cosas –y como tales encarnan aquello que se quiere hacer y muestran huellas del tiempo y del espacio en que se realizan, así como de los motivos y las acciones realizadas” (Bazerman, 2013, p. 24), se relaciona con la noción de estereotipo empleada en el análisis lexicosemántico, que tambien da cuenta del reflejo cultural y social, esta vez a través del significado léxico.

4. Metodología

El corpus consta de 7423 palabras en contexto, distribuidas en 88 párrafos extraídos de once relatos de vida lectora escritos por estudiantes universitarios chilenos del área de la pedagogía inicial o primaria. Los relatos corresponden a fuentes primarias y fueron obtenidos en el marco del proyecto Fondecyt Regular n° 1170779. Este género discursivo, consistente en una redacción solicitada ad hoc a los informantes, se ha considerado una herramienta útil en los estudios educativos para acceder a la motivación por la lectura de los sujetos (Munita, 2017; Parrado, Romero & Trigo, 2018).

La consigna para obtener los relatos fue la siguiente:

Escriba su autobiografía lectora desde sus primeros recuerdos de lectura, intentando responder a la pregunta: a) ¿Qué tipo de lector estima usted ser? b) ¿Cómo cree usted que llegó a ser este tipo de lector? Al llegar a la actualidad, incluya toda la información que usted crea pertinente para describirse a sí mismo como lector (rutinas de lectura, tipos de lectura, últimos libros leídos, frecuentación de otros materiales escritos, etc.). (Fondecyt Regular nº 1170779).

El corpus fue procesado mediante el programa LexBas 1.01. Tras la segmentación y lematización automática encontramos 3408 unidades univerbales y pluriverbales, correspondientes a 2004 tipos y 1404 vocablos. Luego de la posterior y complementaria segmentación y lematización manual, las cifras quedaron en 3383 palabras, 1990 tipos y 1393 vocablos (cf. Figura 1).

Figura 1. Recorte de pantalla LexBas 1.0

El análisis se centró primero en aspectos cuantitativos. Así, una vez obtenida la Fi por vocablo mediante Lexbas 1.0, los datos se exportaron a una planilla de cálculo, donde se computaron separadamente las unidades con contenido nocional, los nombres propios y las demás categorías detectadas. A continuación, se aplicó la fórmula de representatividad acumulada presentada en Castillo Fadić (2012b) para medir la velocidad de cobertura del corpus y establecer gráficamente su curvatura. Luego, se midió la riqueza léxica usando los dos parámetros complementarios, propuestos por López Morales (1984). A continuación, se realizó un análisis cualitativo de los vocablos con contenido nocional con Fi ≥2, desde la semántica del estereotipo (Lara, 2001).

5. Resultados y discusión

5.1 Vocablos de mayor frecuencia: los primeros cien

Los cien vocablos de mayor frecuencia (cf. Tabla 1), con una R=65,57995%, están encabezados por palabras gramaticales, como es habitual en este tipo de listado. No obstante, y a diferencia de corpus de concordancia complejos que abarcan diferentes géneros y temáticas, la falta de índices de dispersión que modulen los resultados se observa en la presencia de deícticos, entre los que destacan pronombres personales y adjetivos posesivos. También aparecen en rangos iniciales (8 en adelante) unidades con contenido nocional de alta especificidad semántica y fuertemente temáticos (ej. leer, libro lectura), claramente motivados por la instrucción de escritura y por el género en cuestión.

Tabla 1. Cien vocablos de mayor frecuencia

Rango

Vocablo

Pos (EAGLES)

Fi

R

1

el

DA

641

8,635%

2

de

SP

360

13,485%

3

que

PR

225

16,516%

4

en

SP

216

19,426%

5

y

CC

210

22,255%

6

a

SP

199

24,936%

7

me

PP

188

27,469%

8

leer

VM

170

29,759%

9

mi

DP

149

31,766%

10

ser

VS

131

33,531%

11

libro

NC

128

35,255%

12

por

SP

117

36,831%

13

uno

DI

115

38,381%

14

que

CS

111

39,876%

15

no

RN

78

40,927%

16

con

SP

76

41,951%

17

para

SP

74

42,948%

18

lectura

NC

66

43,837%

19

tener

VM

61

44,658%

20

como

CS

57

45,426%

21

o

CC

55

46,167%

22

este

DD

47

46,800%

23

más

RG

46

47,420%

24

estar

VA

44

48,013%

25

lo

PP

41

48,565%

26

texto

NC

39

49,091%

27

se

P0

33

49,535%

28

poder

VM

32

49,966%

29

lector

NC

29

50,357%

30

tiempo

NC

28

50,734%

31

gustar

VM

27

51,098%

32

cuando

CS

25

51,435%

33

hacer

VM

25

51,772%

34

vez

NC

25

52,108%

35

ir

VM

24

52,432%

36

pero

CC

24

52,755%

37

cuento

NC

23

53,065%

38

ese

DD

23

53,375%

39

siempre

RG

23

53,684%

40

año

NC

22

53,981%

41

otro

DI

22

54,277%

42

su

DP

22

54,574%

43

comenzar

VM

21

54,857%

44

los

PP

21

55,139%

45

sobre

SP

21

55,422%

46

todo

DI

21

55,705%

47

porque

CS

20

55,975%

48

día

NC

18

56,217%

49

momento

NC

18

56,460%

50

primero

AO

17

56,689%

51

comprar

VM

17

56,918%

52

desde

SP

17

57,147%

53

gusto

NC

17

57,376%

54

universidad

NC

17

57,605%

55

uno

PI

17

57,834%

56

conocer

VM

16

58,049%

57

cosa

NC

16

58,265%

58

deber

VM

16

58,480%

59

también

RG

16

58,696%

60

buscar

VM

15

58,898%

61

cual

PR

15

59,100%

62

historia

NC

15

59,302%

63

mismo

AQ

15

59,504%

64

recordar

VM

15

59,706%

65

si

CS

15

59,908%

66

alguno

DI

14

60,097%

67

encontrar

VM

14

60,286%

68

este

PD

14

60,474%

69

llegar

VM

14

60,663%

70

mucho

DI

14

60,851%

71

muy

RG

14

61,040%

72

terminar

VM

14

61,229%

73

último

AO

14

61,417%

74

volver

VM

14

61,606%

75

aprender

VM

13

61,781%

76

menos

RG

13

61,956%

77

mundo

NC

13

62,131%

78

puesto_que

SP

13

62,306%

79

ver

VM

13

62,481%

80

colegio

NC

12

62,643%

81

considerar

VM

12

62,805%

82

crear

VM

12

62,966%

83

tipo

NC

12

63,128%

84

así

RG

11

63,276%

85

ellos

PP

11

63,424%

86

familia

NC

11

63,573%

87

luego

RG

11

63,721%

88

novela

NC

11

63,869%

89

nunca

RG

11

64,017%

90

pedir

VM

11

64,165%

91

persona

NC

11

64,314%

92

querer

VM

11

64,462%

93

sentar

VM

11

64,610%

94

tomar

VM

11

64,758%

95

vida

NC

11

64,906%

96

además

RG

10

65,041%

97

casa

NC

10

65,176%

98

durante

SP

10

65,311%

99

haber

VM

10

65,445%

100

PP

10

65,580%

5.2 Índices de cobertura y representatividad acumulada

De los 1393 vocablos, 578 tienen Fi ≥2, con una representatividad acumulada R= 89,02%. Como es habitual en estudios de esta naturaleza, la curva de cobertura es acelerada en los primeros rangos y se va ralentizando hasta volverse asintótica, alrededor del rango 600 y coincidentemente con el descenso de las Fi<2 (cf. Gráfico 1).

Gráfico 1. Curva de cobertura

Si se compara la velocidad de cobertura con la del Corpus Básico del Español de Chile © (Castillo Fadić, 2012a), se observa una cobertura más rápida (cf. Tabla 2), similar a la que se aprecia en corpus orales (Ávila, 1998, p. 257) y distinta de la que suele darse en los listados de frecuencia obtenidos a partir de fuentes escritas, donde “las primeras 15 palabras de un listado de frecuencias viene a representar un 25% del total de ocurrencias (tokens) aparecidas en un texto, las primeras 50 un 50%, las primeras 100 un 60%, las primeras 1.000 un 85%” (Izquierdo Gil, 2005, p. 71)”. A modo de hipótesis, esto podría dar cuenta de un dominio aún en desarrollo de géneros discursivos secundarios, reflejado en el recurso a mecanismos propios de géneros primarios, característicos del discurso oral.

Tabla 2. Comparación entre curvas de cobertura de relatos de vida lectora y los distintos mundos del Corpus Básico del Español de Chile ©.

Vocablos

Relatos de vida lectora

Drama

Narrativa

Ensayo

Técnico- Científico

Prensa

Primeros 50

56,68867%

52,45317%

50,36652%

50,15457%

50,38526%

49,86673%

Primeros 100

65,57995%

60,64938%

56,28222%

55,33256%

55,39573%

54,38839%

Primeros 500

86,91904%

77,15970%

71,24919%

71,37668%

71,69272%

68,61179%

Primeros 1000

94,70564%

83,27389%

78,02884%

79,32885%

79,94999%

76,20969%

5.3 Riqueza léxica

Si aplicamos la medida de número de vocablos (1393) sobre el total de palabras (7423), tenemos una riqueza léxica r= 18,765%, superior a la de todos los mundos del Corpus Básico del Español de Chile ©; no obstante, estos resultados que parecen auspiciosos deben ser relativizados. Los resultados de esta fórmula dependen del n y a idéntica riqueza arrojan cifras mayores cuanto menor sea el tamaño del corpus; por ello, su valor debe observarse siempre en relación con el obtenido del análisis de corpus de tamaño similar. Y puesto que los distintos mundos del Corpus Básico del Español de Chile © presentan riquezas entre 9,7 y 12,7 para subcorpus de 100.000 palabras, la riqueza proporcional de este pequeño corpus de relatos de sólo 7423 palabras se ve considerablemente disminuida.

Por ello, en este trabajo en particular nos parece de mayor interés observar el intervalo de palabras con contenido nocional, que corresponde al cociente entre el tamaño del corpus (7423) y la Fi total de las palabras con contenido nocional (3670); puesto que se encuentran 1094 vocablos con contenido nocional, con una frecuencia total de 3670, según este parámetro, la riqueza léxica r=2,022. Este valor es similar al obtenido del análisis estadístico del mundo Técnico-Científico del Corpus Básico del Español de Chile © y da cuenta tanto de la riqueza conceptual de los textos como del menor uso de conectores en relación con otros géneros discursivos. Es importante recordar, en relación con esta fórmula, que la riqueza es inversamente proporcional al tamaño del intervalo, de modo que, a menor intervalo, mayor riqueza.

5.4 Unidades con contenido nocional y nombres propios: estadísticos y estereotipos

Los estereotipos son preferentemente observables en las unidades con contenido nocional. Nos centramos por ello en los sustantivos, adjetivos, verbos y adverbios. Aunque no corresponden a clases de denotación, sino de designación, revisamos también los nombres propios más frecuentes.

Dado que la consigna entregada a los informantes contiene explícitamente los vocablos lector, lectura, libro y escrito, su presencia en el corpus, así como su elevada frecuencia, se considera motivada por la instrucción. Nos enfocamos, pues, de manera preferente, en unidades léxicas no contenidas en la consigna.

5.4.1 Sustantivos

Hay 499 vocablos en esta categoría, con un total de 1470 ocurrencias. De estos, 213 tienen Fi ≥2, con 1183 ocurrencias. A diferencia de lo que sucede con listados de Fi obtenidos a partir del análisis de corpus estratificados, el hecho de que todos los textos analizados correspondan a un mismo género discursivo, con un mismo tipo de autor y sobre un mismo tema, amén, de la no consideración de índices de dispersión, incide en que los vocablos con contenido nocional que ocupan los primeros rangos presenten alta especificidad semántica y estén fuertemente vinculados a las circunstancias de enunciación e, incluso, a las instrucciones de realización de la tarea (libro, lectura y lector). Texto es el primer sustantivo de alta especificidad que no figura en la consigna, por lo que podríamos considerarlo en rigor el sustantivo que con más frecuencia los futuros profesores asocian con la lectura. Se trata de un hiperónimo de unidades léxicas presentes en la instrucción, como “autobiografía lectora”, “tipo de lectura”, “libro” o “material escrito”.

A continuación, encontramos una serie de vocablos referidos al tiempo, desde el vocablo homónimo tiempo hasta vez, año, día, momento, periodo, etapa, instancia, noche, semana, verano, etc., que dan cuenta de que los futuros profesores reconocen instancias específicas para la lectura. Como contraparte, este reconocimiento puede funcionar como excusa para no leer, en la medida en que no todas las instancias serían propicias para esta actividad determinada fuertemente por la temporalidad.

Otros vocablos dan cuenta de los tipos de lectura evocados por los informantes: desde el más amplio, texto, hasta cuento, historia, novela, saga, artículo, entre otros. La asociación de la lectura con géneros literarios es predominante.

Los espacios que se asocian preferentemente con la lectura son instituciones formales como universidad, colegio y biblioteca (Fi total=36), que suman mayor frecuencia que casa, lo que parece contradecir la asociación entre lectura y tiempo libre que los informantes esbozan discursivamente en los mismos textos, por cuanto si la lectura se asocia preferentemente con espacios de educación formal o que cuentan con reglas y horarios fijos, no puede asociarse de manera especial con el tiempo libre.

Como agentes motivadores de la lectura, encontramos familia (Fi =11), padre / papá (Fi =12), madre / mamá (Fi =9), profesor / docente (Fi =10), amigo (Fi =4), hermano (Fi =3), tío (Fi =3) y compañero (Fi =2), lo que da cuenta de la relevancia del núcleo familiar en este ámbito (Fi=38), por sobre la figura del académico (Fi=10) o del par (Fi=6).

Resulta también de interés la alta frecuencia de unidades léxicas que dan cuenta de etapas de la vida, como niño, infancia y adolescencia, con énfasis en las dos primeras, donde los informantes anclan su vinculación con la lectura.

En la Tabla 3 se presentan los sustantivos de mayor frecuencia, con Fi ≥6.

Tabla 3. Sustantivos con Fi ≥6

Rango

vocablo

Fi

11

libro

128

18

lectura

66

26

texto

39

29

lector

29

30

tiempo

28

34

vez

25

37

cuento

23

40

año

22

48

día

18

49

momento

18

53

gusto

17

54

universidad

17

57

cosa

16

62

historia

15

77

mundo

13

80

colegio

12

83

tipo

12

86

familia

11

88

novela

11

91

persona

11

95

vida

11

97

casa

10

101

niño

10

109

infancia

9

110

internet

9

112

padre

9

118

tema

9

122

contenido

8

125

educación

8

127

forma

8

129

interés

8

131

profesor

8

133

recuerdo

8

139

biblioteca

7

152

página

7

154

parte

7

156

saga

7

161

artículo

6

162

atención

6

168

hábito

6

171

madre

6

175

obligación

6

176

palabra

6

178

prueba

6

180

relación

6

183

sensación

6

188

temática

6

5.4.2 Adjetivos

Hay 160 vocablos, con 315 ocurrencias totales. Sólo 58 presentan Fi ≥2, con 213 ocurrencias. De ellos, nos centramos especialmente en los que tienen carácter de subjetivema (Kerbrat-Orecchioni, 1986, p. 93), donde destacan aquellos que aluden a la infancia, como pequeño e infantil (Fi=17); a la educación formal, como académico y escolar (Fi=12); a la importancia de la lectura, como bueno, importante, principal, necesario (Fi=15); al gusto de leer, como favorito, interesante, maravilloso y placentero (Fi=15); al disgusto de leer, como complejo, interminable, tedioso (Fi=6); en esta línea, llama la atención que los antónimos libre y obligatorio tengan idéntica Fi=5.

La Tabla 4 contiene los adjetivos más frecuentes, con Fi ≥5.

Tabla 4. Adjetivos con Fi ≥5

Rango

Vocablo

Fi

63

mismo

15

107

gran

9

114

pequeño

9

128

infantil

8

136

académico

7

149

lector

7

159

anterior

6

174

nuevo

6

200

escolar

5

203

favorito

5

206

interesante

5

207

libre

5

212

obligatorio

5

5.4.3 Verbos

En esta categoría hay 330 vocablos, con 1438 ocurrencias. De ellos, 150 presentan Fi ≥2, con 1258 ocurrencias. Si descartamos los verbos auxiliares y semiauxiliares y dejamos sólo los modales, nos quedamos con sólo 147 verbos con 1077 ocurrencias.

Resulta llamativo que el primer verbo de alta especificidad semántica del listado, descontado leer, cuya aparición en el rango 1 se explica por la presencia de palabras de la misma familia léxica en la consigna, sea comprar; la asociación de compra y lectura (fi=17) parece dar cuenta de una relación de dependencia, donde la posibilidad de leer se percibe como supeditada a la posibilidad de comprar y, por ende, a la capacidad económica, lo que se ve refrendado por la aparición de económico en el listado de adjetivos (cf. 5.4.2) y por la de tener (que no destacamos inicialmente por su menor especificidad semántica), poseer, regalar y gastar en el de verbos. Esta percepción, no se condice, sin embargo, con el hecho de que los espacios más asociados con la lectura sean las bibliotecas e instituciones educativas (cf. 5.4.1), donde la lectura no depende del poder adquisitivo; de hecho, prestar sólo tiene Fi=2.

En la Tabla 5 es posible revisar los verbos más frecuentes, con Fi ≥12.

Tabla 5. Verbos con Fi ≥11

Rango

Vocablo

Fi

8

leer

170

19

tener

61

28

poder

32

31

gustar

27

33

hacer

25

35

ir

24

43

comenzar

21

51

comprar

17

56

conocer

16

58

deber

16

60

buscar

15

64

recordar

15

67

encontrar

14

69

llegar

14

72

terminar

14

74

volver

14

75

aprender

13

79

ver

13

81

considerar

12

82

crear

12

5.4.4 Adverbios

En esta categoría hay 104 vocablos con un total de 447 ocurrencias. De estos, 50 vocablos tienen Fi ≥2, con 393 ocurrencias. Si nos centramos en los subjetivemas, abundan los adverbios de tiempo, como siempre, luego, nunca, ahora, antes, hoy, nuevamente, aún, después, finalmente, actualmente, a veces, constantemente, generalmente, posteriormente, anteriormente, a diario, jamás, tarde, todavía y usualmente.

Los adverbios más frecuentes, con Fi ≥6, se presentan en la Tabla 6.

Tabla 6. Adverbios con Fi ≥6

Rango

vocablo

Fi

15

no

78

23

más

46

39

siempre

23

59

también

16

71

muy

14

76

menos

13

84

así

11

87

luego

11

89

nunca

11

96

además

10

103

ya

10

111

mucho

9

117

sólo

9

119

ahora

8

121

bien

8

160

antes

6

169

hoy

6

173

nuevamente

6

186

tan

6

187

tanto

6

5.4.5 Nombres propios

El corpus presenta 159 ocurrencias de nombres propios o unidades de designación. En esta categoría, sólo siete vocablos tienen Fi ≥2, lo que da cuenta de la amplia dispersión de resultados; dos corresponden a nombres o apellidos de escritores (C.S. Lewis y Kafka) y cuatro a títulos de libros o sagas (Crespúsculo, El mundo de Sofía, El principito y Harry Potter). Todos presentan Fi=2, excepto El Principito con Fi=4.

6. Conclusiones

Puesto que el análisis lexicoestadístico y lexicosemántico de este corpus de relatos de vida lectora ha resultado provechoso para los propósitos de esta investigación, estimamos que este tipo de género discursivo puede ser, en efecto, una herramienta útil para acceder a los estereotipos sobre la lectura de los hablantes. Para poder realizar un análisis estadístico inferencial, sería conveniente tomar nuevos datos, para ampliar y estratificar sociolingüísticamente el corpus, de modo de permitir comparaciones que enriquezcan los análisis y que, además, arrojen resultados que puedan extrapolarse al universo en estudio.

Pese al carácter exploratorio de este trabajo, se han obtenido resultados que se perfilan con interesantes proyecciones. Entre ellos, destacan:

- Los cien vocablos de mayor frecuencia, con una R=65,57995%.

- La curva de cobertura acelerada, más parecida a la de corpus orales que a la esperable en corpus escritos.

- La determinación de la riqueza léxica, semejante a la de textos técnicos y científicos en lo relativo al intervalo de vocablos con contenido nocional.

- La asociación preferente de la lectura con géneros literarios.

- Las asociaciones contradictorias de lectura con tiempo libre, con dinero y con placer, pero a su vez con obligatoriedad, tedio, bibliotecas e instituciones educativas.

- La consideración de la familia como promotora principal de la lectura, en detrimento de profesores y pares.

En investigaciones futuras, consideramos relevante comparar corpus de relatos de vida lectora estratificados por carrera, curso, nivel socioeconómico, sexo y edad, entre otras variables. También nos resulta de interés realizar un estudio contrastivo de los resultados obtenidos del análisis lexicoestadístico y lexicosemántico con otro centrado específicamente en estrategias discursivas, para indagar en posibles contradicciones entre los niveles léxico-semántico y discursivo y profundizar en los mecanismos empleados por los hablantes para resolver estas posibles contradicciones en sus textos.

Agradecimientos y financiamiento

Este trabajo se desarrolló en el marco del Proyecto Fondecyt Regular nº 1170779.

Agradecemos la colaboración de Carla Muñoz, quien gestionó la recolección de los relatos de vida lectora y comentó el primer borrador de este artículo, y la de José Alejandro Martínez Lara, quien realizó valiosos comentarios a una de las últimas versiones de este trabajo.

Referencias bibliográficas

Ávila, A. M. (1998). Elaboración, anotación y análisis del corpus oral del Proyecto V.U.M. Málaga: Universidad de Málaga, Departamento de Filología Griega, Estudios Árabes y Traducción e Interpretación, Área de Lingüística General

Bajtín, M. (1986). Problemas de la poética de Dostoievski. México: F. C. E.

Bajtín, M. (2005). El problema de los géneros discursivos. En Estética de la creación verbal (pp. 248-293). Buenos Aires: Siglo XXI Editores.

Bazerman, C. (1994). Systems of genre and the enactment of social intentions. En A. Freedman & P. Medway (Eds.), Genre and the new rhetoric (pp. 79-99). London: Taylor & Francis.

Bazerman, C. (2012). Actos de habla, géneros y sistemas de actividades: de qué manera los textos organizan las actividades y los grupos sociales. En C. Bazerman (Ed.), Géneros textuales, tipificación y actividad (pp. 122-161). Puebla: Benemérita Universidad Autónoma de Puebla.

Bazerman, C. (2013). A rhetoric of literate action: Literate action Volume I. Fort Collins: The WAC Clearinghouse & Parlor Press.

Bazerman, C. (2015). Teoria da ação letrada. Tradução e adaptação de Milton Camargo Mota et al. São Paulo: Parábola.

Bazerman, C., Little, J., Bethel, L., Chavkin, T., Fouquette, D. & Garufis, J. (2016). Escribir a través del Currículum. Una guía de referencia. Córdoba: Universidad Nacional de Córdoba.

Beke, R. (2011). Las voces de los otros en el discurso académico. Caracas: Universidad Central de Venezuela.

Bosque, I. (2001). Bases para un diccionario de restricciones léxicas. Moenia, 7, 11-52.

Castillo Fadić. (2012a). Corpus Básico del Español de Chile ©.

Castillo Fadić. (2012b). Léxico Básico del Español de Chile. Tesis para optar al grado de doctora, Universidad de Valladolid, España.

Castillo Fadić. (2020, en prensa). Léxico Basico del Español de Chile. Liberalia Ediciones. Fondo del Libro y la Lectura.

Germain, C. (1993). Évolution de l’enseignement des langues : 5000 ans d’histoire. Paris: CLE International.

Haché de Yunén, A. M. (1991). Aportes de las pruebas de riqueza léxica a la enseñanza de la lengua materna. En H. López Morales (Ed.), La enseñanza del español como lengua materna (pp. 49-60). Río Piedras: Universidad de Puerto Rico.

Izquierdo Gil, M. (2005). La selección del léxico en la enseñanza del español como lengua extranjera. Málaga: ASELE, Colección Monografías n° 8.

Juilland, A., & Chang-Rodríguez, E. (1964). Frequency Dictionary of Spanish Words, The Romance Languages and their Structures, First Series SI. La Haya: Mouton.

Jarpa Azagra, M., & Becerra Rojas, N. (2019). Escritura para la reflexión pedagógica: concepciones y géneros discursivos que escriben los estudiantes en dos carreras de pedagogía. Logos: Revista de Lingüística, Filosofía y Literatura, 29(2), 364-381.

Kerbrat-Orecchioni, C. (1986). La enunciación. De la subjetividad en el lenguaje. Buenos Aires: Hachette.

Lara, L. F. (2001). Ensayos de teoría semántica: lengua natural y lenguajes científicos. México: El Colegio de México.

Lara, L. F. (2004). De la definición lexicográfica. México: El Colegio de México.

López Morales, H. (1973). Disponibilidad léxica de los escolares de San Juan. MS inédito.

López Morales, H. (1984). La enseñanza de la lengua materna. Madrid: Playor.

López Morales, H. (1999). Léxico disponible del español de Puerto Rico. Madrid: Arco Libros.

López Morales, H. (2011). Los índices de ‘riqueza léxica’ y la enseñanza de lenguas. En J. de Santiago Guervós, H. Bongaerts, J. J. Sanchez Iglesias & M. Seseña Gomez (Eds.), Del texto a la lengua: La aplicación de los textos a la enseñanza-aprendizaje del español L2-LE (pp. 15-28). Salamanca: Asociación para la Enseñanza del Español como Lengua Extranjera.

Lorán, R. & López Morales, H. (1983). Nouveau calcul de l’indice de disponibilité. MS.

Munita, F. (2017). Yo, lector: los relatos de vida lectora en la construcción del sujeto didáctico. Cronía, 17(13), 1-9.

Parodi, G. (2008). Géneros del discurso escrito: Hacia una concepción integral desde una perspectiva sociocognitiva. En G. Parodi (Ed.), Géneros académicos y géneros profesionales: Accesos discursivos para saber y hacer (pp. 17-38). Pontificia Universidad Católica de Valparaíso.

Parrado, M.ª M., Romero, M. F. & Trigo, E. (2018). La experiencia literaria en la formación de futuros docentes: el viaje iniciático de nuestras biografías en 10 hashtag. En V. Amar (Ed.), Miradas y voces de futuros maestros (pp. 59-86), Barcelona: Octaedro.

Rodríguez Bou, I. (1952a). Recuento de vocabulario español (Vol. I). Río Piedras, Puerto Rico: Consejo Superior de Enseñanza, Universidad de Puerto Rico, Publicaciones Pedagógicas.

Rodríguez Bou, I. (1952b). Recuento de vocabulario español (Vols. II, Partes I y II). Río Piedras, Puerto Rico: Consejo Superior de Enseñanza, Universidad de Puerto Rico, Publicaciones Pedagógicas.

Romero, M. F. & Trigo, E. (2018). Entre las creencias y la formación inicial de los estudiantes del máster de profesorado de secundaria: una mirada hacia la enseñanza de la literatura en las aulas. Profesorado. Revista de Curriculum y formación del profesorado 22(1), 89-112.

Santos Díaz, I. C. (2017a). Selección del léxico disponible: propuesta metodológica con fines didácticos. Porta Linguarum, 27, 122-139.

Santos Díaz, I. C. (2017b). Organización de las palabras en la mente en lengua materna y lengua extranjera (inglés y francés). Pragmalingüística, 25, 603-617.

Trigo, E., Romero, M. F. & Santos Díaz I. C. (2019). Aproximación al léxico gastronómico dialectal andaluz desde los repertorios de disponibilidad léxica para una propuesta didáctica. Verba Hispánica, 27, 115-130.

Notas

1. El programa LexBas 1.0 fue desarrollado en España ad hoc para la obtención del Léxico Básico del Español de Chile (Castillo Fadić, 2012b y 2020) gracias a las gestiones y financiamiento de Humberto López Morales, a quien agradecemos por haber autorizado el empleo del software en esta investigación.