Capítulo 5. Análisis semántico

Se compone de un conjunto de rutinas independientes, llamadas por los analizadores morfológico y sintáctico.

El análisis semántico utiliza como entrada el árbol sintáctico detectado por el análisis sintáctico para comprobar restricciones de tipo y otras limitaciones semánticas y preparar la generación de código.

En compiladores de un solo paso, las llamadas a las rutinas semánticas se realizan directamente desde el analizador sintáctico y son dichas rutinas las que llaman al generador de código. El instrumento más utilizado para conseguirlo es la gramática de atributos.

En compiladores de dos o más pasos, el análisis semántico se realiza independientemente de la generación de código, pasándose información a través de un archivo intermedio, que normalmente contiene información sobre el árbol sintáctico en forma linealizada (para facilitar su manejo y hacer posible su almacenamiento en memoria auxiliar).

En cualquier caso, las rutinas semánticas suelen hacer uso de una pila (la pila semántica) que contiene la información semántica asociada a los operandos (y a veces a los operadores) en forma de registros semánticos.

Propagación de atributos

Sea la expresión

    int a,b,c;
    a/(b+c^2)

El árbol sintáctico es:

          /
      ---------
      |       |
      a       +
          ---------
          |       |
          b       ^
              ---------
              |       |
              c       2

De la instrucción declarativa, la tabla de símbolos y el analizador morfológico obtenemos los atributos de los operandos:

          /
      ---------
      |       |
      a       +
     int  ---------
          |       |
          b       ^
         int  ---------
              |       |
              c       2
             int     int

Propagando los atributos obtenemos:

          / int
      ---------
      |       |
      a       + int
     int  ---------
          |       |
          b       ^ int
         int  ---------
              |       |
              c       2
             int     int

Si la expresión hubiera sido

    a/(b+c^-2)

El árbol sintáctico sería el mismo, sustituyendo 2 por -2. Sin embargo, la propagación de atributos sería diferente:

          / real
      ---------
      |       |
      a       + real
     int  ---------
          |       |
          b       ^ real
         int  ---------
              |       |
              c      -2
             int     int

En algún caso podría llegar a producirse error (p.e. si / representara sólo la división entera).

Si la expresión hubiera sido

    int a,b,c,d;
    a/(b+c^d)

El árbol sintáctico sería el mismo, sustituyendo 2 por d. Sin embargo, la propagación de atributos sería incompleta:

          / {int,real}
      ---------
      |       |
      a       + {int,real}
     int  ---------
          |       |
          b       ^ {int,real}
         int  ---------
              |       |
              c       d
             int     int

El analizador semántico podría reducir los tipos inseguros al tipo máximo (real) o utilizar un tipo interno nuevo (ej. arit={int,real}, una unión).

Lo anterior es un ejemplo de propagación bottom-up. La propagación top-down también es posible: lo que se transmite son las restricciones y los tipos de las hojas sirven de comprobación. Por ejemplo, si la división sólo puede ser entera, transmitimos hacia abajo la restricción de que sus operandos sólo pueden ser enteros. Al llegar a d, esa restricción se convierte en que d debe ser positiva. Si no lo es, error.

La implantación de todos los casos posibles de operación con tipos mixtos podría ser excesivamente cara. En su lugar, se parte de operaciones relativamente simples (ej. int+int, real+real) y no se implementan las restantes (ej. int+real, real+int), añadiendo en su lugar operaciones monádicas de cambio de tipo (ej. int->real).

Esta decisión puede introducir ambigüedades. Por ejemplo, sea el programa

    real a;
    int b,c;
    a:=b+c

El árbol sintáctico es:

          :=
      ---------
      |       |
      a       +
    real  ---------
          |       |
          b       c
         int     int

Existen dos conversiones posibles:

          := real                     := real
      ---------                   ---------
      |       |                   |       |
      a       + real              a       + int
    real  ---------             real  ---------
          |       |                   |       |
          b       c                   b       c
         int     int                 int     int

El problema es que no tenemos garantía de que los dos procedimientos sean equivalentes. El segundo puede dar overflow, el primero pérdida de precisión. La definición del lenguaje debe especificar estos casos.

Las transformaciones posibles se pueden representar mediante un grafo cuyos nodos son los tipos de datos y cada arco indica una transformación. Dado un operando de tipo A que se desea convertir al tipo B, se trata de encontrar una cadena de arcos que pase de A a B en el grafo anterior. Podría haber varios grafos, cada uno de los cuales se aplicará en diferentes condiciones, por ejemplo, uno para las asignaciones, otro para las expresiones, etc.

Gramática de atributos

Es una extensión de la notación de Backus que consiste en introducir en las reglas sintácticas ciertos símbolos adicionales no sintácticos (símbolos de acción) que, en definitiva, se reducen a llamadas implícitas o explícitas a rutinas semánticas.

Por ejemplo: sea la gramática simplificada que analiza las instrucciones de asignación:

  <AsSt> ::= id #PId := <Exp> #RAs
  <Exp>  ::= <Exp> + <T> #RS | <T>
  <T>    ::= id #PId | Ct #PCt

Se observará que hemos hecho uso de cuatro símbolos de acción:

En los analizadores sintácticos top-down basados en gramáticas LL(1), la introducción de los símbolos de acción en las rutinas correspondientes es trivial. En los analizadores bottom-up basados en gramáticas SLR(1) es más delicado, pues los estados del análisis se mueven simultáneamente sobre varias reglas. Sólo en el momento de realizar una reducción sabemos exactamente dónde estamos. Por ello, se suele introducir la restricción de que los símbolos de acción deben estar situados únicamente al final de una regla. Cuando no se cumple esto (como en el ejemplo anterior) es trivial conseguirlo, introduciendo símbolos no terminales adicionales. Algunos generadores de analizadores sintácticos (como YACC) lo realizan automáticamente. En nuestro ejemplo, quedaría:

  <AsSt> ::= <ASPI> := <Exp> #RAs
  <ASPI> ::= id #PId
  <Exp>  ::= <Exp> + <T> #RS | <T>
  <T>    ::= id #PId | Ct #PCt

Poner un ejemplo del análisis sintáctico-semántico bottom-up de la instrucción A := B + 1.

Otro ejemplo: instrucciones condicionales con las reglas

    <Instr> ::= If <Expr> #S2 then <Instr> #S1 |
                If <Expr> #S2 then <Instr> else #S3 <Instr> #S1

Más adelante se verá cuáles son las tres acciones semánticas. Para que todas queden al final de una regla, basta cambiar estas reglas por:

    <Instr> ::= If <Expr1> then <Instr> #S1 |
                If <Expr1> then <Instr> <Else> <Instr> #S1
    <Expr1> ::= <Expr> #S2
    <Else>  ::= else #S3

Generación de representaciones intermedias

Existen dos representaciones intermedias principales:

Los operadores diádicos (o binarios) pueden especificarse mediante tres notaciones principales:

En los lenguajes de programación clásicos, los operadores diádicos se representan usualmente en notación infija. La notación prefija permite al operador influir sobre la manera en que se procesan sus operandos, pero a cambio suele exigir mucha más memoria. La sufija no permite esa influencia, pero es óptima en proceso de memoria y permite eliminar el procesado de los paréntesis.

Los operadores monádicos sólo pueden presentarse en notación prefija o sufija.

Además, un árbol sintáctico puede representarse en forma de tuplas de n elementos, de la forma (operador, operando-1, ..., operando-k, nombre). Las tuplas pueden tener longitud variable o fija (con operandos nulos). Las más típicas son las cuádruplas, aunque éstas pueden representarse también en forma de tripletes.

Notación sufija

Llamada también postfija o polaca inversa, se usa para representar expresiones sin necesidad de paréntesis.

Ejemplos:

   a*b          ab*
   a*(b+c/d)    abcd/+*
   a*b+c*d      ab*cd*+

Los identificadores aparecen en el mismo orden. Los operadores en el de evaluación (de izquierda a derecha).

Problema: operadores monádicos (unarios). O bien se transforman en diádicos (binarios) o se cambia el símbolo.

Ejemplo: -a se convierte en 0-a o en @a

   a*(-b+c/d)   ab@cd/+*

Existen dos problemas principales:

Rutina semántica para transformar de infijo a sufijo

Si el analizador sintáctico es bottom-up, hacemos la siguiente suposición: "Cuando aparece un no terminal V en el asidero, la cadena polaca correspondiente a la subcadena que se redujo a V ya ha sido generada".

Se utiliza una pila donde se genera la salida, inicialmente vacía. Las acciones semánticas asociadas a las reglas son:

  E ::= E + T           Push +
  E ::= E - T           Push -
  E ::= T
  T ::= T * F           Push *
  T ::= T / F           Push /
  T ::= F
  F ::= i               Push i
  F ::= (E)
  F ::= - F             Push @

Análisis de la notación sufija

La gramática completa que permite analizar la notación sufija es:

  <Operando> ::= id |
                 cte |
                 <Operando> <Operando> <Operador diádico> |
                 <Operando> <Operador monádico>
  <Operador diádico> ::= + | - | * | / | ...
  <Operador monádico> ::= @ | ...

Algoritmo de evaluación de una expresión en notación sufija que utiliza una pila:

Ejemplo: calcular ab@cd/+*.

Extensión de la notación sufija a otros operadores

Cuádruplas

Una operación diádica se puede representar mediante la cuádrupla

  (<Operador>, <Operando1>, <Operando2>, <Resultado>)

Ejemplo:

  (*,A,B,T)

Una expresión se puede representar mediante un conjunto de cuádruplas. Ejemplo: la expresión a*b+c*d equivale a:

  (*,a,b,t1)
  (*,c,d,t2)
  (+,t1,t2,t3)

Ejemplo: la expresión c:=a[i;b[j]] equivale a:

  (*,i,d1,t1)
  (+,t1,b[j],t2)
  (:=,a[t2],,c)

Tripletes

No se pone el resultado, se sustituye por referencias a tripletes. Por ejemplo: la expresión a*b+c*d equivale a:

  (1) (*,a,b)
  (2) (*,c,d)
  (3) (+,(1),(2))
mientras que a*b+1 equivale a:
  (1) (*,a,b)
  (2) (*,(1),1)

Tripletes indirectos: se numeran arbitrariamente los tripletes y se da el orden de ejecución. Ejemplo, sean las instrucciones:

  a := b*c
  b := b*c
Equivalen a los tripletes
  (1) (*,b,c)
  (2) (:=,(1),a)
  (3) (:=,(1),b)
y el orden de ejecución es (1),(2),(1),(3). Esta forma es útil para preparar la optimización de código. Si hay que alterar el orden de las operaciones o eliminar alguna, es más fácil hacerlo ahí.

Generación automática de cuádruplas

En un análisis bottom-up, asociamos a cada símbolo no terminal una información semántica, y a cada regla de producción una acción semántica. Ejemplo, sea la gramática

  E ::= E + T
  E ::= E - T
  E ::= T
  T ::= T * F
  T ::= T / F
  T ::= F
  F ::= i
  F ::= (E)
  F ::= -F

La regla F::=i asocia a F como información semántica el identificador concreto.

La regla F::=(E) asocia a F como información semántica la información semántica asociada a E.

La regla U::=V asocia a U como información semántica la información semántica asociada a V.

La regla U::=VoW analiza la compatibilidad de los operandos, crea la cuádrupla (o,Sem(V),Sem(W),Ti) y asocia a U la información semántica Ti.

La regla U::=oV crea la cuádrupla (o,Sem(V),,Ti) y asocia a U la información semántica Ti.

La información semántica se suele almacenar en otra pila paralela.

Ejemplo: análisis de a*(b+c)

  Pila             Entrada         Regla        Cuádrupla
  -----------      -------------   ------------ ---------
  |                a*(b+c)|
  |a               *(b+c)|         F::=i
  |F(a)            *(b+c)|         T::=F
  |T(a)            *(b+c)|
  |T(a)*           (b+c)|
  |T(a)*(          b+c)|
  |T(a)*(b         +c)|            F::=i
  |T(a)*(F(b)      +c)|            T::=F
  |T(a)*(T(b)      +c)|            E::=T
  |T(a)*(E(b)      +c)|
  |T(a)*(E(b)+     c)|
  |T(a)*(E(b)+c    )|              F::=i
  |T(a)*(E(b)+F(c) )|              T::=F
  |T(a)*(E(b)+T(c) )|              E::=E+T
  |T(a)*(E(b)+T(c) )|              E::=E+T      (+,b,c,T1)
  |T(a)*(E(T1)     )|
  |T(a)*(E(T1))    |               F::=(E)
  |T(a)*F(T1)      |               T::=T*F      (*,a,T1,T2)
  |T(T2)           |               E::=T
  |E(T2)           |

Ejemplo de generación de cuádruplas en análisis top-down

  unsigned int E (char *cadena, unsigned int i)
  {
    if (i<0) return i;
    switch (cadena[i]) {
      case 'i':
        push (id);
        i++;
        i = V (cadena, i);
        break;
      case '(':
        i++;
        i = E (cadena, i);
        i = C (cadena, i);
        i = V (cadena, i);
        break;
      default: return -1;
        }
    return i;
  }

  unsigned int V (char *cadena, unsigned int i)
  {
    unsigned int j;
    if (i<0) return i;
    switch (cadena[i]) {
      case '*':
      case '/':
        j = i;
        i++;
        i = T (cadena, i);
        cuad (cadena[j], pop(), pop(), gen(Ti));
        push (Ti);
        i = X (cadena, i);
        break;
      case '+':
      case '-':
        j = i;
        i++;
        i = E (cadena, i);
        cuad (cadena[j], pop(), pop(), gen(Ti));
        push (Ti);
        break;
        }
    return i;
  }

  unsigned int X (char *cadena, unsigned int i)
  {
    unsigned int j;
    if (i<0) return i;
    switch (cadena[i]) {
      case '+':
      case '-':
        j = i;
        i++;
        i = E (cadena, i);
        cuad (cadena[j], pop(), pop(), gen(Ti));
        push (Ti);
        break;
        }
    return i;
  }

  unsigned int T (char *cadena, unsigned int i)
  {
    if (i<0) return i;
    switch (cadena[i]) {
      case 'i':
        push (id);
        i++;
        i = U (cadena, i);
        break;
      case '(':
        i++;
        i = E (cadena, i);
        i = C (cadena, i);
        i = U (cadena, i);
        break;
      default: return -2;
        }
    return i;
  }

  unsigned int U (char *cadena, unsigned int i)
  {
    if (i<0) return i;
    unsigned int j;
    switch (cadena[i]) {
      case '*':
      case '/':
        j = i;
        i++;
        i = T (cadena, i);
        cuad (cadena[j], pop(), pop(), gen(Ti));
        push (Ti);
        break;
        }
    return i;
  }

  unsigned int F (char *cadena, unsigned int i)
  {
    if (i<0) return i;
    switch (cadena[i]) {
      case 'i':
        push (id);
        i++;
        break;
      case '(':
        i++;
        i = E (cadena, i);
        i = C (cadena, i);
        break;
      default: return -3;
        }
    return i;
  }

  unsigned int C (char *cadena, unsigned int i)
  {
    if (i<0) return i;
    switch (cadena[i]) {
      case ')':
        i++;
        break;
      default: return -4;
        }
    return i;
  }

Semántica de instrucciones condicionales

Sean las reglas

    <Instr> ::= If <Expr> S2 then <Instr> S1 |
                If <Expr> S2 then <Instr> else S3 <Instr> S1

Una secuencia de cuádruplas equivalente a "If E1 then I1 else I2"

 (p-1)  (?,?,?,t1)         Análisis de E1
 (p)    (TRZ,(q+1),t1,)    S2: Crear cuádrupla (p) | Push p
        ...                Análisis de I1
 (q)    (TR,(r),,)         S3: Crear cuádrupla (q)
                               Poner (cl.sig.) en top | Pop
                               Push (q)
 (q+1)  ...                Análisis de I2
 (r)                       S1: Poner (cl.sig.) en top | Pop

Una secuencia de cuádruplas equivalente a "If E1 then I1"

 (p-1)  (?,?,?,t1)         Análisis de E1
 (p)    (TRZ,(r),t1,)      S2: Crear cuádrupla (p) | Push p
        ...                Análisis de I1
 (r)                       S1: Poner (cl.sig.) en top | Pop

Al generar la cuádrupla (p) no conocemos el valor de (q). Guardamos en una pila el número de la cuádrupla asociada y lo rellenamos más tarde, como indican los ejemplos.

Semántica de etiquetas y GOTO

Suponemos que las etiquetas aparecen en la tabla de símbolos con tres valores asociados: (tipo=etiqueta, bit=declarada/no declarada, número de cuádrupla).

Sea la regla

    <Instr> ::= id : <Instr>

Semántica asociada:

  {
  Buscar id en la tabla de símbolos;
  if (no está)
    Insertar id,valor=(etiqueta, declarada, cuádrupla siguiente);
  else {
    if (tipo==etiqueta && bit==no declarada) {
      i=número de cuádrupla;
      while (i) {
        j=cuádrupla[i][2];
        cuádrupla[i][2]=cuádrupla siguiente;
        i=j;
        }
      Cambiar valor a (etiqueta, declarada, cuádrupla siguiente);
      }
    else error();
    }
  }

Sea la regla

    <Instr> ::= GOTO id

Semántica asociada:

  {
  Buscar id en la tabla de símbolos;
  if (no está) {
    Insertar id,valor=(etiqueta, no declarada, cuádr.siguiente);
    Generar cuádrupla (TR,,,);
    }
  else {
    if (tipo==etiqueta) {
      if (bit==declarada)
        Generar cuádrupla (TR,número de cuádrupla,,);
      else if (bit==no declarada) {
        i=número de cuádrupla;
        Cambiar valor a (etiqueta, no declarada, cuádr.siguiente);
        Generar cuádrupla (TR,i,,);
        }
      }
    else error();
    }
  }

Si se permiten etiquetas locales a bloques, podemos encontrar el siguiente caso:

    L:  ...
        {
          ...
          GOTO L;
          ...

Tenemos ambigüedad: GOTO L puede ir a la etiqueta externa (ya definida o no) o a una etiqueta local al bloque posterior a la instrucción. Tenemos tres posibilidades:

Semántica de bloques

Sean las reglas

    <Instr> ::= do <id> := <Expr> S1
                , <Expr> S2
                <CD1> <LInstr> end S5
    <CD1>   ::= , <Expr> S3 | ^ S4

Semántica asociada al análisis de "do x:=n1,n2,n3; I1; I2; end":

Además, S4:

    Generar cuádrupla (:=,x,1,x).
    Generar cuádrupla (TR,(i),,).
    Hacer cuádrupla[j+1][2]=cuádrupla siguiente.

Evaluación óptima de las expresiones booleanas

Las operaciones booleanas usualmente se definen así:

   O | T  F   Y | T  F   NO| T  F
   --|-----   --|-----   --|-----
   T | T  T   T | T  F     | F  T
   F | T  F   F | F  F
y la sintaxis adecuada para que la precedencia sea: NO, Y, O. Sin embargo, es posible simplificarlas considerablemente. Basta fijarse en la expresión
   a Y (b O NO c)

Si a es falso, no hace falta calcular el paréntesis, sabemos que el resultado es falso. Por tanto, redefiniremos la sintaxis y la semántica así:

  <ZB> ::= <EB>
  <EB> ::= <TB> O <EB> | <TB>
  <TB> ::= <FB> Y <TB> | <FB>
  <FB> ::= i | ( <EB> ) | NO <FB>

  a O b <=> if (a) TRUE else b;
  a Y b <=> if (a) b else FALSE;
  NO a  <=> if (a) FALSE else TRUE;

Análisis top-down

El programa queda:

  void ZB (char *cadena)
  {
    int FL=0, TL=0, i;
    cuad (":=", "T", NULL, x);
    i = EB (cadena, 0, &FL, &TL);
    FILL (FL);
    cuad (":=", "F", 0, x);
    FILL (TL);
  }

  unsigned int EB (char *cadena, unsigned int i, int *FL, int *TL)
  {
    int tl=0;
    i = TB (cadena, i, FL, &tl);
    MERGE (TL, tl);
    if (i<strlen(cadena)) switch (cadena[i]) {
      case 'O':
        i++;
        FILL (*FL);
        *FL = 0;
        i = EB (cadena, i, FL, TL);
        break;
      default:
        break;
        }
    return i;
  }

  unsigned int TB (char *cadena, unsigned int i, int *FL, int *TL)
  {
    int fl=0;
    i = FB (cadena, i, &fl, TL);
    MERGE (FL, fl);
    if (i<strlen(cadena)) switch (cadena[i]) {
      case 'Y':
        i++;
        FILL (*TL);
        *TL = 0;
        i = TB (cadena, i, FL, TL);
        break;
      default:
        break;
        }
    return i;
  }

  unsigned int FB (char *cadena, unsigned int i, int *FL, int *TL)
  {
    if (i<strlen(cadena)) switch (cadena[i]) {
      case 'i':
        i++;
        *TL = cuádrupla siguiente;
        *FL = - cuádrupla siguiente;
        cuad (TRB, id, 0, 0);
        break;
      case '(':
        i++;
        i = EB (cadena, i, FL, TL);
        i = C (cadena, i);
        break;
      case 'NO':
        i++;
        i = FB (cadena, i, FL, TL);
        *FL <-> *TL
        break;
      default: error (cadena, i);
        }
    else error (cadena, i);
    return i;
  }

  unsigned int C (char *cadena, unsigned int i)
  {
    if (i<strlen(cadena)) switch (cadena[i]) {
      case ')':
        i++;
        break;
      default: error (cadena, i);
        }
    else error (cadena, i);
    return i;
  }

  void FILL (int lista)
  {
    int i,j,n;
    n = lista;
    while (n) {
      if (n>0) i=2; else i=3;
      j = abs (n);
      n = cuad[j][i];
      cuad[j][i] = cuádrupla siguiente;
      }
  }

  void MERGE (int *uno, int dos)
  {
    int i,k;
    if (*uno==0) *uno = dos;
    else {
      k = *uno;
      for (;;) {
        if (k>0) i=2; else i=3;
        k = abs (k);
        if (cuad[k][i]==0) break;
        k = quad[k][i];
        }
      cuad[k][i] = dos;
      }
  }

Analicemos "a O b O NO c"

  ZB ("a O b O NO c")
    cuad (":=", "T", NULL, "X");
    i = EB ("a O b O NO c", 0, &FL, &TL);
      i = TB ("a O b O NO c", 0, FL, &tl);
        i = FB ("a O b O NO c", 0, &fl, TL);
          case id:
            i=1;
            *TL = 1;
            fl = -1;
            cuad (TRB, a, 0, 0);
        MERGE (FL, fl);
          FL = -1;
      MERGE (TL, tl);
          TL = 1;
      case 'O':
        i=2;
        FILL (FL);
          n = -1;
          while (n) {
            i = 3;
            j = 1; (abs(FL))
            n = 0; (cuad[1][3])
            cuad[1][3] = 2;
            }
        FL = 0;
        i = EB ("a O b O NO c", 2, FL, TL);
          i = TB ("a O b O NO c", 2, FL, &tl);
            i = FB ("a O b O NO c", 2, &fl, TL);
              case 'i':
                i=3;
                *TL = 2;
                *fl = -2;
                cuad (TRB, b, 0, 0);
            MERGE (FL, fl);
              FL = -2;
          MERGE (TL, tl);
            k = 1;
            for (;;) {
              i = 2;
              k = 1;
              }
              cuad[1][2] = 2;
          case 'O':
            i=4;
            FILL (FL);
              n = -2;
              while (n) {
                i = 3;
                j = 2;  (abs (n))
                n = 0;  (cuad[2][3])
                cuad[2][3] = 3;
                }
            FL = 0;
            i = EB ("a O b O NO c", 4, FL, TL);
              i = TB ("a O b O NO c", 4, FL, &tl);
                i = FB ("a O b O NO c", 4, &fl, TL);
                  case 'NO':
                    i=5;
                    i = FB ("a O b O NO c", 5, FL, TL);
                      case 'i':
                        i=6;
                        *TL = 3;
                        *FL = -3;
                        cuad (TRB, c, 0, 0);
                    FL <-> TL
                MERGE (FL, fl);
                  FL = 3;
              MERGE (TL, tl);
                k = 1;
                for (;;) {
                  i = 2;
                  k = 1;  (abs (k))
                  k = 2;  (cuad[1][2])
                  }
                cuad[2][2] = -3;
    FILL (FL);
      cuad[3][2] = 4;
    cuad (":=", "F", 0, "X");
    FILL (TL);
      cuad[1][2] = 5;
      cuad[2][2] = 5;
      cuad[3][3] = 5;

Cuádruplas obtenidas:

  0: (":=", "T",, x);
  1: ("TRB", a, 5, 2);
  2: ("TRB", b, 5, 3);
  3: ("TRB", c, 4, 5);
  4: (":=", "F",, x);
  5: