动手实现编译器(六)——实现全局变量_判定变量是否为全局变量在编译器哪一步-程序员宅基地

技术标签: 编译器  

我们在上一节中实现了对语句的编译,在这一节中,我们希望向语句中加入全局变量。实现类似以下语句:

int a;
int b;
int c;
int d;
int e;
int f;
int g;
a = 2;
b = 3;
c = 4;
d = 5;
e = 6;
f = 7;
g = 8;
print a + b * c / d % e - f + g;

这需要变量有以下功能:

  • 声明变量
  • 使用变量获取存储值
  • 给变量赋值

相关语法定义

变量声明: VarDecl → ‘int’ Ident ‘;’
变量赋值: Stmt → Ident ‘=’ IntConst ‘;’

全局变量符号表

为了实现变量,我们必须要有一张符号表,来存放变量。在本节中,只建立全局变量符号表。

#define SYMBOL_NUM   1024	// 符号表长度
// 符号表结构体
struct symtable
{
    
    char *name;			        // 符号名
};
struct symbol_table Tsym[SYMBOL_NUM];	// 全局符号表

此外,我们还要添加三个操作全局变量符号表的函数。

int Globals = 0;		// 全局符号表下一个空闲位置

// 检查符号s是否在全局符号表中。
// 返回其插槽位置或-1
int find_global(char *s)
{
    
    int i;
    for (i = 0; i < Globals; i++)
    {
    
        if (*s == *Tsym[i].name && !strcmp(s, Tsym[i].name))
        return i;
    }
    return -1;
}

// 获取新的全局符号槽的位置
int new_global()
{
    
    int p;
    if ((p = Globals++) >= SYMBOL_NUM)
    {
    
        fprintf(stderr, "Too many global symbols on line %d\n", Line);
        exit(1);
    }
    return p;
}

// 将全局变量添加到符号表,并返回符号表中的位置
int add_global(char *name)
{
    
    int y;
    // 如果已经在符号表中,则返回现有位置
    if ((y = find_global(name)) != -1)
        return (y);
    // 获得一个新的位置,并填入信息和返回位置
    y = new_global();
    Tsym[y].name = strdup(name);
    return y;
}

修改词法分析器

为了实现新加的语法功能,我们需要一些新单词类型:

  • ‘int’,称为 T_KEYINT
  • ‘=’,称为 T_EQU
  • 标识符名称,称为 T_IDENT

将‘int’加入match_keyword()函数:

        case 'i':
            if(!strcmp(s, "int"))
                return (T_KEYINT);
            break;

将"="加入scan()函数:

        case '=':   t->token = T_EQU;   break;

对于标识符,我们已经在scan_ident() 将单词存储到Text变量中了,如果变量不是关键字,那它就是标识符,返回T_IDENT。将scan()函数中的语句段

	                    printf("Unrecognised symbol %s on line %d\n", Text, Line);
	                    exit(1);

修改为

	                    t->token = T_IDENT;
                        break;

修改语句分析器

新增变量语法后,语句分析器也要进行相应的修改:

// 分析语句
void statements()
{
    
    while (1)
    {
    
        switch (Token.token)
        {
    
            case T_PRINT:   print_statement();      break;
            case T_KEYINT:  var_declaration();      break;
            case T_IDENT:   assignment_statement(); break;
            case T_EOF:     return;
            default:    fprintf(stderr, "Syntax error, token:%s on line %d\n", Token.token, Line); 
                        exit(1);
        }
    }
}

同时把原来在statement()函数中的分析打印语句的语句块函数化,生成一个新的函数。

// 分析打印语句
void print_statement()
{
    
    struct ASTnode *tree;
    int reg;
    // 匹配第一个"print"单词
    match(T_PRINT, "print");
    // 分析表达式并生成汇编代码
    tree = binexpr(0);
    reg = code_generator(tree, -1);
    arm_print_reg(reg);
    arm_freeall_registers();
    // 匹配接下来的";"
    semi();
}

声明变量

为词法分析器,添加一个声明变量的函数

// 检查当前单词是否为标识符,并获取下一个单词
void ident()
{
    
    match(T_IDENT, "identifier");
}

// decl.c

// 分析变量声明
void var_declaration()
{
    
    // 检查当前单词是否为“int”,后跟一个标识符和一个分号
    match(T_KEYINT, "int");
    ident();
    add_global(Text);
    arm_global_sym(Text);
    semi();
}

赋值功能

我们考虑下面这个式子

a = b + c;

我们计算这个式子的流程是先计算b + c,再将和赋给a。所以,在建立AST树的时候,我们要生成一个A_ASSIGN的新类型节点,表示是赋值操作,它的左孩子是表达式(a + b),右孩子是一个A_LVIDENT的新类型的节点。A_LVIDENT节点表示,该节点是左值标识符,左值是绑定到特定位置的值,在这里它是内存中保存变量值的地址。
这样做时,我们将先计算左子树的表达式值,然后赋给右子树中保存的地址得到的标识符。好处是右值不依赖于特定的位置,表达式结果可能在任意寄存器中。
修改AST节点类型为

// AST节点类型
enum
{
    
    A_ADD, A_SUB, A_MUL, A_DIV, A_MOD, A_INT, A_IDENT, A_ASSIGN, A_LVIDENT
};

现在我们需要在 A_INTLIT AST 节点中存储整数文字值,或者在 A_IDENT AST 节点中存储符号的详细信息,所以在 AST 结构中添加了一个并集以执行此操作,修改AST结构体为

// 抽象语法树结构体
struct ASTnode
{
    
    int op;				        // 节点的操作类型
    struct ASTnode *left;
    struct ASTnode *right;
    union {
    
        int intvalue;		    // 对于立即数,储存数值
        int id;			        // 对于标识符,储存符号表位置
    } v;
};

增加分析赋值语句的函数

// 分析赋值语句
void assignment_statement()
{
    
    struct ASTnode *left, *right, *tree;
    int id;
    // 检查标识符
    ident();
    // 检查它是否已定义,然后为它创建一个叶节点
    if ((id = find_global(Text)) == -1)
    {
    
        fprintf(stderr, "Undeclared variable on line %d\n", Line); 
        exit(1);
    }
    right = mkastleaf(A_LVIDENT, id);
    // 匹配等号
    match(T_EQU, "=");
    // 分析接下来的表达式
    left = binexpr(0);
    
    // 生成赋值AST树
    tree = mkastnode(A_ASSIGN, left, right, 0);
    // 生成汇编代码
    code_generator(tree, -1);
    arm_freeall_registers();
    // 匹配";"
    semi();
}

修改代码生成函数

我们首先执行左侧的AST子级,然后获取一个保存左侧子树值的寄存器号,现在我们将此寄存器号传递给右侧子树,我们需要对A_LVIDENT节点执行此操作,以便于让后面的函数知道哪个寄存器保存赋值表达式的右值结果。
代码如下:

// 给定AST,生成汇编代码,返回值为结果所在寄存器号
int code_generator(struct ASTnode *n, int reg)
{
    
    int leftreg, rightreg;
    if (n->left)    leftreg = code_generator(n->left, -1);
    if (n->right)   rightreg = code_generator(n->right, leftreg);
    switch (n->op)
    {
    
        case A_ADD:    return (arm_add(leftreg,rightreg));
        case A_SUB:    return (arm_sub(leftreg,rightreg));
        case A_MUL:    return (arm_mul(leftreg,rightreg));
        case A_DIV:    return (arm_div(leftreg,rightreg));
        case A_MOD:    return (arm_mod(leftreg,rightreg));
        case A_INT:    return (arm_load_int(n->v.intvalue));
        case A_IDENT:  return (arm_load_global(n->v.id));
        case A_LVIDENT:return (arm_stor_global(reg, n->v.id));
        case A_ASSIGN: return rightreg;
        default:    fprintf(stderr, "Unknown AST operator %d\n", n->op);
                    exit(1);
    }
}

注:这里将arm_load()修改成其他arm_load函数一样的arm_load_XXX()形式。
这里解释一下这段代码的意思,考虑以下 AST 树:

           A_ASSIGN
          /        \
       A_INT   A_LVIDENT
        (3)        (5)

我们调用leftreg = code_generator(n->left, -1); 以执行 A_INT操作,这将执行 case A_INT: return (arm_load_int(n->v.intvalue)); 即加载值为3的寄存器并返回寄存器ID。
然后我们调用 rightreg = code_generator(n->right, leftreg); 以执行A_LVIDENT操作,这将把 return (arm_load_global(Tsym[n->v.id].name)); 返回的寄存器存储到名称为Tsym[5]的变量中。
然后我们回到A_ASSIGN操作,右值仍在寄存器中,因此让它保留在那里并返回它。

表达式加载变量

我们对primary()函数进行修改,使其同时加载变量的值:

// 解析一个整数单词并返回表示它的AST节点
struct ASTnode *primary()
{
    
    struct ASTnode *n;
    int id;
    switch (Token.token)
    {
    
        // 对于整数单词,为其生成一个AST叶子节点
        case T_INT:  
            n = mkastleaf(A_INT, Token.intvalue);
            break;
        // 对于标识符,检查存在并为其生成一个AST叶子节点
        case T_IDENT:
            id = find_global(Text);
            if (id == -1)
            {
    
                fprintf(stderr, "Unknown variable %s on line %d\n", Text, Line);
                exit(1);
            }
            n = mkastleaf(A_IDENT, id);
            break;
        default:
            fprintf(stderr, "syntax error, token %s on line %d\n", Token.token, Line);
            exit(1);
    }
    // 扫描下一个单词,并返回左节点
    scan(&Token);
    return n;
}

生成汇编代码

上面已经说了,我将旧arm_load()函数的名称更改为arm_load_int(),现在我们有一个函数可以从全局变量加载值:

// 确定变量与.L2标签的偏移量
void set_var_offset(int id)
{
    
    fprintf(Outfile, "\tldr\tr3, .L2+%d\n", id * 4);
}

// 将变量中的值加载到寄存器中,并返回寄存器编号
int arm_load_global(int id)
{
    
    // 获得一个新的寄存器
    int r = arm_alloc_register();
    // 获得变量偏移地址
    set_var_offset(id);
    fprintf(Outfile, "\tldr\tr%d, [r3]\n", r);
    return r;
}

同样我们需要一个函数来将寄存器值保存到变量中:

// 将寄存器的值装载入变量
int arm_stor_global(int r, int id)
{
    
    // 获得变量偏移地址
    set_var_offset(id);
    fprintf(Outfile, "\tstr\tr%d, [r3]\n", r);
    return r;
}

我们还需要一个函数来创建新的全局整数变量:

// 生成全局变量符号表
void arm_global_sym(char *name)
{
    
    fprintf(Outfile, "\t.text\n\t.comm\t%s,4,4\n", name);
}

对应的,我们也要修改汇编尾代码函数,时期能输出全局变量表。

// 汇编尾代码
void arm_postamble()
{
    
    fputs(
        "\tmov     r3, #0\n"
        "\tmov     r0, r3\n"
        "\tpop     {fp, pc}\n"
        ".L3:\n"
        "\t.word   .LC0\n"
        "\t.size   main, .-main\n",
    Outfile);
    fprintf(Outfile, ".L2:\n");
    for (int i = 0; i < Globals; i++)
    {
    
        fprintf(Outfile, "\t.word %s\n", Tsym[i].name);
    }
}

测试结果

输入:

int a;
int b;
int c;
int d;
int e;
int f;
int g;
int h;
int i;
a = 1;
b = 4;
c = 13;
d = 11;
e = 2;
f = 0;
g = 20;
h = 1024;
i = 10;
a = a + b;
c = c - d;
e = e * f;
g = g / g;
h = h % i;
print a;
print c;
print e;
print g;
print h;
g = a + c + e + g + h;
print g;

输出(out.s):

	.text
	.global __aeabi_idiv
	.section	.rodata
	.align  2
.LC0:
	.ascii  "%d\012\000"
	.text
	.align  2
	.global main
	.type   main, %function
main:
	push    {
    fp, lr}
	add     fp, sp, #4
	.text
	.comm	a,4,4
	.text
	.comm	b,4,4
	.text
	.comm	c,4,4
	.text
	.comm	d,4,4
	.text
	.comm	e,4,4
	.text
	.comm	f,4,4
	.text
	.comm	g,4,4
	.text
	.comm	h,4,4
	.text
	.comm	i,4,4
	mov	r4, #1
	ldr	r3, .L2+0
	str	r4, [r3]
	mov	r4, #4
	ldr	r3, .L2+4
	str	r4, [r3]
	mov	r4, #13
	ldr	r3, .L2+8
	str	r4, [r3]
	mov	r4, #11
	ldr	r3, .L2+12
	str	r4, [r3]
	mov	r4, #2
	ldr	r3, .L2+16
	str	r4, [r3]
	mov	r4, #0
	ldr	r3, .L2+20
	str	r4, [r3]
	mov	r4, #20
	ldr	r3, .L2+24
	str	r4, [r3]
	mov	r4, #1024
	ldr	r3, .L2+28
	str	r4, [r3]
	mov	r4, #10
	ldr	r3, .L2+32
	str	r4, [r3]
	ldr	r3, .L2+0
	ldr	r4, [r3]
	ldr	r3, .L2+4
	ldr	r5, [r3]
	add	r4, r4, r5
	ldr	r3, .L2+0
	str	r4, [r3]
	ldr	r3, .L2+8
	ldr	r4, [r3]
	ldr	r3, .L2+12
	ldr	r5, [r3]
	sub	r4, r4, r5
	ldr	r3, .L2+8
	str	r4, [r3]
	ldr	r3, .L2+16
	ldr	r4, [r3]
	ldr	r3, .L2+20
	ldr	r5, [r3]
	mul	r4, r4, r5
	ldr	r3, .L2+16
	str	r4, [r3]
	ldr	r3, .L2+24
	ldr	r4, [r3]
	ldr	r3, .L2+24
	ldr	r5, [r3]
	mov	r0, r4
	mov	r1, r5
	bl	__aeabi_idiv
	mov	r4, r0
	ldr	r3, .L2+24
	str	r4, [r3]
	ldr	r3, .L2+28
	ldr	r4, [r3]
	ldr	r3, .L2+32
	ldr	r5, [r3]
	mov	r6, r4
	mov	r0, r6
	mov	r1, r5
	bl	__aeabi_idiv
	mov	r6, r0
	mul	r6, r6, r5
	sub	r4, r4, r6
	ldr	r3, .L2+28
	str	r4, [r3]
	ldr	r3, .L2+0
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	ldr	r3, .L2+8
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	ldr	r3, .L2+16
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	ldr	r3, .L2+24
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	ldr	r3, .L2+28
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	ldr	r3, .L2+0
	ldr	r4, [r3]
	ldr	r3, .L2+8
	ldr	r5, [r3]
	add	r4, r4, r5
	ldr	r3, .L2+16
	ldr	r5, [r3]
	add	r4, r4, r5
	ldr	r3, .L2+24
	ldr	r5, [r3]
	add	r4, r4, r5
	ldr	r3, .L2+28
	ldr	r5, [r3]
	add	r4, r4, r5
	ldr	r3, .L2+24
	str	r4, [r3]
	ldr	r3, .L2+24
	ldr	r4, [r3]
	mov     r1, r4
	ldr     r0, .L3
	bl      printf
	mov     r3, #0
	mov     r0, r3
	pop     {
    fp, pc}
.L3:
	.word   .LC0
	.size   main, .-main
.L2:
	.word a
	.word b
	.word c
	.word d
	.word e
	.word f
	.word g
	.word h
	.word i

输出(out):

5
2
0
1
4
12

总结

我们写出了符号表管理,我们处理了两种新的语句类型,我们添加了一些新单词类型的和一些新的AST节点类型,我们添加了一些代码以生成正确的汇编代码。在下一节中,我们将仿照本节的方法,添加六个比较运算符。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_34851605/article/details/117921750

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1. 串行接口是指( )。A. 接口与系统总线之间串行传送,接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送,接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送,接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送,接口与I/0设备之间并行传送【答案】C2. 最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败:Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次,点赞5次,收藏15次。连接xshell失败,报错如下图,怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了,服务器没有安装,则需要安装ssh服务器,命令:apt-get install openssh-server3、安装成功之后,启动ssh服务,命令:/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理 空白芯片 烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理 空白芯片 烧入key文件

一文读懂ChatGPT,满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初,“ChatGPT”一词在社交媒体上引起了热议,人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士,我们当然不能忽视这一热点。本文将全面解析ChatGPT,打开“技术黑箱”,探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目,所使用的开发板com1是调试串口,就是说会有uboot和kernel的调试信息打印在com1上(ttySAC0)。因为后期要使用ttySAC0作为上层应用通信串口,所以要把所有的调试信息都给去掉。参考网上的几篇文章,自己做了如下修改,终于把调试信息重定向到ttySAC1上了,在这做下记录。参考文章有:http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次,点赞4次,收藏12次。1,先去iconfont登录,然后选择图标加入购物车 2,点击又上角车车添加进入项目我的项目中就会出现选择的图标 3,点击下载至本地,然后解压文件夹,然后切换到uniapp打开终端运行注:要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools(mac用户失败的话在前面加个sudo,password就是自己的开机密码吧)4,终端切换到上面解压的文件夹里面,运行iconfont-tools 这些可以默认也可以自己命名(我是自己命名的_uniapp symbol图标

C、C++ 对于char*和char[]的理解_c++ char*-程序员宅基地

文章浏览阅读1.2w次,点赞25次,收藏192次。char*和char[]都是指针,指向第一个字符所在的地址,但char*是常量的指针,char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器,对于程序员来说,就像剑与战士一样,谁都想拥有一把可以随心驾驭且锋利无比的宝剑,而每一位程序员,同样会去追求最适合自己的强大、灵活的编辑器,相信你和我一样,都不会例外。我用过的编辑器不少,真不少~ 但却没有哪款让我特别心仪的,直到我遇到了 Sublime Text 2 !如果说“神器”是我能给予一款软件最高的评价,那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法,是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台(基于MQTT协议)其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程,但是由于自己用的4G模块自身的限制,使得阿里云连接总是无法建立,已经联系客服返厂检修了,于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档(3.1.1版本)2.网络调试助手(可使用域名与服务器建立连接)PS:与阿里云建立连解释,最好使用域名来完成连接过程,而不是使用IP号。这里我跟阿里云的售后工程师咨询过,表示对应_网络调试助手连接阿里云连不上

<<<零基础C++速成>>>_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次,点赞5次,收藏6次。运算符与表达式任何高级程序设计语言中,表达式都是最基本的组成部分,可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成