학습자료(~2017)/어셈블리어

어셈블리어 기본문법

단세포소년 2012. 8. 13. 10:11
반응형

1. 개요

마이크로컴퓨터 시스템의 구성요소가 무엇인가? 마이크로컴퓨터 시스템은 마이크로프로세서 장치(microprocessor unit, MPU), 버스 시스템, 메모리 하위시스템, 입출력 하위시스템, 모든 구성요소들간의 인터페이스로 구성된다. 전형적인 대답이다.

이는 하드웨어만을 고려한 것이다. 모든 마이크로컴퓨터 시스템은 하드웨어 구성요소들의 작업을 지시할 소프트웨어가 필요하다. 컴퓨터 소프트웨어는 시스템측(시스템 소프트웨어)과 사용자측(사용자 소프트웨어)으로 구분할 수 있다.

프로그램을 실행하기위해 필요한 함수들을 모아둔 기본 라이브러리나 사용자가 만든 라이브러리는 사용자 소프트웨어에 포함된다.

고급언어 변환기, 어셈블러, 편집기, 다른 프로그램을 만드는 작업을 돕는 프로그램들이 시스템 소프트웨어에 속한다. 우리는 이미 프로그래밍에는 기계어, 어셈블리어, 고급언어 세 단계가 있음을 안다.

기계어 프로그램은 컴퓨터가 이해하고 직접 실행할 수 있는 프로그램이다. 어셈블리어 명령어는 기계어 명령어와 보통 일대일 관계로 대응하지만, 우리가 쉽게 이해할 수 있는 문자열을 사용한다. 고급언어 명령어는 영어에 매우 가까워서 프로그래머가 생각하는 방식과 자연스럽게 대응한다. 결국 어셈블리어나 고급언어 프로그램은 변환기라는 프로그램에 의해 기계어로 변환되야 한다. 이 변환기를 각각어셈블러(assembler)컴파일러(compiler) 혹은 인터프리터(interpreter)라고 한다.

C/C++같은 고급언어의 컴파일러는 고급언어를 어셈블리코드로 변환할 수 있다. GNU C/C++ 컴파일러의 -S 옵션은 프로그램 소스에 해당하는 어셈블리코드를 생성한다. 반복, 함수 호출, 변수 선언과 같은 기본적인 구조가 어셈블리어로 어떻게 대응하는지 알면 C 내부를 이해하기 쉽다. 이 글을 이해하기위해서는 컴퓨터구조와 Intel x86 어셈블리어에 익숙해야 한다.

2. 시작

먼저 hello world를 출력하는 간단한 C 프로그램을 작성하고, -S 옵션으로 컴파일한다. 입력파일에 대한 어셈블리코드를 얻을 수 있다. GCC는 기본적으로 확장자 `.c'를 `.s'로 변경하여 어셈블러파일명을 짓는다. 어셈블러파일 끝의 몇줄을 해석해보자.

80386 이상 프로세서에는 많은 레지스터와 명령어, 주소지정방법이 있다. 그러나 간단한 명령어 몇개만 좀 알아도 GNU 컴파일러가 만드는 코드를 충분히 이해할 수 있다.

일반적으로 어셈블리어 명령어는 라벨(label)연상기호(mnemonic)연산수(operand)로 구성된다. 연산수 표시방법에서 연산수의 주소지정방식을 알 수 있다. 연상기호는 연산수에 저장된 정보에 작업을 한다. 사실 어셈블리어 명령어는 레지스터와 메모리위치에 작업을 한다. 80386계열은 eaxebxecx등의 (32비트) 범용레지스터를 가진다. 두 레지스터, ebp와 esp는 스택을 조작할때 사용한다. GNU Assembler (GAS) 문법으로 작성한 전형적인 명령어는 다음과 같다:

movl $10, %eax

이 명령어는 eax 레지스터에 값 10을 저장한다. 레지스터명 앞의 `%'와 직접값(immediate value) 앞의 '$'는 필수 어셈블러 문법이다. 모든 어셈블러가 이런 문법을 따르는 것은 아니다.

목록 1은 first.s 파일에 저장한 우리의 첫번째 어셈블리어 프로그램이다.

#목록 1
.globl main
main:
  movl $20, %eax
  ret

cc first.s 명령어를 실행하면 이 파일을 어셈블하고 링크하여 a.out을 만든다. GNU 컴파일러 앞단cc가 `.s' 확장자를 어셈블리어 파일로 인식하여, 컴파일단계를 생략하고 어셈블러와 링커를 부른다.

프로그램의 첫번째 줄은 주석이다. 어셈블러 지시어 .globl은 심볼 main을 링커가 볼 수 있도록 만든다. 그래야 main을 호출하는 C 시작라이브러리를 프로그램과 같이 링크하므로 중요하다. 이 줄이 없다면 링커는 'undefined reference to symbol main' (심볼 main에 대한 참조가 정의되지않음)을 출력한다 (한번 해봐라). 프로그램은 단순히 레지스터 eax에 값 20을 저장하고 호출자에게 반환한다.

3. 산술계산, 비교, 반복

다음 목록 2 프로그램은 eax에 저장된 값의 계승(factorial)을 계산한다. 결과를 ebx에 저장한다.

#목록 2
.globl main
main: 
	movl $5, %eax
	movl $1, %ebx
L1:	cmpl $0, %eax		//eax에 저장된 값과 0을 비교
	je L2			//0==eax 이면 L2로 건너뜀 (je - jump if equal)
	imull %eax, %ebx	// ebx = ebx*eax
	decl %eax		//eax 감소
	jmp L1			// L1으로 무조건 건너뜀
L2: 	ret

L1과 L2는 라벨이다. 제어흐름이 L2에 도달하면, ebx는 eax에 저장된 값의 계승을 저장하게 된다.

4. 함수(subroutine)

복잡한 프로그램을 만들때 우리는 해결할 문제를 체계적으로 나눈다. 그리고 필요할때마다 호출할 함수를 작성한다. 목록 3은 어셈블리어 프로그램의 함수 호출과 반환을 보여준다.

#목록 3
.globl main
main:
	movl $10, %eax
	call foo
	ret
foo:
	addl $5, %eax
	ret

call 명령어는 실행을 함수 foo로 옮긴다. foo의 ret 명령어는 실행을 다시 main의 호출 다음에 나오는 명령어로 옮긴다.

일반적으로 함수는 함수가 사용할 변수들을 정의한다. 이 변수들을 유지하려면 공간이 필요하다. 함수 호출시 변수값을 유지하기위해 스택을 사용한다. 프로그램 실행중에 반복되는 재귀호출시(recursive call) activation record가 유지되는 방법을 이해하는 것이 중요하다. esp나 ebp같은 레지스터 사용법과 스택을 다루는 push와 pop같은 명령어 사용법은 함수호출과 반환방식을 이해하는데 중요하다.

5. 스택 사용하기

프로그램의 메모리 일부를 스택으로 사용하기위해 비워두었다. Intel 80386 이상의 마이크로프로세서에는 스택 최상위 주소를 저장하는, 스택포인터(stack pointer)라는 esp 레지스터가 있다. 아래 그림 1은 스택에 저장된 세 정수값 49, 30, 72를 보여준다 (정수는 각각 4 바이트를 차지한다). esp 레지스터는 스택 최상위 주소를 저장한다.

그림 1

위로 쌓여가는 벽돌과 달리 Intel 컴퓨터의 스택은 아래방향으로 자란다. 그림 2는 명령어 pushl $15를 실행한후 스택을 보여준다.

그림 2

스택포인터 레지스터는 4만큼 감소하고, 숫자 15를 4 바이트(주소 1988, 1989, 1990, 1991)에 저장한다.

명령어 popl %eax는 스택 최상위에 있는 값(4 바이트)을 eax 레지스터에 복사하고 esp를 4만큼 증가한다. 만약 스택 최상위에 있는 값을 레지스터에 복사하고 싶지 않다면? 명령어 addl $4, %esp를 실행하여 스택포인터만 증가하면 된다.

목록 3에서 명령어 call foo는 호출을 마친후 실행할 명령어의 주소를 스택에 넣고 foo로 분기한다. 함수는 ret에서 끝나고, 실행을 스택 최상위에서 가져온 주소에 있는 명령어로 옮긴다. 물론 스택 최상위에 유효한 반환주소가 있어야 한다.

6. 지역변수(local variable) 공간 할당하기

C 프로그램은 수백 수천개의 변수를 다룰 수 있다. C 프로그램에 해당하는 어셈블리코드는 어떻게 변수를 저장하며 변수를 다루기위해 레지스터를 충돌없이 사용하는지 알려준다.

레지스터 개수가 적기때문에 프로그램의 모든 변수를 레지스터에 담을 수는 없다. 지역변수는 스택에 위치한다. 목록 4가 그 방법을 보여준다.

#목록 4
.globl main
main:
	call foo
	ret
foo:
	pushl %ebp
	movl %esp, %ebp
	subl $4, %esp
	movl $10, -4(%ebp)
	movl %ebp, %esp
	popl %ebp
	ret

먼저 스택포인터의 값을 기준포인터 레지스터(base pointer register) ebp에 복사한다. 기준포인터는 스택의 다른 위치를 접근할때 사용할 고정된 기준점이다. foo를 호출한 코드에서도 ebp를 사용하므로, 값을 esp 값으로 대체하기 전에 스택에 복사한다. 명령어 subl $4, %esp는 스택포인터를 감소하여 정수를 담기위한 (4 바이트) 공간을 만든다. 다음 줄은 값 10을 ebp에서 4를 뺀 (4 바이트) 주소에 복사한다. 명령어 movl %ebp, %esp는 스택포인터를 foo 시작시 가졌던 값으로 되돌리고, popl %ebp는 기준포인터 레지스터의 값을 되돌린다. 스택포인터는 이제 foo를 시작하기 전과 같은 값을 가진다. 아래 표는 main 시작과 목록 4의 (main에서 반환을 제외한) 각 명령어 실행후 레지스터 ebpesp와 3988에서 3999까지 스택 주소의 내용이다. 우리는 main의 첫 명령어 실행전에 ebp는 값 7000, esp는 값 4000을 가지며, 스택 주소 3988에서 3999까지 임의의 값 219986, 1265789, 86이 저장되있다고 가정한다. 또, main에서 call foo 다음에 나오는 명령어의 주소가 30000이라고 가정한다.

표 1

6. 파라미터 전달과 값 반환

함수로 파라미터를 전달하기위해 스택을 사용할 수 있다. 우리는 함수가 eax 레지스터에 저장한 값이 함수의 반환값이라는 (우리가 사용하는 C 컴파일러의) 규칙을 따른다. 함수를 호출하는 프로그램은 스택에 값을 넣어서 함수에게 파라미터를 전달한다. 목록 5는 sqr이라는 간단한 함수로 이를 설명한다.

#목록 5
.globl main
main:
	movl $12, %ebx
	pushl %ebx
	call sqr
	addl $4, %esp       //esp를 push 이전 값으로 조정
	ret
sqr:
	movl 4(%esp), %eax
	imull %eax, %eax    //eax * eax를 계산하여, 결과를 eax에 저장
	ret

sqr의 첫번째 줄을 주의있게 살펴라. 함수를 부르는 측은 ebx의 내용을 스택에 넣고 명령어 call을 실행한다. 호출시 반환주소를 스택에 넣는다. 그리고 sqr는 스택 최상위에서 4 바이트 떨어진 곳에서 파라미터를 읽을 수 있다.

8. C와 어셈블러 섞기

목록 6은 C 프로그램과 어셈블리어 함수를 보여준다. 파일 main.c에 C 함수가 있고 sqr.s에 어셈블리어 함수가 있다. cc main.c sqr.s를 입력하여 파일들을 컴파일하고 같이 링크한다.

반대도 매우 간단하다. 목록 7은 C 함수 print와 이 함수를 호출하는 어셈블리어를 보여준다.

#목록 6
//main.c
main()
{
	int i = sqr(11);
	printf("%d\n",i);
}

//sqr.s
.globl sqr
sqr:
	movl 4(%esp), %eax
	imull %eax, %eax
	ret

#목록 7
//print.c
print(int i)
{
	printf("%d\n",i);
}

//main.s
.globl main
main:
	movl $123, %eax
	pushl %eax
	call print
	addl $4, %esp
	ret

9. GNU C가 만드는 어셈블러 출력

나는 이 글이 gcc가 만드는 어셈블러 출력을 이해하기에 충분하길 기대한다. 목록 8은 gcc -S add.c로 만든 파일 add.s를 보여준다. add.s를 편집하여 많은 (대부분 정렬(alignment) 등의 목적의) 어셈블러 지서어를 삭제하였음을 밝힌다.

#목록 8
//add.c
int add(int i,int j)
{
	int p = i + j;
	return p;
}

//add.s
.globl add
add:
	pushl %ebp
	movl %esp, %ebp
	subl $4, %esp		//정수 p의 공간 생성
	movl 8(%ebp),%edx	//8(%ebp)는 i를 지칭
	addl 12(%ebp), %edx	//12(%ebp)는 j를 지칭
	movl %edx, -4(%ebp)	//-4(%ebp)는 p를 지칭
	movl -4(%ebp), %eax	//반환값을 eax에 저장
	leave			//즉, movl %ebp, %esp; popl %ebp ret

이 프로그램은 C 문장 add(10,20)이 다음과 같은 어셈블러코드로 변환됨을 확인하면 명확해진다:

pushl $20
pushl $10
call add

두번째 파라미터를 먼저 넣는 것을 주목하라.

10. 전역변수(global variable)

지역변수의 공간은 스텍포인터를 감소하여 스택에 확보하고, 단순히 스택포인터를 늘려서 할당된 공간을 되돌린다. 그러면 GNU C가 전역변수에 대해서는 어떤 코드를 생성할까? 목록 9가 해답을 준다.

#목록 9
//glob.c
int foo = 10;
main()
{
	int p = foo;
}

//glob.s
.globl foo
foo:
	.long 10
.globl main
main:
	pushl %ebp
	movl %esp,%ebp
	subl $4,%esp
	movl foo,%eax
	movl %eax,-4(%ebp)
	leave
	ret

문장 foo: .long 10은 foo라는 4 바이트 덩어리를 정의하고, 이 덩어리를 10으로 초기화한다. 지시어.globl foo는 다른 파일에서도 foo를 접근할 수 있도록 한다. 이제 이것을 살펴보자. 문장 int foostatic int foo로 수정한다. 어셈블리코드가 어떻게 살펴봐라. 어셈블러 지시어 .globl이 빠진 것을 확인할 수 있다. (double, long, short, const 등) 다른 storage class에 대해서도 시도해보라.

11. 시스템호출(system call)

프로그램이 어셈블리로 수학 알고리즘만을 구현하지 않는다면, 입력을 받고, 출력하고, 종료하는 등 어떤 작업이 필요하다. 이를 위해 운영체제 서비스를 호출해야 한다. 사실 운영체제 서비스를 제외하고는 여러 운영체제간의 어셈블리어 프로그래밍이 매우 비슷하다.

리눅스에는 시스템호출을 하는 두가지 일반적인 방법이 있다: C 라이브러리 (libc) wrapper를 통하거나, 직접.

Libc wrapper는 시스템호출 규칙이 변경되는 경우 프로그램을 보호하고, 커널에 그런 시스템호출이 없는 경우 POSIX 호환 인터페이스를 제공하기위해 만들어졌다. 그러나, 유닉스 커널은 보통 거의 POSIX에 호환한다: 즉 대부분의 libc "시스템콜"의 문법은 실제 커널 시스템호출의 문법과 (반대로도) 정확히 일치한다. 그러나 libc를 버리지않는 이유는 시스템콜 wrapper외에 printf(), malloc() 등 함수도 있기때문이다.

리눅스 시스템호출은 int 0x80을 통해 한다. 리눅스는 일반적인 유닉스 호출 규칙과 다른 "fastcall" 규칙을 사용한다. 시스템함수 번호는 eax에, 아규먼트는 스택이 아닌 레지스터를 통해 전달한다. 따라서 ebx, ecx, edx, esi, edi, ebp에 아규먼트 6개까지 가능하다. 아규먼트가 더 있다면 간단히 구조체를 첫번째 아규먼트로 넘긴다. 결과는 eax로 반환하고, 스택을 전혀 건드리지 않는다.

아래 목록 10을 살펴보자.

#목록 10
#fork.c
#include <stdio.h>
#include <stdlib.h>
#include <sys/types.h>
#include <unistd.h>

int main()
{
	fork();
	printf("Hello\n");
	return 0;
}

명령어 cc -g fork.c -static으로 프로그램을 컴파일한다. gdb 도구에서 명령어 disassemble fork를 입력한다. fork에 해당하는 어셈블리코드를 볼 수 있다. -static은 GCC의 정적 링커 옵션이다 (manpage 참고). 다른 시스템호출도 테스트해보고 실제 어떻게 함수가 동작하는지 살펴봐라.

리눅스 시스템호출에 대한 최신 문서가 많아서 여기에 반복하지 않겠다.

11. 인라인 어셈블리 프로그래밍

GNU C는 x86 아키텍쳐를 매우 잘 지원하며, C 프로그램에 어셈블리코드를 삽입할 수 있다. 레지스터 할당은 직접 지시하거나 GCC에 맡겨둘 수 있다. 물론, 어셈블리 명령어는 아키텍쳐마다 다르다.

asm 명령어를 사용하여 어셈블리 명령어를 C나 C++ 프로그램에 삽입할 수 있다. 예를 들어:

asm ("fsin" : "=t" (answer) : "0" (angle));

는 다음 C 문장을 x86 식으로 코딩한 것이다:

answer = sin(angle);

일반적인 어셈블리코드 명령어와 달리 asm 문장은 C 문법으로 입력과 출력 연산수를 지정할 수 있다.Asm 문장은 아무때나 사용하면 안된다. 그러면 언제 사용해야 하나?

  • Asm 문장은 프로그램이 컴퓨터 하드웨어에 직접 접근하게 한다. 그래서 빨리 실행되는 프로그램을 만들 수 있다. 하드웨어와 직접 상호작용하는 운영체제 코드를 작성할때 사용할 수 있다. 예를 들어, /usr/include/asm/io.h에는 입출력 포트를 직접 접근하기위한 어셈블리 명령어가 있다.
  • 또, 인라인 어셈블리 명령어는 프로그램의 가장 안쪽 반복문의 속도를 빠르게한다. 예를 들어, 어떤 같은 각도에 대한 sine과 cosine은 fsincos x86 명령어로 얻을 수 있다. 아마도 아래 두 목록은 이 점을 잘 이해하도록 도와줄 것이다.
#목록 11
#이름 : bit-pos-loop.c 
#설명 : 반복문을 사용하여 비트 위치 찾기

#include <stdio.h>
#include <stdlib.h>

int main (int argc, char *argv[])
{
	long max = atoi (argv[1]);
	long number;
	long i;
	unsigned position;
	volatile unsigned result;

	for (number = 1; number <= max; ; ++number) {
		for (i=(number>>1), position=0; i!=0; ++position)
			i >>= 1;
		result = position;
	}
	return 0;
}

#목록 12
#이름 : bit-pos-asm.c
#설명 : bsrl을 사용하여 비트 위치 찾기

#include <stdio.h>
#include <stdlib.h>

int main(int argc, char *argv[])
{
	long max = atoi(argv[1]);
	long number;
	unsigned position;
	volatile unsigned result;

	for (number = 1; number <= max; ; ++number) {
		asm("bsrl %1, %0" : "=r" (position) : "r" (number));
		result = position;
	}
	return 0;
}

다음과 같이 최상의 최적화로 두 코드를 컴파일한다:

$ cc -O2 -o bit-pos-loop bit-pos-loop.c
$ cc -O2 -o bit-pos-asm bit-pos-asm.c

최소한 몇 초동안 실행되도록 큰 값을 명령행 아규먼트로 주고 time 명령어를 사용하여 두 코드의 실행시간을 잰다.

$ time ./bit-pos-loop 250000000

and

$ time ./bit-pos-asm 250000000

결과는 컴퓨터마다 다를 것이다. 그러나 인라인 어셈블리를 사용한 코드가 매우 빠르게 실행됨을 확인할 수 있다.

GCC의 최적화는 asm 표현이 있더라도 실행시간을 최소화하기위해 프로그램 코드를 재배열하고 재작성하려고 시도한다. asm의 출력값을 사용하지 않는다고 판단하면, asm과 아규먼트 사이에 키워드volatile이 없는 한 최적화는 명령어를 생략한다. (특별한 경우로 GCC는 출력 연산수가 없는 asm을 반복문 밖으로 옮기지 않는다.) asm은 예측하기 힘든 방식으로, 심지어 호출간에도, 옮겨질 수 있다. 특별한 어셈블리 명령어 순서를 보장하는 유일한 방법은 모든 명령어를 모두 같은 asm에 포함하는 것이다.

컴파일러가 asm의 의미를 모르기때문에 asm을 사용하면 컴파일러의 효율성을 제한할 수 있다. GCC는 어떤 최적화를 막을 수 있는 보수적인 추측을 하게 된다.

12. 연습문제

  1. 목록 6의 C 프로그램에 대한 어셈블리코드를 해석하라. 어셈블리코드를 생성할때 -Wall 옵션이 출력하는 오류가 없도록 수정하라. 두 어셈블리코드를 비교하라. 어떤 차이가 있는가?
  2. 여러 작은 C 프로그램을 (-O2 같은) 최적화 옵션을 주고 또 안주고 컴파일해보라. 결과 어셈블리코드를 읽고 컴파일러가 사용한 공통된 최적화 기법을 찾아라.
  3. switch 문장에 대한 어셈블리코드를 해석하라.
  4. 인라인 asm 문장이 있는 여러 작은 C 프로그램을 컴파일해보라. 이런 프로그램의 어셈블리코드에는 무슨 차이가 있는가?
  5. 감싸인 함수(nested function)는 다른 함수 ("감싸는 함수(enclosing function") 안에서 정의되며, 다음과 같다:
    • 감싸인 함수는 감싸는 함수의 변수에 접근할 수 있고,
    • 감싸인 함수는 감싸는 함수에 지역적이다(local). 즉, 감싸는 함수가 감싸인 함수의 포인터를 제공하지 않는다면 감싸는 함수 밖에서 감싸인 함수를 호출할 수 없다.

    감싸인 함수는 함수의 범위(visibility)를 조절하기때문에 유용하게 사용할 수 있다.

    아래 목록 13을 참고하라:

    #목록 13 /* myprint.c */ #include <stdio.h> #include <stdlib.h> int main() { int i; void my_print(int k) { printf("%d\n",k); } scanf("%d",&i); my_print(i); return 0; }

    이 프로그램을 cc -S myprint.c로 컴파일하고 어셈블리코드를 해석하라. 또, 명령어 cc -pedantic myprint.c로 프로그램을 컴파일해보라. 무엇이 보이는가? 


반응형