32.2. ast —抽象语法树

2.5 版中的新Function:仅包含节点类的低级_ast模块。

2.6 版的新Function:包含所有帮助程序的高级ast模块。

源代码: Lib/ast.py

ast模块可帮助 Python 应用程序处理 Python 抽象语法语法的树。每个 Python 版本都可能更改抽象语法。此模块有助于以编程方式找出当前语法的外观。

可以pass将ast.PyCF_ONLY_AST作为标志传递给compile()内置函数或使用此模块中提供的parse()帮助器来生成抽象语法树。结果将是一棵对象树,其所有类都继承自ast.AST。可以使用内置的compile()函数将抽象语法树编译为 Python 代码对象。

32.2.1. 节点类

  • 类别 ast. AST
    • 这是所有 AST 节点类的基础。实际的节点类是从Parser/Python.asdl文件派生的,该文件已复制below。它们在_ast C 模块中定义,并在ast中重新导出。


  • _fields
    • 每个具体的类都有一个属性_fields,该属性给出所有子节点的名称。


如果在语法中将这些属性标记为可选(使用问号),则值可能为None。如果属性可以具有零个或多个值(标有星号),则这些值将表示为 Python 列表。使用compile()编译 AST 时,所有可能的属性都必须存在且具有有效值。

  • lineno
    • col_offset
      • ast.exprast.stmt子类的实例具有linenocol_offset属性。 lineno是源文本的行号(1 索引,因此第一行是第 1 行),而col_offset是生成该节点的第一个令牌的 UTF-8 字节偏移量。记录 UTF-8 偏移量是因为解析器在内部使用 UTF-8.


  • 如果有位置参数,则T._fields中的项数必须与之相同。它们将被分配为这些名称的属性。

  • 如果有关键字参数,它们会将相同名称的属性设置为给定值。


node = ast.UnaryOp()
node.op = ast.USub()
node.operand = ast.Num()
node.operand.n = 5
node.operand.lineno = 0
node.operand.col_offset = 0
node.lineno = 0
node.col_offset = 0


node = ast.UnaryOp(ast.USub(), ast.Num(5, lineno=0, col_offset=0),
                   lineno=0, col_offset=0)

2.6 版中的新增Function:添加了上述构造函数。在 Python 2.5 中,必须pass调用不带参数的类构造函数并随后设置属性来创建节点。

32.2.2. 抽象语法

模块定义一个字符串常量__version__,它是下面显示的文件的十进制 Subversion 修订版号。


-- ASDL's five builtin types are identifier, int, string, object, bool

module Python version "$Revision$"
	mod = Module(stmt* body)
	    | Interactive(stmt* body)
	    | Expression(expr body)

	    -- not really an actual node but useful in Jython's typesystem.
	    | Suite(stmt* body)

	stmt = FunctionDef(identifier name, arguments args, 
                            stmt* body, expr* decorator_list)
	      | ClassDef(identifier name, expr* bases, stmt* body, expr* decorator_list)
	      | Return(expr? value)

	      | Delete(expr* targets)
	      | Assign(expr* targets, expr value)
	      | AugAssign(expr target, operator op, expr value)

	      -- not sure if bool is allowed, can always use int
 	      | Print(expr? dest, expr* values, bool nl)

	      -- use 'orelse' because else is a keyword in target languages
	      | For(expr target, expr iter, stmt* body, stmt* orelse)
	      | While(expr test, stmt* body, stmt* orelse)
	      | If(expr test, stmt* body, stmt* orelse)
	      | With(expr context_expr, expr? optional_vars, stmt* body)

	      -- 'type' is a bad name
	      | Raise(expr? type, expr? inst, expr? tback)
	      | TryExcept(stmt* body, excepthandler* handlers, stmt* orelse)
	      | TryFinally(stmt* body, stmt* finalbody)
	      | Assert(expr test, expr? msg)

	      | Import(alias* names)
	      | ImportFrom(identifier? module, alias* names, int? level)

	      -- Doesn't capture requirement that locals must be
	      -- defined if globals is
	      -- still supports use as a function!
	      | Exec(expr body, expr? globals, expr? locals)

	      | Global(identifier* names)
	      | Expr(expr value)
	      | Pass | Break | Continue

	      -- XXX Jython will be different
	      -- col_offset is the byte offset in the utf8 string the parser uses
	      attributes (int lineno, int col_offset)

	      -- BoolOp() can use left & right?
	expr = BoolOp(boolop op, expr* values)
	     | BinOp(expr left, operator op, expr right)
	     | UnaryOp(unaryop op, expr operand)
	     | Lambda(arguments args, expr body)
	     | IfExp(expr test, expr body, expr orelse)
	     | Dict(expr* keys, expr* values)
	     | Set(expr* elts)
	     | ListComp(expr elt, comprehension* generators)
	     | SetComp(expr elt, comprehension* generators)
	     | DictComp(expr key, expr value, comprehension* generators)
	     | GeneratorExp(expr elt, comprehension* generators)
	     -- the grammar constrains where yield expressions can occur
	     | Yield(expr? value)
	     -- need sequences for compare to distinguish between
	     -- x < 4 < 3 and (x < 4) < 3
	     | Compare(expr left, cmpop* ops, expr* comparators)
	     | Call(expr func, expr* args, keyword* keywords,
			 expr? starargs, expr? kwargs)
	     | Repr(expr value)
	     | Num(object n) -- a number as a PyObject.
	     | Str(string s) -- need to specify raw, unicode, etc?
	     -- other literals? bools?

	     -- the following expression can appear in assignment context
	     | Attribute(expr value, identifier attr, expr_context ctx)
	     | Subscript(expr value, slice slice, expr_context ctx)
	     | Name(identifier id, expr_context ctx)
	     | List(expr* elts, expr_context ctx) 
	     | Tuple(expr* elts, expr_context ctx)

	      -- col_offset is the byte offset in the utf8 string the parser uses
	      attributes (int lineno, int col_offset)

	expr_context = Load | Store | Del | AugLoad | AugStore | Param

	slice = Ellipsis | Slice(expr? lower, expr? upper, expr? step) 
	      | ExtSlice(slice* dims) 
	      | Index(expr value) 

	boolop = And | Or 

	operator = Add | Sub | Mult | Div | Mod | Pow | LShift 
                 | RShift | BitOr | BitXor | BitAnd | FloorDiv

	unaryop = Invert | Not | UAdd | USub

	cmpop = Eq | NotEq | Lt | LtE | Gt | GtE | Is | IsNot | In | NotIn

	comprehension = (expr target, expr iter, expr* ifs)

	-- not sure what to call the first argument for raise and except
	excepthandler = ExceptHandler(expr? type, expr? name, stmt* body)
	                attributes (int lineno, int col_offset)

	arguments = (expr* args, identifier? vararg, 
		     identifier? kwarg, expr* defaults)

        -- keyword arguments supplied to call
        keyword = (identifier arg, expr value)

        -- import name with optional 'as' alias.
        alias = (identifier name, identifier? asname)

32.2.3. ast 助手

2.6 版的新Function。

除了节点类之外,ast模块还定义了以下 Util 函数和类,用于遍历抽象语法树:

  • ast. parse(* source filename ='' mode ='exec'*)
    • 将源解析为 AST 节点。等效于compile(source, filename, mode, ast.PyCF_ONLY_AST)


由于 Python AST 编译器中的堆栈深度限制,使用足够大/复杂的字符串可能会使 Python 解释器崩溃。

  • ast. literal_eval(* node_or_string *)
    • 安全地评估包含 PythonLiterals 或容器显示的表达式节点或 Unicode 或* Latin-1 *编码的字符串。提供的字符串或节点只能由以下 PythonLiterals 结构组成:字符串,数字,Tuples,列表,字典,布尔值和None

这可用于安全地评估包含来自不受信任来源的 Python 值的字符串,而无需自己解析值。它不能评估任意复杂的表达式,例如涉及运算符或索引的表达式。


由于 Python AST 编译器中的堆栈深度限制,使用足够大/复杂的字符串可能会使 Python 解释器崩溃。

  • ast. get_docstring(* node clean = True *)

    • 返回给定* node (必须是FunctionDefClassDefModule节点)的文档字符串,如果没有文档字符串,则返回None。如果 clean *为 true,请使用inspect.cleandoc()清除文档字符串的缩进。
  • ast. fix_missing_locations(* node *)

    • 当您使用compile()编译节点树时,编译器期望每个支持它们的节点linenocol_offset属性。填写生成的节点非常繁琐,因此该助手pass将其设置为父节点的值来递归地将这些属性添加到尚未设置的位置。它从* node *开始递归地工作。
  • ast. increment_lineno(* node n = 1 *)

    • 从* node 开始,将树中每个节点的行号增加 n *。这对于将代码“移动”到文件中的其他位置很有用。
  • ast. copy_location(* new_node old_node *)

    • 如果可能,将源位置(linenocol_offset)从* old_node 复制到 new_node ,并返回 new_node *。
  • ast. iter_fields(* node *)

    • 产生* node *上node._fields中每个字段的(fieldname, value)Tuples。
  • ast. iter_child_nodes(* node *)

    • 产生* node *的所有直接子节点,即,所有属于节点的字段和所有属于节点列表的字段的项。
  • ast. walk(* node *)

    • 递归地产生树中所有从* node (包括 node *本身)开始的后代节点,没有指定的 Sequences。如果您只想在适当位置修改节点,而不关心上下文,则这很有用。
  • 类别 ast. NodeVisitor

    • 节点访问者 Base Class,它遍历抽象语法树并为找到的每个节点调用访问者函数。此函数可能返回一个值,该值由visit()方法转发。

该类打算被子类化,并且该子类添加了 visitor 方法。

  • visit(* node *)

    • 访问节点。默认实现调用名为self.visit_classname的方法,其中* classname *是节点类的名称;如果该方法不存在,则调用generic_visit()
  • generic_visit(* node *)

    • 该访问者在该节点的所有子节点上调用visit()



  • 类别 ast. NodeTransformer
    • 一个NodeVisitor子类,用于遍历抽象语法树并允许修改节点。

NodeTransformer将遍历 AST,并使用 visitor 方法的返回值替换或删除旧节点。如果 visitor 方法的返回值为None,则将从其位置中删除该节点,否则将其替换为返回值。返回值可能是原始节点,在这种情况下不会发生替换。


class RewriteName(NodeTransformer):

    def visit_Name(self, node):
        return copy_location(Subscript(
            value=Name(id='data', ctx=Load()),
        ), node)




node = YourTransformer().visit(node)
  • ast. dump(* node annotate_fields = True include_attributes = False *)
    • 返回* node 中树的格式化转储。这主要用于调试目的。返回的字符串将显示字段的名称和值。这使得代码无法评估,因此如果需要评估,则必须将 annotate_fields 设置为False。默认情况下,不转储诸如行号和列偏移量的属性。如果需要,可以将 include_attributes *设置为True