On this page
ast —抽象语法树
源代码: Lib/ast.py
ast模块可帮助 Python 应用程序处理 Python 抽象语法语法的树。每个 Python 版本都可能更改抽象语法。此模块有助于以编程方式找出当前语法的外观。
可以pass将ast.PyCF_ONLY_AST
作为标志传递给compile()内置函数或使用此模块中提供的parse()帮助器来生成抽象语法树。结果将是一棵对象树,其所有类都继承自ast.AST。可以使用内置的compile()函数将抽象语法树编译为 Python 代码对象。
Node classes
在抽象语法中,为每个左侧符号定义了一个类(例如ast.stmt
或ast.expr
)。另外,在右侧为每个构造函数定义了一个类。这些类继承自左侧树的类。例如,ast.BinOp
继承自ast.expr
。对于具有替代选项(又称“和”)的生产规则,左侧类是抽象的:仅创建特定构造函数节点的实例。
_fields
- 每个具体的类都有一个属性_fields,该属性给出所有子节点的名称。
具体类的每个实例对每个子节点都有一个属性,该属性的类型如语法中所定义。例如,ast.BinOp
个实例具有类型ast.expr
的属性left
。
如果在语法中将这些属性标记为可选(使用问号),则值可能为None
。如果属性可以具有零个或多个值(标有星号),则这些值将表示为 Python 列表。使用compile()编译 AST 时,所有可能的属性都必须存在且具有有效值。
lineno
col_offset
end_lineno
end_col_offset
ast.expr
和ast.stmt
子类的实例具有lineno,col_offset,lineno和col_offset属性。 lineno和end_lineno是源文本范围的第一行和最后一行(1 索引,所以第一行是第一行),而col_offset和end_col_offset是生成节点的第一和最后标记的对应 UTF-8 字节偏移量。记录 UTF-8 偏移量是因为解析器在内部使用 UTF-8.
注意,编译器不需要结束位置,因此是可选的。结束偏移量是在最后一个符号之后,例如,可以使用source_line[node.col_offset : node.end_col_offset]
获得单行表达式节点的源句段。
类ast.T
的构造函数按如下方式解析其参数:
如果有位置参数,则
T._fields
中的项数必须与之相同。它们将被分配为这些名称的属性。如果有关键字参数,它们会将相同名称的属性设置为给定值。
例如,要创建并填充ast.UnaryOp
节点,可以使用
node = ast.UnaryOp()
node.op = ast.USub()
node.operand = ast.Constant()
node.operand.value = 5
node.operand.lineno = 0
node.operand.col_offset = 0
node.lineno = 0
node.col_offset = 0
或更紧凑
node = ast.UnaryOp(ast.USub(), ast.Constant(5, lineno=0, col_offset=0),
lineno=0, col_offset=0)
在 3.8 版中进行了更改:类别ast.Constant
现在用于所有常量。
从 3.8 版开始不推荐使用:旧类ast.Num
,ast.Str
,ast.Bytes
,ast.NameConstant
和ast.Ellipsis
仍然可用,但是在将来的 Python 版本中将删除它们。同时,实例化它们将返回不同类的实例。
Abstract Grammar
当前,抽象语法的定义如下:
-- ASDL's 5 builtin types are:
-- identifier, int, string, object, constant
module Python
{
mod = Module(stmt* body, type_ignore *type_ignores)
| Interactive(stmt* body)
| Expression(expr body)
| FunctionType(expr* argtypes, expr returns)
-- not really an actual node but useful in Jython's typesystem.
| Suite(stmt* body)
stmt = FunctionDef(identifier name, arguments args,
stmt* body, expr* decorator_list, expr? returns,
string? type_comment)
| AsyncFunctionDef(identifier name, arguments args,
stmt* body, expr* decorator_list, expr? returns,
string? type_comment)
| ClassDef(identifier name,
expr* bases,
keyword* keywords,
stmt* body,
expr* decorator_list)
| Return(expr? value)
| Delete(expr* targets)
| Assign(expr* targets, expr value, string? type_comment)
| AugAssign(expr target, operator op, expr value)
-- 'simple' indicates that we annotate simple name without parens
| AnnAssign(expr target, expr annotation, expr? value, int simple)
-- use 'orelse' because else is a keyword in target languages
| For(expr target, expr iter, stmt* body, stmt* orelse, string? type_comment)
| AsyncFor(expr target, expr iter, stmt* body, stmt* orelse, string? type_comment)
| While(expr test, stmt* body, stmt* orelse)
| If(expr test, stmt* body, stmt* orelse)
| With(withitem* items, stmt* body, string? type_comment)
| AsyncWith(withitem* items, stmt* body, string? type_comment)
| Raise(expr? exc, expr? cause)
| Try(stmt* body, excepthandler* handlers, stmt* orelse, stmt* finalbody)
| Assert(expr test, expr? msg)
| Import(alias* names)
| ImportFrom(identifier? module, alias* names, int? level)
| Global(identifier* names)
| Nonlocal(identifier* names)
| Expr(expr value)
| Pass | Break | Continue
-- XXX Jython will be different
-- col_offset is the byte offset in the utf8 string the parser uses
attributes (int lineno, int col_offset, int? end_lineno, int? end_col_offset)
-- BoolOp() can use left & right?
expr = BoolOp(boolop op, expr* values)
| NamedExpr(expr target, expr value)
| BinOp(expr left, operator op, expr right)
| UnaryOp(unaryop op, expr operand)
| Lambda(arguments args, expr body)
| IfExp(expr test, expr body, expr orelse)
| Dict(expr* keys, expr* values)
| Set(expr* elts)
| ListComp(expr elt, comprehension* generators)
| SetComp(expr elt, comprehension* generators)
| DictComp(expr key, expr value, comprehension* generators)
| GeneratorExp(expr elt, comprehension* generators)
-- the grammar constrains where yield expressions can occur
| Await(expr value)
| Yield(expr? value)
| YieldFrom(expr value)
-- need sequences for compare to distinguish between
-- x < 4 < 3 and (x < 4) < 3
| Compare(expr left, cmpop* ops, expr* comparators)
| Call(expr func, expr* args, keyword* keywords)
| FormattedValue(expr value, int? conversion, expr? format_spec)
| JoinedStr(expr* values)
| Constant(constant value, string? kind)
-- the following expression can appear in assignment context
| Attribute(expr value, identifier attr, expr_context ctx)
| Subscript(expr value, slice slice, expr_context ctx)
| Starred(expr value, expr_context ctx)
| Name(identifier id, expr_context ctx)
| List(expr* elts, expr_context ctx)
| Tuple(expr* elts, expr_context ctx)
-- col_offset is the byte offset in the utf8 string the parser uses
attributes (int lineno, int col_offset, int? end_lineno, int? end_col_offset)
expr_context = Load | Store | Del | AugLoad | AugStore | Param
slice = Slice(expr? lower, expr? upper, expr? step)
| ExtSlice(slice* dims)
| Index(expr value)
boolop = And | Or
operator = Add | Sub | Mult | MatMult | Div | Mod | Pow | LShift
| RShift | BitOr | BitXor | BitAnd | FloorDiv
unaryop = Invert | Not | UAdd | USub
cmpop = Eq | NotEq | Lt | LtE | Gt | GtE | Is | IsNot | In | NotIn
comprehension = (expr target, expr iter, expr* ifs, int is_async)
excepthandler = ExceptHandler(expr? type, identifier? name, stmt* body)
attributes (int lineno, int col_offset, int? end_lineno, int? end_col_offset)
arguments = (arg* posonlyargs, arg* args, arg? vararg, arg* kwonlyargs,
expr* kw_defaults, arg? kwarg, expr* defaults)
arg = (identifier arg, expr? annotation, string? type_comment)
attributes (int lineno, int col_offset, int? end_lineno, int? end_col_offset)
-- keyword arguments supplied to call (NULL identifier for **kwargs)
keyword = (identifier? arg, expr value)
-- import name with optional 'as' alias.
alias = (identifier name, identifier? asname)
withitem = (expr context_expr, expr? optional_vars)
type_ignore = TypeIgnore(int lineno, string tag)
}
ast Helpers
除了节点类之外,ast模块还定义了以下 Util 函数和类,用于遍历抽象语法树:
ast.
parse
(* source , filename ='', mode ='exec',**,* type_comments = False , feature_version = None *)- 将源解析为 AST 节点。等效于
compile(source, filename, mode, ast.PyCF_ONLY_AST)
。
- 将源解析为 AST 节点。等效于
如果给定type_comments=True
,则将解析器修改为检查并返回 PEP 484和 PEP 526指定的类型 Comments。这等效于将ast.PyCF_TYPE_COMMENTS
添加到传递给compile()的标志中。这将报告错误的类型 Comments 的语法错误。没有此标志,类型 Comments 将被忽略,并且所选 AST 节点上的type_comment
字段将始终为None
。此外,# type: ignore
Comments 的位置将作为Module
的type_ignores
属性返回(否则,它始终是一个空列表)。
另外,如果mode
是'func_type'
,则将 Importing 语法修改为对应于 PEP 484“签名类型 Comments”,例如(str, int) -> List[str]
。
同样,将feature_version
设置为 Tuples(major, minor)
将try使用该 Python 版本的语法进行解析。当前major
必须等于3
。例如,设置feature_version=(3, 4)
将允许使用async
和await
作为变量名。支持的最低版本是(3, 4)
;最高的是sys.version_info[0:2]
。
Warning
由于 Python AST 编译器中的堆栈深度限制,使用足够大/复杂的字符串可能会使 Python 解释器崩溃。
在 3.8 版中进行了更改:添加了type_comments
,mode='func_type'
和feature_version
。
ast.
literal_eval
(* node_or_string *)- 安全地评估表达式节点或包含 PythonLiterals 或容器显示的字符串。提供的字符串或节点只能由以下 PythonLiterals 结构组成:字符串,字节,数字,Tuples,列表,字典,集合,布尔值和
None
。
- 安全地评估表达式节点或包含 PythonLiterals 或容器显示的字符串。提供的字符串或节点只能由以下 PythonLiterals 结构组成:字符串,字节,数字,Tuples,列表,字典,集合,布尔值和
这可用于安全地评估包含来自不受信任来源的 Python 值的字符串,而无需自己解析值。它不能评估任意复杂的表达式,例如涉及运算符或索引的表达式。
Warning
由于 Python AST 编译器中的堆栈深度限制,使用足够大/复杂的字符串可能会使 Python 解释器崩溃。
在版本 3.2 中更改:现在允许字节和设置 Literals。
ast.
get_docstring
(* node , clean = True *)- 返回给定* node (必须是
FunctionDef
,AsyncFunctionDef
,ClassDef
或Module
节点)的文档字符串,如果没有文档字符串,则返回None
。如果 clean *为 true,请使用inspect.cleandoc()清除文档字符串的缩进。
- 返回给定* node (必须是
在版本 3.5 中进行了更改:现在支持AsyncFunctionDef
。
ast.
get_source_segment
(* source , node ,**,* padded = False *)- 获取生成* node 的 source *的源代码段。如果缺少某些位置信息(
lineno
,end_lineno
,col_offset
或end_col_offset
),请返回None
。
- 获取生成* node 的 source *的源代码段。如果缺少某些位置信息(
如果* papped *为True
,则多行语句的第一行将填充空格以匹配其原始位置。
3.8 版的新Function。
ast.
fix_missing_locations
(* node *)- 当您使用compile()编译节点树时,编译器期望每个支持它们的节点
lineno
和col_offset
属性。填写生成的节点非常繁琐,因此该助手pass将其设置为父节点的值来递归地将这些属性添加到尚未设置的位置。它从* node *开始递归地工作。
- 当您使用compile()编译节点树时,编译器期望每个支持它们的节点
ast.
increment_lineno
(* node , n = 1 *)- 从* node 开始,将树中每个节点的行号和结束行号增加 n *。这对于将代码“移动”到文件中的其他位置很有用。
ast.
copy_location
(* new_node , old_node *)- 将源位置(
lineno
,col_offset
,end_lineno
和end_col_offset
)从* old_node 复制到 new_node ,并返回 new_node *。
- 将源位置(
ast.
iter_fields
(* node *)- 产生* node *上
node._fields
中每个字段的(fieldname, value)
Tuples。
- 产生* node *上
ast.
iter_child_nodes
(* node *)- 产生* node *的所有直接子节点,即,所有属于节点的字段和所有属于节点列表的字段的项。
ast.
walk
(* node *)- 递归地产生树中所有从* node (包括 node *本身)开始的后代节点,没有指定的 Sequences。如果您只想在适当位置修改节点,而不关心上下文,则这很有用。
类别
ast.
NodeVisitor
- 节点访问者 Base Class,它遍历抽象语法树并为找到的每个节点调用访问者函数。此函数可能返回一个值,该值由visit()方法转发。
该类打算被子类化,并且该子类添加了 visitor 方法。
visit
(* node *)- 访问节点。默认实现调用名为
self.visit_classname
的方法,其中* classname *是节点类的名称;如果该方法不存在,则调用generic_visit()。
- 访问节点。默认实现调用名为
generic_visit
(* node *)- 该访问者在该节点的所有子节点上调用visit()。
请注意,除非访问者调用generic_visit()或自己访问它们,否则将不会访问具有自定义访问者方法的节点的子节点。
如果要在遍历期间将更改应用于节点,请不要使用NodeVisitor。为此,存在允许修改的特殊访问者(NodeTransformer)。
从 3.8 版开始不推荐使用:方法visit_Num()
,visit_Str()
,visit_Bytes()
,visit_NameConstant()
和visit_Ellipsis()
现在不推荐使用,在以后的 Python 版本中将不再调用。添加visit_Constant()
方法以处理所有常量节点。
- 类别
ast.
NodeTransformer
- 一个NodeVisitor子类,用于遍历抽象语法树并允许修改节点。
NodeTransformer将遍历 AST,并使用 visitor 方法的返回值替换或删除旧节点。如果 visitor 方法的返回值为None
,则将从其位置中删除该节点,否则将其替换为返回值。返回值可能是原始节点,在这种情况下不会发生替换。
这是一个示例转换器,它将所有出现的名称查找(foo
)重写为data['foo']
:
class RewriteName(NodeTransformer):
def visit_Name(self, node):
return Subscript(
value=Name(id='data', ctx=Load()),
slice=Index(value=Constant(value=node.id)),
ctx=node.ctx
)
请记住,如果要操作的节点具有子节点,则必须自己转换子节点或首先为该节点调用generic_visit()
方法。
对于属于语句集合(适用于所有语句节点)的节点,访问者还可能返回节点列表,而不仅仅是一个节点。
如果NodeTransformer引入了新节点(不是原始树的一部分)而没有提供位置信息(例如lineno
),则应使用新的子树调用fix_missing_locations()来重新计算位置信息:
tree = ast.parse('foo', mode='eval')
new_tree = fix_missing_locations(RewriteName().visit(tree))
通常,您使用变压器是这样的:
node = YourTransformer().visit(node)
ast.
dump
(* node , annotate_fields = True , include_attributes = False *)- 返回* node 中树的格式化转储。这主要用于调试目的。如果 annotate_fields 为 true(默认情况下),则返回的字符串将显示字段的名称和值。如果 annotate_fields 为 false,则Ellipsis明确的字段名称,结果字符串将更加紧凑。默认情况下,不转储诸如行号和列偏移量的属性。如果需要,可以将 include_attributes *设置为 true。
See also
绿树蛇是外部文档资源,其中包含有关使用 Python AST 的详细信息。