xmlns ad boşluk bırakma lxml

Bir xml dosyası açmaya ve belirli etiketlerden değerler almaya çalışıyorum. Bunu çok yaptım ama bu özel xml bana bazı sorunlar veriyor. İşte xml dosyasının bir bölüm:xmlns ad boşluk bırakma lxml

<?xml version='1.0' encoding='UTF-8'?> 
<package xmlns="http://apple.com/itunes/importer" version="film4.7"> 
    <provider>filmgroup</provider> 
    <language>en-GB</language> 
    <actor name="John Smith" display="Doe John"</actor> 
</package>

Ve işte benim piton kodunun bir örnektir:

metadata = '/Users/mylaptop/Desktop/Python/metadata.xml' 
from lxml import etree 
parser = etree.XMLParser(remove_blank_text=True) 
open(metadata) 
tree = etree.parse(metadata, parser) 
root = tree.getroot() 
for element in root.iter(tag='provider'): 
    providerValue = tree.find('//provider') 
    providerValue = providerValue.text 
    print providerValue 
tree.write('/Users/mylaptop/Desktop/Python/metadataDone.xml', pretty_print = True, xml_declaration = True, encoding = 'UTF-8')

ben bu çalıştırdığınızda sağlayıcı etiketi veya değerini bulamıyor. xmlns="http://apple.com/itunes/importer"'u kaldırırsam, tüm beklendiği gibi çalışır. Sorum, bu ad alanını nasıl kaldırabilirim, hiç ilgimi çekmediğim için, lxml kullanarak ihtiyacım olan etiket değerlerini alabilir miyim?

kaynak

2013-08-05 speedyrazor

provider etiketi http://apple.com/itunes/importer ad, yani ya tam adını

{http://apple.com/itunes/importer}provider

kullanamaz ve root.xpath olarak the namespaces parameter sahiptir Lxml yöntemlerinden birini kullanmak gerekir. Sonra bir ad öneki (örn ns:provider) ile belirtebilirsiniz:

from lxml import etree 
parser = etree.XMLParser(remove_blank_text=True) 
tree = etree.parse(metadata, parser) 
root = tree.getroot() 
namespaces = {'ns':'http://apple.com/itunes/importer'} 
items = iter(root.xpath('//ns:provider/text()|//ns:actor/@name', 
         namespaces=namespaces)) 
for provider, actor in zip(*[items]*2): 
    print(provider, actor)

verimleri

('filmgroup', 'John Smith')

Not Yukarıda kullanılan XPath <provider> ve <actor> elemanları daima münavebe göründükleri varsayar. Bu doğru değilse, o zaman işlemek için ders yollarından var, ama kod biraz daha ayrıntılı dönüşür:

for package in root.xpath('//ns:package', namespaces=namespaces): 
    for provider in package.xpath('ns:provider', namespaces=namespaces): 
     providerValue = provider.text 
     print providerValue 
    for actor in package.xpath('ns:actor', namespaces=namespaces): 
     print actor.attrib['name']

kaynak

2013-08-05 21:22:59 unutbu

Thats mükemmel ubuntu,, şerefe bir tedavi işler: Burada

providers = getels(root, 'provider', ns='http://apple.com/itunes/importer')

işlevlerdir. – speedyrazor

ubuntu, bir etiketin özniteliğini nasıl bulabilirim, orijinal örneğimi değiştirdim, bu yüzden aktörün isminin değerini arıyorum = – speedyrazor

Eğer 'element' değerine sahipseniz, öznitelik değerine 'elementle erişebilirsiniz .attrib [ 'adı'] '. Ancak, 'sağlayıcı 've' aktör 'öğelerini bir XML dosyasından kazıyorsanız, her ikisini de aynı anda' | '(veya) sözdizimini kullanarak tek bir XPath kurabilirsiniz. Ne demek istediğimi göstermek için yayını düzenledim. – unutbu

Benim önerim ad görmezden ama, bunun yerine, bunu dikkate almaktır. Ben django-quickbooks kütüphanesinde benim çalışmaları için bazı ilgili işlevleri (hafif bir değişiklik ile kopyalandı) yazdı. Bu işlevleri ile, bunu yapmak mümkün olmalıdır:

def get_tag_with_ns(tag_name, ns): 
    return '{%s}%s' % (ns, tag_name) 

def getel(elt, tag_name, ns=None): 
    """ Gets the first tag that matches the specified tag_name taking into 
    account the QB namespace. 

    :param ns: The namespace to use if not using the default one for 
    django-quickbooks. 
    :type ns: string 
    """ 

    res = elt.find(get_tag_with_ns(tag_name, ns=ns)) 
    if res is None: 
     raise TagNotFound('Could not find tag by name "%s"' % tag_name) 
    return res 

def getels(elt, *path, **kwargs): 
    """ Gets the first set of elements found at the specified path. 

    Example: 
     >>> xml = (
     "<root>" + 
      "<item>" + 
       "<id>1</id>" + 
      "</item>" + 
      "<item>" + 
       "<id>2</id>"* + 
      "</item>" + 
     "</root>") 
     >>> el = etree.fromstring(xml) 
     >>> getels(el, 'root', 'item', ns='correct/namespace') 
     [<Element item>, <Element item>] 
    """ 

    ns = kwargs['ns'] 

    i=-1 
    for i in range(len(path)-1): 
     elt = getel(elt, path[i], ns=ns) 
    tag_name = path[i+1] 
    return elt.findall(get_tag_with_ns(tag_name, ns=ns))

kaynak

2013-08-05 21:26:08 Josh

cevap

İlgili konular