티스토리 뷰
⇒ minidom을 import
>>> from xml.dom import minidom |
⇒ 문자열을 xml 파싱이 가능한 형식으로 변형
>>> xmlraw = minidom.parseString(text) >>> xmlraw <xml.dom.minidom.Document instance at 0xb7bedc8c> |
⇒ <sentence> tag 부분에 대해서 파싱
>>> sentenceList = xmlraw.getElementsByTagName('sentence') >>> sentenceList [<DOM Element: s at 0xb7bedf6c>] |
⇒ <sentence> tag 부분으로 나누어진 리스트로 반환되며 인덱스(0, 1, 2, ...)로 접근 가능
※ toxml() 은 문자열로 반환
>>> sentenceList[0].toxml() <sentence id="11"> <eojeol id="11-1"> <e>경제의</e> <m>경제 의</m> </eojeol> <eojeol id="11-2"> <e>나라는</e> <m>나라 는</m> </eojeol> </sentence>
|
⇒ 이후 재귀적으로 내부 파싱 가능, <eojeol> → <e>
>>> eojeol = sentenceList[0].getElementsByTagName('eojeol') >>> e = eojeol[0].getElementsByTagName('e') >>> e[0].toxml() <e>경제의</e> >>> e[1].toxml() <e>나라는</e> |
⇒ 태의 안의 데이터를 얻는 방법
'<e>경제의</e>' 의 경제의 만을 얻고자 할 경우 다음과 같은 함수를 사용한다.
>>> e[0].firstChild.data 경제의 >>> e[1].firstChild.data 나라는 |
>>> sentenceList[0].getAttribute('id') 11 >>> eojeol[0].getAttribute('id') 11-1 |
from xml.dom import minidom test='''<?xml version="1.0" encoding="UTF-8"?> xmlraw = minidom.parseString(test)
for sentence in sentences: eojeolSize = len(eojeols) |
11 경제 의 나라 는 12 경제 의 나라 는 |
'조사' 카테고리의 다른 글
Dell DRAC 원격 DSET dump 방법 및 각 밴더별 OOB 정리 (0) | 2015.08.20 |
---|---|
Windows FTP Command를 이용한 파일 업로드 (0) | 2015.07.30 |
NFS ( Network File System ) (0) | 2015.03.18 |
ITSM (2) | 2015.01.16 |
[Cisco Unified Computing System Platform Emulator/UCS 애뮬레이터/UCSPE] (0) | 2015.01.15 |