data_processor.go 8.5 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280
  1. package ruizide
  2. import (
  3. "context"
  4. "encoding/json"
  5. "errors"
  6. "eta/eta_data_analysis/models"
  7. "eta/eta_data_analysis/utils"
  8. "fmt"
  9. "io"
  10. "log"
  11. "os"
  12. "path/filepath"
  13. "time"
  14. "github.com/chromedp/chromedp"
  15. )
  16. var (
  17. excelDir = utils.RZD_EXCEL_PATH
  18. downloadDir = utils.RZD_DOWNLOAD_PATH
  19. rzdLoginPath = utils.RZD_LOGIN_PATH
  20. rzdBatchSize = 500
  21. )
  22. // 处理数据下载的步骤
  23. func downloadData(ctx context.Context) error {
  24. // Analytics Library
  25. if err := chromedp.Run(ctx,
  26. chromedp.Sleep(5*time.Second), // 考虑移除这一行,如果不必要的话
  27. chromedp.Navigate(rzdLoginPath),
  28. chromedp.WaitVisible(`a.mat-tooltip-trigger.analytics.home__link-card-icon[href="/analytics"]`, chromedp.ByQuery), // 等待元素可见
  29. chromedp.Click(`a.mat-tooltip-trigger.analytics.home__link-card-icon[href="/analytics"]`, chromedp.ByQuery), // 点击链接
  30. chromedp.Sleep(5*time.Second),
  31. ); err != nil {
  32. return fmt.Errorf("下载 Analytics Library 数据错误: %v", err)
  33. }
  34. if err := chromedp.Run(ctx,
  35. chromedp.WaitVisible(`#intro-home-page-step1`, chromedp.ByID), // 等待 input 元素可见
  36. chromedp.SetValue(`#intro-home-page-step1`, "oil demand signals weekly report", chromedp.ByID), // 设置值
  37. chromedp.SendKeys(`#intro-home-page-step1`, "\u000D", chromedp.ByID), // 模拟按下回车键 (\u000D 是回车的 Unicode)
  38. chromedp.Sleep(5*time.Second),
  39. ); err != nil {
  40. return fmt.Errorf("设置 input 标签值时发生错误: %v", err)
  41. }
  42. if err := chromedp.Run(ctx,
  43. // 等待第一个 download-btns div 和下载按钮可见
  44. chromedp.WaitVisible(`//div[contains(@class, 'download-btns')][1]//ul//li//button[contains(@class, 'mat-tooltip-trigger') and contains(@class, 'download__excel') and normalize-space(text())='Data']`, chromedp.BySearch),
  45. // 点击第一个 div 中的 Excel 下载按钮
  46. chromedp.Click(`//div[contains(@class, 'download-btns')][1]//ul//li//button[contains(@class, 'mat-tooltip-trigger') and contains(@class, 'download__excel') and normalize-space(text())='Data']`, chromedp.BySearch),
  47. // 可选:等待下载完成,可以调整等待时间
  48. chromedp.Sleep(5*time.Second), // 根据下载时间设置
  49. ); err != nil {
  50. return fmt.Errorf("点击第一个下载按钮时发生错误: %v", err)
  51. }
  52. // 解析文件移动到目标目录
  53. if err := WaitAndRenameDownloadedFile("Oil_Demand_Signals_Weekly_Report_"+utils.GetCurrentYearMonth()+".xlsx", excelDir); err != nil {
  54. return err
  55. }
  56. return nil
  57. }
  58. // WaitAndRenameDownloadedFile 等待下载文件并重命名
  59. func WaitAndRenameDownloadedFile(newFileName, targetDir string) error {
  60. // 等待一段时间以确保文件下载完成
  61. time.Sleep(100 * time.Second) // 可能需要根据实际情况调整
  62. // 查找下载目录中的文件
  63. files, err := filepath.Glob(filepath.Join(downloadDir, "*.xlsx"))
  64. if err != nil {
  65. return fmt.Errorf("查找文件时出错: %v", err)
  66. }
  67. // 如果没有找到文件,返回错误
  68. if len(files) == 0 {
  69. return fmt.Errorf("未找到任何下载的文件")
  70. }
  71. // 找到最新的文件
  72. var latestFile string
  73. var latestTime time.Time
  74. for _, file := range files {
  75. info, err := os.Stat(file)
  76. if err != nil {
  77. return fmt.Errorf("获取文件信息时出错: %v", err)
  78. }
  79. if info.ModTime().After(latestTime) {
  80. latestTime = info.ModTime()
  81. latestFile = file
  82. }
  83. }
  84. // 目标文件的完整路径
  85. targetFilePath := filepath.Join(targetDir, newFileName)
  86. // 重命名并移动到目标目录
  87. if latestFile != "" {
  88. if err := moveFile(latestFile, targetFilePath); err != nil {
  89. return fmt.Errorf("重命名文件时出错: %v", err)
  90. }
  91. // 打印重命名后的文件名
  92. utils.FileLog.Info("文件重命名并移动到: ", targetFilePath)
  93. fmt.Printf("文件重命名并移动到: %s\n", targetFilePath)
  94. }
  95. return nil
  96. }
  97. func moveFile(source, destination string) (err error) {
  98. // 复制文件
  99. srcFile, err := os.Open(source)
  100. if err != nil {
  101. return fmt.Errorf("打开源文件时出错: %v", err)
  102. }
  103. defer func() {
  104. _ = srcFile.Close()
  105. }()
  106. dstFile, err := os.Create(destination)
  107. if err != nil {
  108. return fmt.Errorf("创建目标文件时出错: %v", err)
  109. }
  110. defer func() {
  111. _ = dstFile.Close()
  112. }()
  113. if _, err = io.Copy(dstFile, srcFile); err != nil {
  114. return fmt.Errorf("复制文件时出错: %v", err)
  115. }
  116. time.Sleep(60 * time.Second)
  117. // 删除源文件
  118. /*if err := os.Remove(source); err != nil {
  119. return fmt.Errorf("删除源文件时出错: %v", err)
  120. }*/
  121. return nil
  122. }
  123. func createPath(paths []string) (err error) {
  124. for _, path := range paths {
  125. if path == "" {
  126. continue
  127. }
  128. _, err = os.Stat(path)
  129. if err != nil {
  130. if os.IsNotExist(err) {
  131. if err = os.MkdirAll(path, os.ModePerm); err != nil {
  132. fmt.Printf("睿咨得创建目录时出错: %v\n", err)
  133. utils.FileLog.Error("睿咨得创建目录时出错: %v", err)
  134. return
  135. }
  136. } else {
  137. return
  138. }
  139. }
  140. }
  141. return
  142. }
  143. // ResolverNet 解析网页数据,下载文件
  144. func ResolverNet(_ context.Context) (err error) {
  145. if err = createPath([]string{excelDir}); err != nil {
  146. return
  147. }
  148. // 创建 chromedp 执行上下文
  149. options := append(chromedp.DefaultExecAllocatorOptions[:3],
  150. //关闭无头模式
  151. chromedp.Flag("headless", false),
  152. chromedp.Flag("disable-blink-features", "AutomationControlled"),
  153. chromedp.UserAgent(`Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36`),
  154. chromedp.Flag("safebrowsing.enabled", true), // 启用安全浏览
  155. )
  156. parentCtx, cancel := chromedp.NewExecAllocator(context.Background(), options...)
  157. ctx, ctxCancel := chromedp.NewContext(parentCtx)
  158. defer func() {
  159. cancel()
  160. ctxCancel()
  161. }()
  162. // 启动 Chrome 实例
  163. if err = chromedp.Run(ctx); err != nil {
  164. utils.FileLog.Error("睿咨得启动 Chrome 实例时出错:", err.Error())
  165. fmt.Printf("睿咨得启动 Chrome 实例时出错: %v\n", err)
  166. return
  167. }
  168. // 登录操作
  169. if err = login(ctx); err != nil {
  170. utils.FileLog.Error("睿咨得登录错误:", err.Error())
  171. fmt.Printf("睿咨得登录错误: %v\n", err)
  172. return
  173. }
  174. fmt.Printf("登录成功")
  175. // 下载数据
  176. if err = downloadData(ctx); err != nil {
  177. utils.FileLog.Error("睿咨得数据下载错误:", err.Error())
  178. fmt.Printf("睿咨得数据下载错误: %v\n", err)
  179. return
  180. }
  181. utils.FileLog.Info("睿咨得数据下载完成")
  182. // 解析表格 读取数据
  183. err = FileResolver()
  184. return
  185. }
  186. func login(ctx context.Context) error {
  187. if rzdLoginPath == "" {
  188. return errors.New("睿咨得登录页面地址未配置")
  189. }
  190. return chromedp.Run(ctx,
  191. chromedp.Navigate(rzdLoginPath),
  192. chromedp.WaitVisible(`body`, chromedp.ByQuery),
  193. chromedp.SetValue(`input[id="Username"]`, utils.RZD_USERNAME, chromedp.ByQuery),
  194. chromedp.SetValue(`input[id="Password"]`, utils.RZD_PASSWORD, chromedp.ByQuery),
  195. chromedp.WaitEnabled(`//button[text()='Login']`, chromedp.BySearch),
  196. chromedp.Sleep(5*time.Second),
  197. chromedp.Click(`//button[text()='Login']`, chromedp.BySearch),
  198. // 等待并点击登录后页面的链接
  199. /*chromedp.WaitVisible(`a[href="/home"]`, chromedp.ByQuery), // 等待 Analytics Library 链接可见
  200. chromedp.Sleep(5*time.Second), */ // 等待页面加载完成
  201. )
  202. }
  203. func httpRequestFill(data interface{}, urlMethod string) (postEdbLib []byte, err error) {
  204. // 转换成json
  205. marshal, err := json.Marshal(data)
  206. if err != nil {
  207. return nil, err
  208. }
  209. // json 转 interface
  210. var result map[string]interface{}
  211. err = json.Unmarshal(marshal, &result)
  212. if err != nil {
  213. return nil, err
  214. }
  215. postEdbLib, err = utils.PostEdbLibRequest(result, urlMethod)
  216. if err != nil {
  217. // 有错误就不继续执行
  218. log.Printf("postEdbLib err: %v", err)
  219. return nil, err
  220. }
  221. return postEdbLib, nil
  222. }
  223. // FileResolver 解析本地文件
  224. func FileResolver() error {
  225. //获取rzd数据库分类数据
  226. rzdClassifyList, err := getRzdClassifyList()
  227. if err != nil {
  228. fmt.Printf("获取睿咨得分类数据失败: %v", err)
  229. utils.FileLog.Error("获取睿咨得分类数据失败:", err.Error())
  230. return err
  231. }
  232. RzdClassifyMap = make(map[string]*models.BaseFromRzdClassify)
  233. //更新睿咨得分类Map
  234. for _, classify := range rzdClassifyList {
  235. RzdClassifyMap[classify.ClassifyName] = classify
  236. }
  237. for _, tableName := range tableNameList {
  238. rzdProcessor, processorErr := GetRZDProcessor(tableName)
  239. if processorErr != nil {
  240. utils.FileLog.Error("获取睿咨得数据处理器:", processorErr.Error())
  241. continue
  242. }
  243. err = rzdProcessor.Process(tableName)
  244. if err != nil {
  245. utils.FileLog.Error(fmt.Sprintf("%s处理数据失败:", tableName), err.Error())
  246. continue
  247. }
  248. }
  249. return nil
  250. }